Seek .(SKLTY)

搜索文档
训练成本29.4万美元,DeepSeek-R1登Nature封面,首个通过权威期刊同行评审的主流大模型获好评
36氪· 2025-09-18 07:55
DeepSeek-R1 的相关研究成果登上 Nature 封面,作为首个通过权威期刊同行评审的主流大模型,其也在技术之外,补充披露了训练成本。 9 月 17 日,DeepSeek-R1 的相关研究成果登上 Nature 封面,这一消息迅速在全球学术领域引发热烈讨论。其实相关研究成果已经于今年 1 月以预印本的 形式发表于 arXiv,但本次公开于 Nature 的意义在于其通过这一权威期刊接受了同行评审,换言之,外部专家并非只接收单向信息,而是能够在独立第 三方(编辑)的监督和管理下,通过一个协作过程提出问题并向作者团队要求更多信息,实属业内首次。 更加重要的是,不同于 1 月公开的预印本论文已经概述了研究方法以及 DeepSeek-R1 在一系列评测基准上的表现,这一正式见刊的论文中补充披露了该 模型的训练成本。据 Nature News 的报道显示,DeepSeek-R1 训练成本仅相当于 29.4 万美元,尽管 DeepSeek 已经为 R1 模型所依托的基础 LLM 投入了约 600 万美元,但成本总额仍远低于业内普遍认为的头部模型训练所需的数千万美元。 * 预印版论文地址:https://hyper ...
DeepSeek-R1 论文登上《自然》封面,通信ETF收涨1.92%
搜狐财经· 2025-09-18 07:50
市场表现 - 三大指数冲高回落 沪指跌1.15% 深成指跌1.06% 创业板指跌1.64% [2] - 旅游 CPO 芯片产业链板块涨幅居前 有色金属 大金融 稀土永磁板块跌幅居前 [2] - 国泰中证全指通信设备ETF收涨1.92% 成分股光库科技涨15% 烽火通信 长飞光纤 亨通光电涨停 [2] 人工智能技术突破 - DeepSeek-R1推理模型研究论文登上《自然》封面 为全球首个经过同行评审的主流大语言模型 [2] - 论文披露更多模型训练细节 正面回应蒸馏质疑 [2] 算力产业前景 - 华为预测2035年全社会算力总量增长10万倍 AI存储容量需求较2025年增长500倍 [3] - 华为公布昇腾芯片路线图 2026Q1推出昇腾950PR 2026Q4推出昇腾950DT 2027Q4推出昇腾960 2028Q4推出昇腾970 [3] 光通信行业分析 - 海外AI算力大额订单与强劲需求支撑光模块行业基本面 AI驱动算力扩张周期持续 [3] - 短期市场情绪化调整提供优质配置机会 中长期坚定看好光模块赛道 [3] 人工智能产业趋势 - 人工智能处于政策 技术 需求三维共振阶段 "人工智能+"行动提供政策赋能与资金支撑 [3] - 国产芯片及云计算龙头业绩逐步验证 大厂CapEx持续投入推高行业发展确定性 [3] - 行业景气度仍有上行空间 科技投资主线地位稳固 [3]
DeepSeek登《Nature》封面 梁文锋带队 首次回应争议
凤凰网· 2025-09-18 07:48
研究突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注的依赖[1] - 引入组相对策略优化算法 仅依据最终答案正确性给予奖励 而非模仿人类推理路径[4] - 模型自然涌现自我反思 自我验证及生成长推理链等高级行为 单问题推敲可达数百至上千token[4] 性能表现 - 模型在美国数学邀请赛准确率从15.6%跃升至77.9% 采用自洽解码后达86.7% 超越人类平均水平[4] - 在数学解题 编程竞赛及STEM领域研究生水平问题上均展现更优表现[1] - 通过多阶段优化后 在写作 问答等通用任务上展现流畅性和一致性[5] 成本效率 - 推理成本仅29.4万美元 基础模型训练开销约600万美元 总成本远低于国外巨头[3] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[3] - 突破行业"资金即壁垒"共识 展现算法创新对成本结构的颠覆性影响[3][8] 技术路径 - 采用非传统训练方式 并非通过复制OpenAI模型推理示例学习[1] - 基础模型基于网络训练 会吸收互联网已有AI生成内容[1] - 方法论被《自然》评论为"让AI学会自己思考" 而非"教AI思考"[4][5] 行业影响 - 研究被《自然》杂志收录并登上封面 标志中国AI领域重大突破[1] - 被Nature审稿人评价为"开启推理革命" 多机构开始应用该方法论改善现有模型[9] - 推动行业竞争从"数据与算力军备竞赛"转向"算法与智慧创新竞赛"[9] 团队背景 - 创始人梁文锋具浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[7] - 曾创办雅克比投资及幻方科技 2023年转向通用人工智能领域[8] - 团队建设坚持"能力为先" 核心岗位由应届生及低年限经验人员构成 自主培养人才[8]
DeepSeek打破历史!中国AI的“Nature时刻”
证券时报· 2025-09-18 07:29
研究突破与学术认可 - DeepSeek-R1推理模型研究论文登上Nature封面 成为中国大模型研究首次获此认可 也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究 [1] - Nature社论评价该研究打破主流大模型缺乏独立同行评审的局面 强调其公开性和透明性价值 [1][2] - 论文历经半年评审周期 8位外部专家参与质询数据来源、训练方法及安全性 全文64页包含训练成本披露和技术细节更新 [2] 技术创新与成本优势 - R1模型使用512张H800 GPU训练80小时 以每GPU小时2美元租赁成本计算 总训练成本为29.4万美元(约209万元人民币) 较其他推理模型千万级成本显著降低 [3] - 团队澄清未使用专有模型蒸馏技术 训练数据全部来自互联网 包含GPT-4生成内容属非故意行为 并提供数据污染防控流程 [3] - DeepSeek-V3.1采用混合推理架构 支持思考与非思考双模式 通过后训练优化提升工具使用与智能体任务表现 [4] 硬件生态与产业协同 - V3.1版本采用UE8M0 FP8 Scale参数精度 专为下一代国产芯片设计 预示未来训练与推理将更多应用国产AI芯片 [4][5] - 通过FP8精度降低算力需求 使国产ASIC芯片在12-28nm成熟制程接近英伟达GPU算力精度 形成"软硬协同"技术壁垒 [5] - 该技术路径带动国产芯片算力股股价飙升 可能成为行业新技术趋势 通过软硬件协同实现数量级性能提升 [5]
中国大模型首登《自然》封面,AI医学的DeepSeek时刻还远吗?
第一财经· 2025-09-18 07:02
在最新一期《自然》封面上,首次出现了来自中国AI科技公司DeepSeek的大模型R1。此前,全球的科技公司中仅有拿下过诺贝尔奖的DeepMind的 AlphaFold获此殊荣。 人工智能工具已经在其他科学领域展现出潜力,例如极端天气预报。自2022年底ChatGPT推出以来,生成式AI的迅猛发展在医学领域也掀起热潮。从药物 设计到医学影像,AI企业正在加速与临床应用的融合。随着中国大模型更多技术细节的披露,未来也有望推动大模型在医学领域的落地,AI医学的 DeepSeek时刻即将到来。 从药物设计到医学影像,AI企业正在加速与临床应用的融合。 "人工智能的吸引力在于它可以快速浏览分子数据库,将化合物与靶点相匹配。"一位制药领域专家对第一财经记者表示,"但这只是药物发现的第一步,还 有很多问题目前尚无法用人工智能来预测,例如药物的毒副作用。" 上述专家表示,在纸面上看起来不错的药物在临床试验中仍然有90%的失败率。"AI制药最终走向现实,其过程堪比自动驾驶汽车上路,除了解决技术算法 上的核心难题之外,还面临复杂的生物学问题以及最终走向应用时所面临的监管问题。"他说道,"这是因为人类对于自身的生物学问题仍然知之甚 ...
DeepSeek声明:防范冒用“深度求索”名义实施诈骗
每日经济新闻· 2025-09-18 06:56
1.深度求索从未要求用户向个人账户或非官方账户付款,任何要求私下转账的行为均属诈骗; 2.任何冒用我司名义开展"算力租赁"、"融资"等行为均属违法,我们将依法追究其法律责任。 每经AI快讯,9月17日,深度求索(DeepSeek)发布官方声明: 近期,有不法分子冒充"深度求索"(DeepSeek)官方或在职员工,伪造工牌、营业执照等材料,在多个 平台以"算力租赁"、"股权融资"等名义向用户收取费用实施诈骗。该行为严重侵害用户权益,并损害我 司声誉。 ...
DeepSeek登《Nature》封面,梁文锋带队,首次回应“蒸馏”争议
凤凰网· 2025-09-18 06:17
技术突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注依赖[5] - 引入组相对策略优化算法 仅依据最终答案正确与否给予奖励 而非模仿人类推理路径[6] - 模型自然涌现自我反思 自我验证及生成长推理链条等高级行为 在数学测试中生成数百至数千token反复推敲问题[7] 性能表现 - 美国数学邀请赛准确率从15.6%跃升至77.9% 使用自洽解码后达86.7% 超越人类平均水平[7] - 在数学解题 编程竞赛及STEM领域研究生水平问题上表现优于传统训练方式[5] - 多阶段优化后不仅在硬核任务表现突出 在写作问答等通用任务展现流畅性和一致性[7] 成本优势 - 模型推理成本仅29.4万美元 基础模型训练开销约600万美元 远低于国外巨头[6] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[6] - 低成本高推理能力突破源于算法创新和团队培养理念[6][9] 行业影响 - 打破资金即壁垒的行业共识 将AI发展主动权交还科学创新[10] - 开启全球AI推理革命 多国应用该方法论改善现有大语言模型[10] - 推动行业竞争从数据算力军备竞赛转向算法智慧创新竞赛[11] 研发背景 - 创始人梁文锋拥有浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[8] - 2013年创办幻方科技 2023年转向通用人工智能领域创立DeepSeek[8] - 核心团队由应届毕业生和年轻人才组成 坚持能力为先的自主培养模式[9]
DeepSeek发布防诈骗声明:有不法分子冒用公司名义开展“算力租赁”“融资”,将追究其法律责任
新浪科技· 2025-09-18 05:53
诈骗风险警示 - 近期出现不法分子冒充公司官方或员工 通过伪造工牌及营业执照等材料实施诈骗 [1][2] - 诈骗手段涉及以算力租赁和股权融资等名义向用户收取费用 [1][2] - 该行为严重侵害用户权益并损害公司声誉 [1][2] 官方声明要点 - 公司从未要求用户向个人账户或非官方账户付款 任何私下转账要求均属诈骗 [1][3] - 冒用公司名义开展算力租赁或融资等行为均属违法 公司将依法追究法律责任 [1][3] - 官方网页及App产品目前均为免费状态 API调用服务需通过官网开放平台充值 [1] 官方验证渠道 - 用户应通过官网deepseek com及官方认证账号获取信息 [1] - 官方收款账户名称为杭州深度求索人工智能基础技术研究有限公司 [1] - 遇可疑情况可通过官方邮箱核实或向公安机关举报 [1]
DeepSeek,打破历史!中国AI的“Nature时刻”
证券时报· 2025-09-18 05:24
中国大模型,首登Nature封面。 9月17日,在最新一期的国际权威期刊Nature(自然)中,DeepSeek-R1推理模型研究论文登上了封面。 该论文由DeepSeek团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推 理能力的重要研究成果。这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并 发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可。 Nature在其社论中评价道:"几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被 DeepSeek打破。" 中国AI大模型的"Nature时刻" 自大模型浪潮席卷全球以来,技术发布、性能榜单层出不穷,但始终缺乏一个权威的"科学认证"机制。 OpenAI、谷歌等巨头虽屡有突破,但其核心技术多以技术报告形式发布,未经独立同行评审。 DeepSeek以其公开性和透明性打破了这一局面。DeepSeek-R1模型的研究论文最早于今年年初发布在预 印本平台arXiv上。自今年2月14日向Nature投递论文至今,历经半年,8位外部专家参与了同行评审, DeepSeek-R1推理模型研究论文终 ...
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 04:34
"没有故意加入OpenAI生成的合成数据。" 9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文,登上了国际权威期刊《Nature》的封面。 今年1月,DeepSeek曾在arxiv公布了初版预印本论文,相较而言,此次发布在《Nature》的版本补充了更多模型细节,减少了描述中的拟人化说明。在补充 材料中,DeepSeek提到了R1模型的训练成本仅29.4万美元,以及回应了模型发布之初关于蒸馏OpenAI的质疑。 今年1月,有报道提到,OpenAI研究人员认为,DeepSeek可能使用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力提 升。 在论文的补充资料部分,DeepSeek回应了关于DeepSeek-V3-Base训练数据来源的问题。"DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任 何合成数据。在预训练冷却阶段,我们没有故意加入OpenAI生成的合成数据,此阶段使用的所有数据都是通过网页抓取的。"DeepSeek表示。 不过,DeepSeek也说明,已观察到一些网页包含 ...