Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek声明:防范冒用“深度求索”名义实施诈骗
每日经济新闻· 2025-09-18 06:56
1.深度求索从未要求用户向个人账户或非官方账户付款,任何要求私下转账的行为均属诈骗; 2.任何冒用我司名义开展"算力租赁"、"融资"等行为均属违法,我们将依法追究其法律责任。 每经AI快讯,9月17日,深度求索(DeepSeek)发布官方声明: 近期,有不法分子冒充"深度求索"(DeepSeek)官方或在职员工,伪造工牌、营业执照等材料,在多个 平台以"算力租赁"、"股权融资"等名义向用户收取费用实施诈骗。该行为严重侵害用户权益,并损害我 司声誉。 ...
DeepSeek登《Nature》封面,梁文锋带队,首次回应“蒸馏”争议
凤凰网· 2025-09-18 06:17
技术突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注依赖[5] - 引入组相对策略优化算法 仅依据最终答案正确与否给予奖励 而非模仿人类推理路径[6] - 模型自然涌现自我反思 自我验证及生成长推理链条等高级行为 在数学测试中生成数百至数千token反复推敲问题[7] 性能表现 - 美国数学邀请赛准确率从15.6%跃升至77.9% 使用自洽解码后达86.7% 超越人类平均水平[7] - 在数学解题 编程竞赛及STEM领域研究生水平问题上表现优于传统训练方式[5] - 多阶段优化后不仅在硬核任务表现突出 在写作问答等通用任务展现流畅性和一致性[7] 成本优势 - 模型推理成本仅29.4万美元 基础模型训练开销约600万美元 远低于国外巨头[6] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[6] - 低成本高推理能力突破源于算法创新和团队培养理念[6][9] 行业影响 - 打破资金即壁垒的行业共识 将AI发展主动权交还科学创新[10] - 开启全球AI推理革命 多国应用该方法论改善现有大语言模型[10] - 推动行业竞争从数据算力军备竞赛转向算法智慧创新竞赛[11] 研发背景 - 创始人梁文锋拥有浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[8] - 2013年创办幻方科技 2023年转向通用人工智能领域创立DeepSeek[8] - 核心团队由应届毕业生和年轻人才组成 坚持能力为先的自主培养模式[9]
DeepSeek发布防诈骗声明:有不法分子冒用公司名义开展“算力租赁”“融资”,将追究其法律责任
新浪科技· 2025-09-18 05:53
诈骗风险警示 - 近期出现不法分子冒充公司官方或员工 通过伪造工牌及营业执照等材料实施诈骗 [1][2] - 诈骗手段涉及以算力租赁和股权融资等名义向用户收取费用 [1][2] - 该行为严重侵害用户权益并损害公司声誉 [1][2] 官方声明要点 - 公司从未要求用户向个人账户或非官方账户付款 任何私下转账要求均属诈骗 [1][3] - 冒用公司名义开展算力租赁或融资等行为均属违法 公司将依法追究法律责任 [1][3] - 官方网页及App产品目前均为免费状态 API调用服务需通过官网开放平台充值 [1] 官方验证渠道 - 用户应通过官网deepseek com及官方认证账号获取信息 [1] - 官方收款账户名称为杭州深度求索人工智能基础技术研究有限公司 [1] - 遇可疑情况可通过官方邮箱核实或向公安机关举报 [1]
DeepSeek,打破历史!中国AI的“Nature时刻”
证券时报· 2025-09-18 05:24
学术成就与行业认可 - DeepSeek-R1推理模型研究论文登上国际权威期刊《Nature》封面,标志着中国大模型研究首次获此殊荣,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究[1] - 《Nature》社论评价指出,几乎所有主流大模型都未经过独立同行评审,这一空白被DeepSeek打破[1][2] - 论文历经半年评审周期,8位外部专家参与同行评审,从预印本到正式发表于《Nature》封面,完成了“学术跃迁”[2] 技术方法与透明度 - 研究成果首次公开了仅靠强化学习就能激发大模型推理能力的方法[1] - 论文全文64页,首次披露了R1的训练成本,并对数据来源、训练方法、安全性等审稿人质询作出详细回应[2] - 针对外界“蒸馏”质疑,公司澄清其训练数据全部来自互联网,虽可能包含GPT-4生成结果,但非有意为之,更没有专门的蒸馏环节[3] 训练成本与效率 - R1模型使用512张H800 GPU训练80个小时,以每GPU小时2美元的租赁价格计算,总训练成本为29.4万美元(约合人民币209万元)[3] - 与其他推理模型动辄上千万美元的花费相比,该成本实现了极大降本[3] 模型演进与未来规划 - 自年初发布R1后,公司于8月21日发布DeepSeek-V3.1,称为“迈向Agent时代的第一步”[4] - V3.1采用混合推理架构,同时支持思考与非思考模式,具有更高思考效率和更强智能体能力[4] - V3.1使用UE8M0 FP8 Scale参数精度,该精度是针对下一代国产芯片设计,表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片[4][5] 行业影响与技术趋势 - 公司从V3版本就开始采用FP8参数精度验证训练有效性,通过降低算力精度,使国产ASIC芯片能在成熟制程(12-28nm)上接近先进制程英伟达GPU的算力精度[5] - “软硬协同”的生态技术壁垒逐渐成为AI浪潮下新范式,未来国产大模型将更多拥抱FP8算力精度并有望成为一种新技术趋势[5] - 这一技术方向带动国产芯片算力股股价飙升,助力国产算力生态加速建设[5]
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 04:34
学术成就与行业认可 - 公司研究成果登上国际权威期刊《Nature》封面,通讯作者为梁文锋[1] - 该论文是全球首个经过同行评审的主流大语言模型,为行业树立了先例[11] - 同行评审有助于独立评估系统风险,增强研究成果的可信度[11] 技术方法与创新 - 研究核心为仅通过强化学习激发大模型推理能力,开辟了不依赖大量监督数据的新思路[11][13] - 采用群组相对策略优化(GRPO)降低训练成本,并通过设计奖励机制引导模型优化方向[13] - 模型在强化学习中学会推理,通过自我验证和反思提高在编程和研究生水平科学问题上的表现[13] 训练成本与效率 - DeepSeek-R1模型总训练成本为294万美元,折合人民币约200万元[9] - 具体成本构成:DeepSeek-R1-Zero训练202万美元,SFT数据集创建1万美元,DeepSeek-R1训练82万美元[9] - 即便加上训练基础模型DeepSeek-V3所花费的约600万美元,总成本仍远低于竞争对手模型的数千万美元[10] 模型性能与影响 - DeepSeek-R1已成为全球最受欢迎的开源推理模型,在Hugging Face平台下载量超1090万次[11] - 开发团队使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调,显著增强了小模型的推理能力[13] 数据来源与争议回应 - 公司在论文补充资料中明确表示,基础模型训练数据仅来自普通网页和电子书,不包含任何合成数据[5] - 公司承认网页可能包含大量OpenAI模型生成的答案,导致基础模型间接受益,但已针对数据污染进行处理[7] - 行业专家认为公司关于未使用OpenAI输出训练模型的回应具有说服力,其他实验室的复制尝试支持其方案的有效性[7]
DeepSeek登上国际权威期刊Nature封面;华为预测2035年AI存储容量需求将比2025年增长500倍
每日经济新闻· 2025-09-18 03:02
市场表现 - 沪指涨0.37%报收3876.34点 深成指涨1.16%报收13215.46点 创业板指涨1.95%报收3147.35点 [1] - 科创半导体ETF涨3.64% 半导体材料ETF涨3.32% [1] - 道琼斯工业平均指数涨0.57% 纳斯达克综合指数跌0.33% 标准普尔500指数跌0.10% [1] - 费城半导体指数跌0.31% 恩智浦半导体涨0.78% 美光科技涨0.74% ARM跌0.31% 应用材料涨2.64% 微芯科技涨2.06% [1] 人工智能技术突破 - DeepSeek-R1推理模型研究论文登上《自然》封面 成为全球首个经过同行评审的主流大语言模型 [2] - 论文披露更多模型训练细节 正面回应蒸馏质疑 [2] 半导体与算力发展前景 - 2035年全社会算力总量将大幅增长 计算领域突破传统冯诺依曼架构束缚 [2] - AI存储容量需求比2025年增长500倍 占比超过70% [2] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现向智能体互联网跃迁 [2] 区域产业规划 - 上海浦东新区启幕张江人工智能创新小镇 计划2027年新集聚人工智能企业500家以上 完成大模型备案100个 [3] - 2030年目标新集聚1000家人工智能企业 实现千亿元产业规模 [3] - 高瓴创投与浦东创投联合发起总规模20亿元的"张江人工智能创新小镇链接基金" [3] 行业趋势研判 - 2025年上半年全球半导体行业呈现结构性繁荣 受AI算力需求增长/终端智能化加速/汽车电子复苏/国产替代深化驱动 [3] - 二季度半导体多数子板块业绩高速增长 三季度旺季有望延续景气 [3] - 2025年全球半导体保持乐观增长走势 AI驱动下游增长 [3] ETF产品布局 - 科创半导体ETF(588170)跟踪上证科创板半导体材料设备主题指数 覆盖半导体设备(59%)和半导体材料(25%)领域 [4] - 半导体材料ETF(562590)指数中半导体设备(59%)和半导体材料(24%)占比靠前 聚焦半导体上游 [4] - 半导体设备和材料行业具备国产化率较低/国产替代天花板较高属性 受益于AI需求扩张/科技重组并购/光刻机技术进展 [4]
国际期刊发表DeepSeek大规模推理模型训练方法 揭示AI背后的科学
中国新闻网· 2025-09-18 02:55
核心观点 - 公司DeepSeek在《自然》期刊上发表论文,揭示其大语言模型DeepSeek-R1采用纯强化学习训练方法,可有效提升模型推理能力,减少对人类输入数据的依赖,并在多项复杂任务中表现优于传统训练方法 [1] 技术方法与创新 - 模型训练采用大规模推理模型训练方法,核心是通过纯强化学习来提升大语言模型的推理能力 [1] - 该方法减少了增强性能所需的人类输入工作量,从而降低了训练成本和复杂性 [1][2] - 模型包含一个在人类监督下的深入训练阶段以优化推理过程,并使用强化学习而非人类示例来开发推理步骤 [2] 模型性能表现 - 在数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1的得分分别为77.9%和79.8% [2] - 模型在编程竞赛及研究生水平的生物学、物理和化学等STEM领域问题上同样表现优异 [1][2] 当前能力限制与未来方向 - 模型存在一些能力限制,例如有时会混合语言,目前仅针对中文和英文做了优化 [2] - 模型对提示词敏感,需要精心设计的提示词工程,在某些任务(如软件工程)上未展现出明显提升 [2] - 未来研究可聚焦于优化奖励过程,以确保推理和任务结果的可靠性 [3]
DeepSeek论文登上《自然》封面,R1成为首个严格学术审查大模型
新浪财经· 2025-09-18 02:23
公司里程碑与学术认可 - DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》封面 成为首个通过同行评议的主要大语言模型[1] - 《自然》期刊在评论报道中用"里程碑式论文"和"创造历史"表达赞赏 标志着中国在大模型基础研究领域取得重要突破[2] - 在同行评审过程中 公司根据评审意见减少模型拟人化描述并增加技术细节说明 包括模型训练数据类型和安全性考虑[1] 技术创新与成本优势 - 模型核心创新在于采用"纯强化学习"方法 通过奖励模型达到正确答案的行为来学习推理策略[2] - R1训练成本仅为29.4万美元 即使加上约600万美元基础模型成本 也远低于行业巨头训练成本[2] - DeepSeek-V3.1实现混合推理架构 一个模型同时支持思考模式与非思考模式 具备更高思考效率和更强智能体能力[3] 市场影响与开源成果 - 今年1月模型发布时 其卓越推理能力和极低开发成本曾引发全球科技股大幅下跌[2] - 开源后R1在Hugging Face下载量突破1090万次 成为全球最受欢迎的开源推理模型[2] - 公司明确否认使用OpenAI模型输出进行训练的质疑 强调数据全部来自互联网且无专门蒸馏环节[1] 行业意义与数据安全 - 同行评审被《自然》杂志视为抑制AI行业过度炒作的有效方式 公司做法被视为值得欢迎的先例[3] - 为防止基准测试数据污染 公司对预训练和后训练数据都实施全面去污染措施[1] - 公司成立于2023年 由幻方量化孵化 创始团队由梁文锋领衔 成员来自顶尖高校与国际机构[3]
DeepSeek-R1论文登上《自然》封面,AI人工智能ETF(512930)涨超0.6%冲击3连涨
新浪财经· 2025-09-18 02:04
行业突破 - DeepSeek-R1成为全球首个经过独立同行评审的主流大语言模型 研究成果登上《自然》期刊封面 [1] - 国产AI生态加速完善 产业链在模型、算力及应用环节均呈现加速发展态势 [1] 市场表现 - 中证人工智能主题指数(930713)上涨0.65% 成分股均胜电子大涨9.99% 瑞芯微涨5.82% 德赛西威涨3.79% 中科曙光涨3.76% 寒武纪涨3.33% [2] - AI人工智能ETF(512930)上涨0.66% 实现三连涨 最新报价2.13元 近一周累计涨幅达8.08% [2] - 该ETF管理费率0.15% 托管费率0.05% 为同业最低水平 近三月跟踪误差仅0.008% 跟踪精度行业最优 [2] 指数构成 - 中证人工智能主题指数选取50只人工智能基础资源、技术及应用支持领域上市公司证券 [2] - 前十大权重股合计占比60.82% 包含新易盛(6.52%)、中际旭创(6.71%)、寒武纪(6.45%)等企业 [3][5] - 权重股寒武纪当日涨3.33% 中科曙光涨3.76% 澜起科技涨1.96% 浪潮信息涨1.49% [2][5]
DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步
36氪· 2025-09-18 02:02
研究突破 - DeepSeek-R1 论文以封面文章形式发表于权威科学期刊 Nature 证明其研究价值获得学术界高度认可[1] - 研究团队提出无限制强化学习 RL 训练可激发大语言模型 LLM 新推理能力涌现 减少对人类标注数据的依赖[3] - 实验证明纯 RL 训练在数学 编程竞赛和 STEM 研究生水平问题等任务上表现优于传统方法训练的 LLM[3] 技术方法 - 提出群体相对策略优化 GRPO 算法 基于基础模型 DeepSeek-V3 Base 训练 DeepSeek-R1 系列模型[10] - 采用多阶段训练 pipeline 包括拒绝采样 RL 和监督微调 SFT 逐步提升模型能力[12] - RL 训练使模型自然学会输出推理过程 通过评分系统验证答案正确性进行自我改进[9] 模型表现 - DeepSeek-R1 在 GitHub 上获得 91100 个 star 显示全球开发者广泛认可[4] - 在 MMLU MMLU-Pro C-Eval GPQA Diamond 等 21 个主流基准测试中几乎全部取得更好成绩[15] - 模型展现出高级推理模式如自我反思 验证和动态策略适应 并能指导增强小型模型[16] 行业影响 - Nature 社论肯定 DeepSeek-R1 是首个经同行评审后发表的主流 LLM 推动行业透明化[5] - 同行评审机制可澄清 LLM 工作原理 评估模型真实性 避免基准测试被操控[6][17] - 开源模型使更广泛社区能理解修复缺陷 但需加强安全性测试应对潜在风险[18] - Nature 呼吁更多 AI 公司提交模型评审 用证据支持言论 验证相关主张[18]