DeepSeek R1 - 财报，业绩电话会，研报，新闻

DeepSeek R1

搜索文档

搜狐财经· 2025-09-21 02:34

评测结果令人深思：在全球数据集上，表现最好的Grok 4 (web)准确率达到68.9%，但仍落后人类专家6.1个百分点。在大中华区数据集上，豆包(web)虽然领先其他模型，但与人类专家88.3%的准确率相比，差距超过34个百分点。这些数字清晰地表明，即使是最先进的AI系统，在处理复杂金融分析任务时仍有很大提升空间。允中编辑整理量子位 | 公众号 QbitAI 让AI像金融分析师一样搜索和分析数据，到底有多难？当前的大模型虽然能回答基础金融知识，在CFA考试中取得高分，但面对真实的金融场景，它们的表现究竟如何？为了回答这个问题，字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp，这是首个完全开源的金融搜索与推理基准测试。该基准包含635 个金融专家精心设计的问题，覆盖全球和大中华两个市场，并在多个主流模型产品上进行了全面评测。该基准测试发布后获得了业界的广泛讨论，马斯克也关注并转发。学界专家们认为，这进一步凸显了金融AI能力评估在当前技术发展阶段的重要性和现实意义。三类任务，递进式难度设计金融分析是检验AI能力的绝佳试金石。分析师的日常工作涉及大量复杂的信息搜索 ...

金融AI

Artificial Intelligence

Artificial Intelligence

FinSearchComp

Xpert

DeepSeek R1

DeepSeek R1论文登上Nature封面；OpenAI顶尖人才出走；英伟达英特尔宿敌握手言和| 混沌AI一周焦点

混沌学园· 2025-09-19 11:58

本周AI商业焦点必读 (2025.9. 12 -9.1 9 ) 2025年9月19日 1、「重磅消息」宿敌变盟友，英伟达50亿美元入股英特尔联手打造CPU+GPU超级芯片 3、「趋势前瞻」 AI人才缺口超500万，行业竞赛正成为顶尖人才的新试金石在PC领域，英特尔将推出集成英伟达RTX GPU的全新x86系统级芯片（SoC），旨在打造前所未有的集成式笔记本电脑。对于数据中心，英特尔将为英伟达构建定制版x86 CPU。这一历史性的合作打破了两家公司长期的竞争关系，被市场视为重塑PC和AI基础设施格局的关键一步。面对全球AI人才的严重短缺和硅谷天价挖角潮，一种新的人才筛选机制正在兴起。目前中国AI人才缺口已超 500万，供需比达1:10。在这种背景下，仅仅依靠高薪挖人已难以为继，锚定真实行业场景的垂直类AI大赛正成为企业发现和培养复合型人才的有效通道。以AFAC2025金融智能创新大赛为例，通过产学研联合，设置源于一线业务的真实难题，能够有效检验参赛者结合AI技术与行业知识解决实际问题的能力，为行业输送真正具备实战能力的AI人才，并逐步建立起中国自己的人才培养与选拔标准。芯片巨头英伟达与英特 ...

DeepSeek论文登上《自然》封面，R1成为首个严格学术审查大模型

新浪财经· 2025-09-18 02:23

DeepSeek首次公开了仅靠强化学习，就能激发大模型推理能力的重要研究成果，从而启发全球AI研究者。DeepSeek R1的核心创新在于采用了"纯强化学习"这一自动化试错方法，R1通过奖励模型达到正确答案的行为来学习推理策略，而非传统模仿人类预设的推理模式。在补充材料中，DeepSeek团队还首次公开了R1训练成本仅为29.4万美元。这个金额即使加上约600万美元的基础模型成本，也远低于OpenAI、谷歌训练AI的成本。今年1月，当DeepSeek R1模型发布时，其卓越的推理能力和极低的开发成本曾引发全球科技股大幅下跌。炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ 9月18日，由DeepSeek（深度求索）团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上了国际权威期刊《自然（Nature）》的封面。 DeepSeek R1成为首个通过同行评议的主要大语言模型，发表在《自然》杂志的新版DeepSeek-R1论文，与今年1月未经同行评审的初版有较大差异。在同行评议过程中，DeepSeek团队根据评审意见减少了对模型的拟人化描述，并增 ...

Seek .(US:SKLTY)

大模型

强化学习

Artificial Intelligence

Artificial Intelligence

DeepSeek R1

DeepSeek-V3 Base

DeepSeek-V3.1

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心· 2025-09-14 03:07

研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾考试类基准人为设置难度但实际价值有限而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题涵盖计算机理论数学科幻历史等主题用于考察模型推理事实准确性和浏览能力[3] - 问题来源Stack Exchange社区经过三轮筛选：从300万原始问题中基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程：能力递增模型(o3-mini→o4-mini→o3)回答问题然后相互验证答案[15] - 验证准确率提升速度快于答题准确率模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台让专家共同验证问题与答案实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]

大模型

UQ数据集

无监督验证器

Artificial Intelligence

Artificial Intelligence

DeepSeek R1

Claude Opus 4

214亿！这位90后AI天才，太炸

混沌学园· 2025-09-13 11:57

公司发展历程 - 月之暗面由杨植麟于2023年3月创立专注AGI领域公司名称灵感来源于平克·弗洛伊德乐队专辑《The Dark Side of the Moon》[36][37][38] - 2023年10月推出AI助手Kimi 支持20万字长文本输入超越当时OpenAI GPT-4的2.5万字容量[39] - 2024年2月完成超10亿美元融资创国内AI大模型单轮融资纪录估值达30亿美元（约214亿人民币）[7][39] - 2024年3月将Kimi上下文窗口扩展至200万字月访问量超2000万公司估值涨至33亿美元[41][42] - 2025年7月11日开源发布新一代大模型Kimi K2 为全球首个万亿参数、320亿激活的MoE模型[63] 技术突破与行业地位 - Kimi K2发布24小时内GitStar数破1.8万在LMSYS匿名评测中位列总榜第四超越DeepSeek-R1[63][64] - 技术成果被Google PaLM和Meta LLaMA等主流产品采用论文引用量超22000次[32] - 2024年与财新传媒合作强化财经问答近期布局AI医疗领域加强医学专业搜索质量[62] - 团队规模始终控制在200人以内采用垂直领域聚焦策略[53][61] 创始人背景 - 杨植麟1992年出生为清华大学计算机系特等奖学金获得者发表论文20余篇[22][27][29] - 博士期间与Yoshua Bengio合作发布HotpotQA数据集并以第一作者身份发表Transformer-XL和XLNet论文[32] - 曾以全国青少年信息学联赛广东一等奖保送清华高三以667分成为汕头理科状元[18] 行业竞争格局 - 2024年初DeepSeek崛起改变行业格局月之暗面市场占有率下滑暂停To C投放[45][46] - 国内AI领域形成"六小龙"竞争态势字节、阿里等巨头纷纷入场[45] - 2025年《新财富》创富榜显示梁文锋以1846.2亿元持股市值位列第十杨植麟以93.9亿元身家排名第366[5][6] 融资与估值 - 创立初期获红杉中国、真格基金等投资融资2亿美元[39] - 美团、阿里、腾讯、小红书等企业参与投资[42] - 2024年3-8月广告投放达1.4亿元单月最高投放近5000万元[52] 产品数据表现 - Kimi月活跃用户从400万增长至1282万稳居行业第二[53] - DeepSeek R1上线一个月下载量破亿[57] - 2024年5月公司估值达30亿美元（约214亿人民币）[7]

GPT-5 为啥不 “胡说” 了？OpenAI 新论文讲透了

腾讯研究院· 2025-09-12 08:58

文章核心观点 - OpenAI最新研究揭示语言模型幻觉产生的根本原因在于其统计学习本质，且后训练过程在当前评估体系下未能有效抑制幻觉，GPT-5可能通过非二元评估技术显著降低幻觉率 [9][12][24][32] 幻觉产生的必然性 - 幻觉是语言模型预训练阶段不可避免的副产品，因模型本质是通过统计规律生成内容，而非真实判断 [11][12] - 模型通过"是否有效"（IIV）判断器评估句子概率，但面对数据稀疏、复杂概念或训练数据错误时必然失效 [13][14] - 生成模型的错误率至少是IIV判断器错误率的2倍，因单个判断错误会衍生多种幻觉（如1+1=3和1+1≠2均属幻觉） [15][16] 后训练的局限性 - 后训练通过偏好反馈改变概率分布，将概率集中到"最佳答案"以减少不确定性幻觉，但可能增加过度自信风险 [19][20] - 主流评估基准（如GPQA、MMLU-Pro、SWE-bench）采用二元评分制，仅区分正确（1分）或错误（0分），系统性地惩罚"我不知道"的回答 [21][23] - 当前评估标准奖励猜测行为而非诚实回答，导致后训练在实践中未能有效引导模型降低幻觉 [24] 模型性能对比与技术路径 - DeepSeek R1采用二元奖励模型（ORM），在Vectara HHEM测试中幻觉率达14.3%，远高于其预训练模型DeepSeek V3的3.9% [30][31] - OpenAI o3使用过程奖励模型（PRM），通过逐步推理反馈降低幻觉率至6.8%，仅为DeepSeek R1的一半 [32] - GPT-5可能引入Universal Verifier技术，采用非二元评估标准（如评分细则Rubric），从根源上减少二元激励的负面影响 [32] 解决方向 - 后训练需引入带惩罚的评分机制，例如答对得1分、答错扣1分、过度自信答错扣9分，迫使模型成为"风险评估器"而非"得分优化器" [33] - 模型需专注于真实性而非单纯得分优化，才可能从根本上解决幻觉问题 [34]

AI模型幻觉

强化学习

后训练

Artificial Intelligence

Artificial Intelligence

GPT-5

DeepSeek R1

DeepSeek新模型曝光，梁文锋亲自督战，要和OpenAI硬碰硬

36氪· 2025-09-05 12:48

公司动态 - DeepSeek正在开发具备更高阶AI Agent功能的新模型目标在2025年四季度发布直接对标OpenAI [2] - 新AI系统核心特征包括基于过往行动学习自我完善以及通过最少指令自动完成多步骤复杂任务 [4] - 公司创始人梁文锋亲自督战新模型开发此前被行业专家解读为"憋大招" [4] - 公司8月21日发布开源模型DeepSeek-V3 1 上下文长度扩展至128k 参数规模约685B 重点增强代码理解与Agent任务执行能力 [10][12] - 模型引入混合推理架构支持思考与非思考双模式可智能切换提升推理效率 [12] - 公司面临用户流失压力月下载量从一季度8111 3万骤降至二季度2258 9万降幅达72 2% [23][24] - 当前产品存在服务器响应速度慢幻觉问题用户流向第三方平台等挑战 [22] 行业趋势 - AI智能体被视为大模型后重点赛道具备自主决策任务拆解与跨应用协同能力 [7] - 行业普遍认为2025年将成为"Agent元年" 是智能体发展的黄金时间 [4][10] - 国外巨头微软谷歌与国内阿里腾讯字节跳动均已布局AI智能体赛道 [10] - 政策层面提出到2027年智能体应用普及率超70% 2030年超90% 智能经济成为重要增长极 [10] - 行业独角兽Manus推出首款通用AI Agent引发广泛关注邀请码被炒至天价 [9] 竞争格局 - OpenAI旗下ChatGPT agent已实现网页交互信息整合与自然语言对话三位一体功能 [14][16] - ChatGPT agent可实现用户直接下达任务 10分钟内完成复杂操作 [18] - 智能体技术仍存挑战包括需人工干预隐私泄露风险（如授权Gmail GitHub账户可能导致信息泄露） [13][21] - 大模型行业迭代速度极快呈现内卷态势多家企业通过烧钱抢人抢占市场 [23]

Seek .(US:SKLTY)

AI Agent

Artificial Intelligence

Artificial Intelligence

Vibe Coding两年盘点：Windsurf已死、Cursor估值百亿，AI Coding的下一步怎么走？

Founder Park· 2025-09-05 11:46

AI Coding行业发展阶段 - 2023年初处于核心能力和基建不足的草莽阶段 GPT-4存在高推理成本和小context window限制指令遵循能力在生产场景表现欠佳[10] - 2024年中Claude 3.5 Sonnet发布成为转折点其200K窗口和关键指标10%以上提升使其成为现象级模型代码生成任务HumanEval达93.7% 软件工程任务SWE-bench达49%[36][37][38] - 2025年开源模型DeepSeek R1引发行业变革 API定价低至输入1元/百万token 输出16元/百万token 成本仅为OpenAI o1的1/20-1/30[58][59][60] - 2025年中行业出现第一波"缩圈" 商业模式面临重构目标需支撑到2028年才可能诞生千亿美金级公司[7][75][83] 主要产品发展轨迹 - Cursor从基于VS Code的"套壳"产品转型为AI原生IDE 初期依赖GPT-4和Claude系列提供代码补全后通过代码库分析能力保住市场份额[10][13][14] - Codeium从开源VS Code扩展起步吸引超100万开发者后转向混合模式商业版编辑器Windsurf在2024年底ARR达1200万美元[21][41] - Devin作为首个AI软件工程师推出端到端独立开发能力赢得高盛等大客户五个月后估值达20亿美元企业版定价500美元/月[42][43][52] - 2024年底主要玩家估值：Cursor 26亿美元 Windsurf 12.5亿美元 Devin 20亿美元 Replit约30亿美元[47] 技术演进与挑战 - Agent设计模式存在token消耗问题复杂任务单轮消耗达百万token级别日常任务可达千万token水平[49][51] - Claude Sonnet 3.7时代单用户日均成本10-50美元高频用户可达每天100美元以上与20美元订阅费形成严重倒挂[52] - 极端"坏用户"可使商业模式瞬间崩塌单月可能造成8000美元损失交付质量与token成本间平衡成为关键挑战[55][57] - CoT思维链对模型参数量要求较低 100亿参数即可受益 ToT和GoT需要千亿级参数支撑但泛化成本较高[29] 商业模式与经济性分析 - 基础模型年均价格降幅达90% 但用户倾向使用最好模型导致实际成本并未真正收敛[66][67] - 追求顶尖性能的代码应用仍处于成本爆炸状态 SOTA模型价格卡在10^1水平线[68] - 用户价值认同极限约100-200美元/月但当前成本结构大多无法覆盖[66][74] - 订阅模式基于CPU服务时代边际效应在AI时代已不适用需要新的经济模型[78] 技术范式转换 - 从Workflow向CLI Code Agent演进更依赖模型本身能力完成长时间自主工作[75][76] - 新一代Agentic Code CLI具备全流程任务执行能力支持项目级架构理解和超长上下文[79][80] - Claude Code可连续工作7小时自主重构多文件代码库 Gemini CLI支持100万token分析整个项目[79] - 传统IDE插件向开发工具链原生融合转变经济模型从订阅制转向按量付费/免费+开源策略[80] 核心竞争壁垒 - Knowledge Suggestion功能成为护城河通过抽取方法论和行为准则创建"数字分身"[11][93] - 业务数据闭环是核心组成部分与设计模式Agentic UI等形成"道"与"术"的区别[96] - 目标用户聚焦工作价值高的领域：AI芯片设计(中国50-150万元/年) 生物技术制药(美国中位数20万美元/年) 量子计算(美国10-25万美元/年)[98] - 需服务认知足够值钱的人群为其创造十倍百倍价值和提高效率而非普通用户[11][99] 行业关键洞察 - 欧美投资与技术绑定深厚技术创业者在大模型成功前就已布局国内项目多始于2023年LLM爆火后[23] - 模型需要显式提示 CoT对参数要求低更适合快速验证 ToT和GoT因泛化成本高逐步退出舞台[29] - 企业级市场存在刚需中大型企业需要内部模型接入IDE 担心代码数据安全[18][19] - 在生产力领域当执行变得廉价时 "术"不再重要关键是找到正确人群提供极致价值[11][99]

量子位· 2025-09-05 01:49

DeepSeek新模型开发计划 - 公司正在开发具有更强大AI Agent能力的新模型预计在今年年底推出[3] - 新模型仅需少量提示就能帮用户执行复杂操作并能根据历史操作自我进化和学习[7] - 模型将在今年最后一个季度面世[8] DeepSeek-V3.1性能升级 - DeepSeek-V3.1具备更强的Agent能力通过Post-Training优化在工具使用与智能体任务中有较大提升[5] - 编程智能体方面 SWE-bench测试得分从V3-0324的45.4提升至66.0 SWE-bench Multilingual从29.3提升至54.5 Terminal-Bench从13.3提升至31.3[11][12] - 搜索智能体方面 Browsecomp从8.9提升至30.0 Browsecomp zh从35.7提升至49.2 HLE从24.8提升至29.8 xbench-DeepSearch从55.0提升至71.2 Seal0从29.7提升至42.6[14] 行业发展趋势 - 智能体概念成为行业焦点 2025年下半年几乎没有大模型产品不谈智能体[16] - 并行智能体正在成为提升AI能力的新方向[16] - 行业预计智能体价格门槛可能被降低[19] 技术架构创新 - 新模型采用混合推理架构集成思考模式和非思考模式[13] - 实现更高的思考效率比DeepSeek-R1想得更快[13] - 在工具使用与智能体任务中表现有较大提升[13] 产品发布节奏 - 从去年12月到今年8月 DeepSeek V系列版本号从V3升级至V3.1[9] - 业内原本预期会先推出新一代V系列基础模型再发布被期待已久的R2[8] - 小版本改进暗藏玄机实际性能提升显著[10]

机器之心· 2025-08-30 01:18

人类经济活动数字化进程 - 计算机发明标志着人类进入数字化时代经济活动开始被先后顺序数字化[4][5] - 数字化使算法驱动经济活动成为可能实现智能化[5] - 尼葛洛庞帝《数字化生存》提出"Move bits, not atoms"理念指出比特世界效率千万倍于物理世界[8] - 数字化进程分为两个阶段：第一阶段互联网/移动互联网完成物理世界数字化第二阶段算法开始具备交付工作能力[9] 互联网/移动互联网经济特征 - 最大特点是匹配效率极大提高通过桌面PC和手机硬件实现主流生活需求数字化[11][12] - 三大核心赛道：搜索（信息与人匹配）、社交（人与人匹配）、电商（商品与人匹配）[12] - 匹配方式演进：前互联网阶段就近获得→互联网阶段全局搜索→移动互联网阶段个性化推荐[13] - 个性化推荐解决"知识不足导致选择低效"问题将经验证的最佳选择推荐给共性用户[14] - 当前数字化程度：个人消费行为数字化较高企业经济活动数字化仍有提升空间[15] AI经济系统特征 - 2017年后AI进入新阶段具备泛化交付工作能力[18] - 计算机首次能完整参与"收集信息-决策-行动"全链条[19] - 2025年成为重要时间点 AI智商超过人类平均水平100 达到110以上[22][23] - OpenAI o3达"天才级"水平字节豆包模型可达清华北大录取成绩[23] - 行动能力分两阶段：第一阶段完成数字世界工作（编程/文案/设计）第二阶段具身智能完成物理世界工作（清洁/制造/护理）[21] 全天候自动运行系统 - 经济系统可自动运行直至工作完成[26] - 在同等能力下 AI每日工作量达人类3倍每周4.2倍每年约4.32倍[26] - Anthropic Claude 4模型可自主运行7小时年底将实现全天候软件工程智能体[28] - 应用案例：Lovart自动生成logo及全套VI Sema4.ai实现7×24小时发票整理[29] 无劳动力供给限制 - 计算能力成为新劳动力供给可无限复制且边际成本低[33] - 对比生物性劳动（时间/数量约束）和机械性劳动（研发成本高） AI突破传统限制[33][34] - 凯恩斯曾预测百年后生活水平提高4-8倍但未预料到计算机带来的新阶段[40] - 发展经济学中刘易斯"二元经济"模型若成立将是全球消费者福音[36] 非稀缺经济形态 - 数字世界先实现N倍产出能力服务业总供给大幅提升[38] - 具身机器人成熟后拓展至物理世界成本低于人类劳动力[38] - 凯恩斯预言"非稀缺经济"：单位时间总产出可能超过总需求[39] - 实际增长超预期：1950-2000年增长率2.9% 收入水平达1930年17倍[40] 交易成本降低 - 数字技术降低五类成本：搜寻/复制/交通/追踪/验证成本[45] - AI阶段将出现"数字层" 由个人AI助理和垂类Agent组成全面了解经济主体和物理世界[46] - "数字层"实现更精准匹配企业内外部交易成本进一步降低[47] - 匹配方式进阶：大模型个性化推荐使商品颗粒度更细社交推荐从"打标签"变为"全方位了解"[48] 决策理性化提升 - 计算机首次参与决策仅从成本收益角度分析不受心理因素影响[53] - 行为经济学发现的非理性行为（前景理论/禀赋效应/心理账户等）可能大幅减少[52][53] - 投机行为驱动因素（非理性心理/从众心理）被抑制降低经济损耗[53] 历史数据价值释放 - 计算机突破当世人类经验限制纳入历史事实与观点[56] - 人类可同时向当世和历史求解寻求"时空最优解"[57] - 稀有体验可能成为历史大数据中的可归纳经典[56] 人的全面发展 - 非稀缺经济下个人拥有充足时间用于自我实现[59] - "数字层"作为普惠贴身导师帮助每个人成为更优秀的自己[61] - 需完成两大任务：确保AI系统受人类控制保证生产力成果为全人类共享[62] - 当前可能进入"数字轴心时代" 重新定义核心价值[62]