DeepSeek R1

搜索文档
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错
搜狐财经· 2025-09-21 02:34
评测结果令人深思: 在全球数据集上,表现最好的Grok 4 (web)准确率达到68.9%,但仍落后人类专家6.1个百分点。在大中华区数据集上,豆包(web)虽然领先其他模型,但与 人类专家88.3%的准确率相比,差距超过34个百分点。 这些数字清晰地表明,即使是最先进的AI系统,在处理复杂金融分析任务时仍有很大提升空间。 允中 编辑整理 量子位 | 公众号 QbitAI 让AI像金融分析师一样搜索和分析数据,到底有多难?当前的大模型虽然能回答基础金融知识,在CFA考试中取得高分,但面对真实的金融场景,它们的 表现究竟如何? 为了回答这个问题,字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。该基准包含635 个金融专家精心设计的问题,覆盖全球和大中华两个市场,并在多个主流模型产品上进行了全面评测。 该基准测试发布后获得了业界的广泛讨论,马斯克也关注并转发。 学界专家们认为,这进一步凸显了金融AI能力评估在当前技术发展阶段的重要性和现实意义。 三类任务,递进式难度设计 金融分析是检验AI能力的绝佳试金石。分析师的日常工作涉及大量复杂的信息搜索 ...
DeepSeek R1论文登上Nature封面;OpenAI顶尖人才出走;英伟达英特尔宿敌握手言和| 混沌AI一周焦点
混沌学园· 2025-09-19 11:58
本周AI商业焦点必读 (2025.9. 12 -9.1 9 ) 2025年9月19日 1、「重磅消息」 宿敌变盟友,英伟达50亿美元入股英特尔联手打造CPU+GPU超级芯片 3、「趋势前瞻」 AI人才缺口超500万,行业竞赛正成为顶尖人才的新试金石 在PC领域,英特尔将推出集成英伟达RTX GPU的全新x86系统级芯片(SoC),旨在打造前所未有的集成 式笔记本电脑。 对于数据中心,英特尔将为英伟达构建定制版x86 CPU。这一历史性的合作打破了两家公司长期的竞争关 系,被市场视为重塑PC和AI基础设施格局的关键一步。 面对全球AI人才的严重短缺和硅谷天价挖角潮,一种新的人才筛选机制正在兴起。目前中国AI人才缺口已超 500万,供需比达1:10。在这种背景下,仅仅依靠高薪挖人已难以为继,锚定真实行业场景的垂直类AI大赛正成 为企业发现和培养复合型人才的有效通道。 以AFAC2025金融智能创新大赛为例,通过产学研联合,设置源于一线业务的真实难题,能够有效检验参赛者 结合AI技术与行业知识解决实际问题的能力,为行业输送真正具备实战能力的AI人才,并逐步建立起中国自己 的人才培养与选拔标准。 芯片巨头英伟达与英特 ...
DeepSeek论文登上《自然》封面,R1成为首个严格学术审查大模型
新浪财经· 2025-09-18 02:23
DeepSeek首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,从而启发全球AI研究 者。DeepSeek R1的核心创新在于采用了"纯强化学习"这一自动化试错方法,R1通过奖励模型达到正确 答案的行为来学习推理策略,而非传统模仿人类预设的推理模式。 在补充材料中,DeepSeek团队还首次公开了R1训练成本仅为29.4万美元。这个金额即使加上约600万美 元的基础模型成本,也远低于OpenAI、谷歌训练AI的成本。 今年1月,当DeepSeek R1模型发布时,其卓越的推理能力和极低的开发成本曾引发全球科技股大幅下 跌。 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 9月18日,由DeepSeek(深度求索)团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究 论文,登上了国际权威期刊《自然(Nature)》的封面。 DeepSeek R1成为首个通过同行评议的主要大语言模型,发表在《自然》杂志的新版DeepSeek-R1论 文,与今年1月未经同行评审的初版有较大差异。 在同行评议过程中,DeepSeek团队根据评审意见减少了对模型的拟人化描述,并增 ...
大模型碰到真难题了,测了500道,o3 Pro仅通过15%
机器之心· 2025-09-14 03:07
研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾 考试类基准人为设置难度但实际价值有限 而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题 涵盖计算机理论 数学 科幻 历史等主题 用于考察模型推理 事实准确性和浏览能力[3] - 问题来源Stack Exchange社区 经过三轮筛选:从300万原始问题中 基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题 保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略 利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程:能力递增模型(o3-mini→o4-mini→o3)回答问题 然后相互验证答案[15] - 验证准确率提升速度快于答题准确率 模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象 预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见 复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台 让专家共同验证问题与答案 实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]
214亿!这位90后AI天才,太炸
混沌学园· 2025-09-13 11:57
公司发展历程 - 月之暗面由杨植麟于2023年3月创立 专注AGI领域 公司名称灵感来源于平克·弗洛伊德乐队专辑《The Dark Side of the Moon》[36][37][38] - 2023年10月推出AI助手Kimi 支持20万字长文本输入 超越当时OpenAI GPT-4的2.5万字容量[39] - 2024年2月完成超10亿美元融资 创国内AI大模型单轮融资纪录 估值达30亿美元(约214亿人民币)[7][39] - 2024年3月将Kimi上下文窗口扩展至200万字 月访问量超2000万 公司估值涨至33亿美元[41][42] - 2025年7月11日开源发布新一代大模型Kimi K2 为全球首个万亿参数、320亿激活的MoE模型[63] 技术突破与行业地位 - Kimi K2发布24小时内GitStar数破1.8万 在LMSYS匿名评测中位列总榜第四 超越DeepSeek-R1[63][64] - 技术成果被Google PaLM和Meta LLaMA等主流产品采用 论文引用量超22000次[32] - 2024年与财新传媒合作强化财经问答 近期布局AI医疗领域 加强医学专业搜索质量[62] - 团队规模始终控制在200人以内 采用垂直领域聚焦策略[53][61] 创始人背景 - 杨植麟1992年出生 为清华大学计算机系特等奖学金获得者 发表论文20余篇[22][27][29] - 博士期间与Yoshua Bengio合作发布HotpotQA数据集 并以第一作者身份发表Transformer-XL和XLNet论文[32] - 曾以全国青少年信息学联赛广东一等奖保送清华 高三以667分成为汕头理科状元[18] 行业竞争格局 - 2024年初DeepSeek崛起改变行业格局 月之暗面市场占有率下滑 暂停To C投放[45][46] - 国内AI领域形成"六小龙"竞争态势 字节、阿里等巨头纷纷入场[45] - 2025年《新财富》创富榜显示梁文锋以1846.2亿元持股市值位列第十 杨植麟以93.9亿元身家排名第366[5][6] 融资与估值 - 创立初期获红杉中国、真格基金等投资 融资2亿美元[39] - 美团、阿里、腾讯、小红书等企业参与投资[42] - 2024年3-8月广告投放达1.4亿元 单月最高投放近5000万元[52] 产品数据表现 - Kimi月活跃用户从400万增长至1282万 稳居行业第二[53] - DeepSeek R1上线一个月下载量破亿[57] - 2024年5月公司估值达30亿美元(约214亿人民币)[7]
GPT-5 为啥不 “胡说” 了?OpenAI 新论文讲透了
腾讯研究院· 2025-09-12 08:58
文章核心观点 - OpenAI最新研究揭示语言模型幻觉产生的根本原因在于其统计学习本质,且后训练过程在当前评估体系下未能有效抑制幻觉,GPT-5可能通过非二元评估技术显著降低幻觉率 [9][12][24][32] 幻觉产生的必然性 - 幻觉是语言模型预训练阶段不可避免的副产品,因模型本质是通过统计规律生成内容,而非真实判断 [11][12] - 模型通过"是否有效"(IIV)判断器评估句子概率,但面对数据稀疏、复杂概念或训练数据错误时必然失效 [13][14] - 生成模型的错误率至少是IIV判断器错误率的2倍,因单个判断错误会衍生多种幻觉(如1+1=3和1+1≠2均属幻觉) [15][16] 后训练的局限性 - 后训练通过偏好反馈改变概率分布,将概率集中到"最佳答案"以减少不确定性幻觉,但可能增加过度自信风险 [19][20] - 主流评估基准(如GPQA、MMLU-Pro、SWE-bench)采用二元评分制,仅区分正确(1分)或错误(0分),系统性地惩罚"我不知道"的回答 [21][23] - 当前评估标准奖励猜测行为而非诚实回答,导致后训练在实践中未能有效引导模型降低幻觉 [24] 模型性能对比与技术路径 - DeepSeek R1采用二元奖励模型(ORM),在Vectara HHEM测试中幻觉率达14.3%,远高于其预训练模型DeepSeek V3的3.9% [30][31] - OpenAI o3使用过程奖励模型(PRM),通过逐步推理反馈降低幻觉率至6.8%,仅为DeepSeek R1的一半 [32] - GPT-5可能引入Universal Verifier技术,采用非二元评估标准(如评分细则Rubric),从根源上减少二元激励的负面影响 [32] 解决方向 - 后训练需引入带惩罚的评分机制,例如答对得1分、答错扣1分、过度自信答错扣9分,迫使模型成为"风险评估器"而非"得分优化器" [33] - 模型需专注于真实性而非单纯得分优化,才可能从根本上解决幻觉问题 [34]
DeepSeek新模型曝光,梁文锋亲自督战,要和OpenAI硬碰硬
36氪· 2025-09-05 12:48
公司动态 - DeepSeek正在开发具备更高阶AI Agent功能的新模型 目标在2025年四季度发布 直接对标OpenAI [2] - 新AI系统核心特征包括基于过往行动学习自我完善 以及通过最少指令自动完成多步骤复杂任务 [4] - 公司创始人梁文锋亲自督战新模型开发 此前被行业专家解读为"憋大招" [4] - 公司8月21日发布开源模型DeepSeek-V3 1 上下文长度扩展至128k 参数规模约685B 重点增强代码理解与Agent任务执行能力 [10][12] - 模型引入混合推理架构 支持思考与非思考双模式 可智能切换提升推理效率 [12] - 公司面临用户流失压力 月下载量从一季度8111 3万骤降至二季度2258 9万 降幅达72 2% [23][24] - 当前产品存在服务器响应速度慢 幻觉问题 用户流向第三方平台等挑战 [22] 行业趋势 - AI智能体被视为大模型后重点赛道 具备自主决策 任务拆解与跨应用协同能力 [7] - 行业普遍认为2025年将成为"Agent元年" 是智能体发展的黄金时间 [4][10] - 国外巨头微软 谷歌与国内阿里 腾讯 字节跳动均已布局AI智能体赛道 [10] - 政策层面提出到2027年智能体应用普及率超70% 2030年超90% 智能经济成为重要增长极 [10] - 行业独角兽Manus推出首款通用AI Agent引发广泛关注 邀请码被炒至天价 [9] 竞争格局 - OpenAI旗下ChatGPT agent已实现网页交互 信息整合与自然语言对话三位一体功能 [14][16] - ChatGPT agent可实现用户直接下达任务 10分钟内完成复杂操作 [18] - 智能体技术仍存挑战 包括需人工干预 隐私泄露风险(如授权Gmail GitHub账户可能导致信息泄露) [13][21] - 大模型行业迭代速度极快 呈现内卷态势 多家企业通过烧钱抢人抢占市场 [23]
Vibe Coding两年盘点:Windsurf已死、Cursor估值百亿,AI Coding的下一步怎么走?
Founder Park· 2025-09-05 11:46
AI Coding行业发展阶段 - 2023年初处于核心能力和基建不足的草莽阶段 GPT-4存在高推理成本和小context window限制 指令遵循能力在生产场景表现欠佳[10] - 2024年中Claude 3.5 Sonnet发布成为转折点 其200K窗口和关键指标10%以上提升使其成为现象级模型 代码生成任务HumanEval达93.7% 软件工程任务SWE-bench达49%[36][37][38] - 2025年开源模型DeepSeek R1引发行业变革 API定价低至输入1元/百万token 输出16元/百万token 成本仅为OpenAI o1的1/20-1/30[58][59][60] - 2025年中行业出现第一波"缩圈" 商业模式面临重构 目标需支撑到2028年才可能诞生千亿美金级公司[7][75][83] 主要产品发展轨迹 - Cursor从基于VS Code的"套壳"产品转型为AI原生IDE 初期依赖GPT-4和Claude系列提供代码补全 后通过代码库分析能力保住市场份额[10][13][14] - Codeium从开源VS Code扩展起步 吸引超100万开发者 后转向混合模式 商业版编辑器Windsurf在2024年底ARR达1200万美元[21][41] - Devin作为首个AI软件工程师推出 端到端独立开发能力赢得高盛等大客户 五个月后估值达20亿美元 企业版定价500美元/月[42][43][52] - 2024年底主要玩家估值:Cursor 26亿美元 Windsurf 12.5亿美元 Devin 20亿美元 Replit约30亿美元[47] 技术演进与挑战 - Agent设计模式存在token消耗问题 复杂任务单轮消耗达百万token级别 日常任务可达千万token水平[49][51] - Claude Sonnet 3.7时代单用户日均成本10-50美元 高频用户可达每天100美元以上 与20美元订阅费形成严重倒挂[52] - 极端"坏用户"可使商业模式瞬间崩塌 单月可能造成8000美元损失 交付质量与token成本间平衡成为关键挑战[55][57] - CoT思维链对模型参数量要求较低 100亿参数即可受益 ToT和GoT需要千亿级参数支撑 但泛化成本较高[29] 商业模式与经济性分析 - 基础模型年均价格降幅达90% 但用户倾向使用最好模型 导致实际成本并未真正收敛[66][67] - 追求顶尖性能的代码应用仍处于成本爆炸状态 SOTA模型价格卡在10^1水平线[68] - 用户价值认同极限约100-200美元/月 但当前成本结构大多无法覆盖[66][74] - 订阅模式基于CPU服务时代边际效应 在AI时代已不适用 需要新的经济模型[78] 技术范式转换 - 从Workflow向CLI Code Agent演进 更依赖模型本身能力完成长时间自主工作[75][76] - 新一代Agentic Code CLI具备全流程任务执行能力 支持项目级架构理解和超长上下文[79][80] - Claude Code可连续工作7小时自主重构多文件代码库 Gemini CLI支持100万token分析整个项目[79] - 传统IDE插件向开发工具链原生融合转变 经济模型从订阅制转向按量付费/免费+开源策略[80] 核心竞争壁垒 - Knowledge Suggestion功能成为护城河 通过抽取方法论和行为准则创建"数字分身"[11][93] - 业务数据闭环是核心组成部分 与设计模式Agentic UI等形成"道"与"术"的区别[96] - 目标用户聚焦工作价值高的领域:AI芯片设计(中国50-150万元/年) 生物技术制药(美国中位数20万美元/年) 量子计算(美国10-25万美元/年)[98] - 需服务认知足够值钱的人群 为其创造十倍百倍价值和提高效率 而非普通用户[11][99] 行业关键洞察 - 欧美投资与技术绑定深厚 技术创业者在大模型成功前就已布局 国内项目多始于2023年LLM爆火后[23] - 模型需要显式提示 CoT对参数要求低更适合快速验证 ToT和GoT因泛化成本高逐步退出舞台[29] - 企业级市场存在刚需 中大型企业需要内部模型接入IDE 担心代码数据安全[18][19] - 在生产力领域 当执行变得廉价时 "术"不再重要 关键是找到正确人群提供极致价值[11][99]
DeepSeek新大招曝光:下一步智能体
量子位· 2025-09-05 01:49
DeepSeek新模型开发计划 - 公司正在开发具有更强大AI Agent能力的新模型 预计在今年年底推出[3] - 新模型仅需少量提示就能帮用户执行复杂操作 并能根据历史操作自我进化和学习[7] - 模型将在今年最后一个季度面世[8] DeepSeek-V3.1性能升级 - DeepSeek-V3.1具备更强的Agent能力 通过Post-Training优化在工具使用与智能体任务中有较大提升[5] - 编程智能体方面 SWE-bench测试得分从V3-0324的45.4提升至66.0 SWE-bench Multilingual从29.3提升至54.5 Terminal-Bench从13.3提升至31.3[11][12] - 搜索智能体方面 Browsecomp从8.9提升至30.0 Browsecomp zh从35.7提升至49.2 HLE从24.8提升至29.8 xbench-DeepSearch从55.0提升至71.2 Seal0从29.7提升至42.6[14] 行业发展趋势 - 智能体概念成为行业焦点 2025年下半年几乎没有大模型产品不谈智能体[16] - 并行智能体正在成为提升AI能力的新方向[16] - 行业预计智能体价格门槛可能被降低[19] 技术架构创新 - 新模型采用混合推理架构 集成思考模式和非思考模式[13] - 实现更高的思考效率 比DeepSeek-R1想得更快[13] - 在工具使用与智能体任务中表现有较大提升[13] 产品发布节奏 - 从去年12月到今年8月 DeepSeek V系列版本号从V3升级至V3.1[9] - 业内原本预期会先推出新一代V系列基础模型 再发布被期待已久的R2[8] - 小版本改进暗藏玄机 实际性能提升显著[10]
AI应用:浮现中的AI经济
机器之心· 2025-08-30 01:18
人类经济活动数字化进程 - 计算机发明标志着人类进入数字化时代 经济活动开始被先后顺序数字化[4][5] - 数字化使算法驱动经济活动成为可能 实现智能化[5] - 尼葛洛庞帝《数字化生存》提出"Move bits, not atoms"理念 指出比特世界效率千万倍于物理世界[8] - 数字化进程分为两个阶段:第一阶段互联网/移动互联网完成物理世界数字化 第二阶段算法开始具备交付工作能力[9] 互联网/移动互联网经济特征 - 最大特点是匹配效率极大提高 通过桌面PC和手机硬件实现主流生活需求数字化[11][12] - 三大核心赛道:搜索(信息与人匹配)、社交(人与人匹配)、电商(商品与人匹配)[12] - 匹配方式演进:前互联网阶段就近获得→互联网阶段全局搜索→移动互联网阶段个性化推荐[13] - 个性化推荐解决"知识不足导致选择低效"问题 将经验证的最佳选择推荐给共性用户[14] - 当前数字化程度:个人消费行为数字化较高 企业经济活动数字化仍有提升空间[15] AI经济系统特征 - 2017年后AI进入新阶段 具备泛化交付工作能力[18] - 计算机首次能完整参与"收集信息-决策-行动"全链条[19] - 2025年成为重要时间点 AI智商超过人类平均水平100 达到110以上[22][23] - OpenAI o3达"天才级"水平 字节豆包模型可达清华北大录取成绩[23] - 行动能力分两阶段:第一阶段完成数字世界工作(编程/文案/设计) 第二阶段具身智能完成物理世界工作(清洁/制造/护理)[21] 全天候自动运行系统 - 经济系统可自动运行直至工作完成[26] - 在同等能力下 AI每日工作量达人类3倍 每周4.2倍 每年约4.32倍[26] - Anthropic Claude 4模型可自主运行7小时 年底将实现全天候软件工程智能体[28] - 应用案例:Lovart自动生成logo及全套VI Sema4.ai实现7×24小时发票整理[29] 无劳动力供给限制 - 计算能力成为新劳动力供给 可无限复制且边际成本低[33] - 对比生物性劳动(时间/数量约束)和机械性劳动(研发成本高) AI突破传统限制[33][34] - 凯恩斯曾预测百年后生活水平提高4-8倍 但未预料到计算机带来的新阶段[40] - 发展经济学中刘易斯"二元经济"模型若成立 将是全球消费者福音[36] 非稀缺经济形态 - 数字世界先实现N倍产出能力 服务业总供给大幅提升[38] - 具身机器人成熟后拓展至物理世界 成本低于人类劳动力[38] - 凯恩斯预言"非稀缺经济":单位时间总产出可能超过总需求[39] - 实际增长超预期:1950-2000年增长率2.9% 收入水平达1930年17倍[40] 交易成本降低 - 数字技术降低五类成本:搜寻/复制/交通/追踪/验证成本[45] - AI阶段将出现"数字层" 由个人AI助理和垂类Agent组成 全面了解经济主体和物理世界[46] - "数字层"实现更精准匹配 企业内外部交易成本进一步降低[47] - 匹配方式进阶:大模型个性化推荐使商品颗粒度更细 社交推荐从"打标签"变为"全方位了解"[48] 决策理性化提升 - 计算机首次参与决策 仅从成本收益角度分析 不受心理因素影响[53] - 行为经济学发现的非理性行为(前景理论/禀赋效应/心理账户等)可能大幅减少[52][53] - 投机行为驱动因素(非理性心理/从众心理)被抑制 降低经济损耗[53] 历史数据价值释放 - 计算机突破当世人类经验限制 纳入历史事实与观点[56] - 人类可同时向当世和历史求解 寻求"时空最优解"[57] - 稀有体验可能成为历史大数据中的可归纳经典[56] 人的全面发展 - 非稀缺经济下个人拥有充足时间用于自我实现[59] - "数字层"作为普惠贴身导师 帮助每个人成为更优秀的自己[61] - 需完成两大任务:确保AI系统受人类控制 保证生产力成果为全人类共享[62] - 当前可能进入"数字轴心时代" 重新定义核心价值[62]