Workflow
Seek .(SKLTY)
icon
搜索文档
外媒关注中国发布“全球首款AI手机”:会是第二个“DeepSeek时刻”吗?
环球时报· 2025-12-07 22:51
该产品在市场上引起热烈反响。据报道,这款原型机在中国一经发布便迅速售罄。虽然厂商并未透露总 销量,但其转售价格已在市场飙升约43%。美国科技媒体Wccftech报道称,该产品让人联想到2025年初 DeepSeek引发的轰动,当时全球集体震惊于中国以极低的计算成本提供的顶级推理模型,如今中国科 技公司再次推出全球首款真正具备智能代理功能的AI手机。 《印度快报》报道称,目前全球尚没有其他手机能够达到豆包手机如此高的自主性,虽然商业化进程还 有待观察,但是已清晰地展示了智能手机未来将如何改变我们的生活。同时,这款手机的问世也表明, 首款真正意义上的智能体手机或许并非来自硅谷,而是来自中国融合人工智能和移动技术的生态系统。 尽管这款产品目前只是豆包方面发布的"技术预览版",不过,将语言大模型植入到操作系统层面,也引 发业界关于数据授权、隐私、系统安全等问题的激烈争议。中关村信息消费联盟理事长项立刚告诉《环 球时报》记者,"将大模型与操作系统进行深入融合确实存在很大的争议,其商业推广也阻力重重。但 是如果要让AI Agent更加强大,必须深入到手机硬件和操作系统的底层,才能充分释放AI的能力。"项 立刚认为,"这肯 ...
开源和闭源模型的差距在拉大:这是DeepSeek论文揭示的残酷真相
36氪· 2025-12-06 00:03
行业核心观点 - 开源大模型与闭源模型的性能差距正在扩大,而非缩小,尤其是在复杂任务上闭源系统展现出越来越强的优势 [1][2] 性能差距现状 - 在MMLU-Pro测试中,DeepSeek V3.2得分85.0,低于GPT-5的87.5和Gemini 3.0 Pro的90.1 [2] - 在GPQA Diamond测试中,DeepSeek V3.2得分82.4,低于GPT-5的85.7和Gemini 3.0 Pro的91.9 [2] - 在HLE测试中,差距尤为明显:DeepSeek V3.2得分25.1,GPT-5得分26.3,而Gemini 3.0 Pro高达37.7 [3] - 尽管DeepSeek V3.2是当前最强的开源模型,但在需要深度推理和复杂任务处理的场景中,与顶级闭源模型仍存在明显差距 [4] 开源模型的结构性困境 - **架构限制**:开源模型普遍依赖传统的vanilla attention机制,该机制在处理长序列时效率极低,严重限制了可扩展部署和有效的后训练 [5][6] - **资源投入鸿沟**:后训练是关键环节,但大部分开源模型的后训练预算可能连预训练成本的1%都不到,而DeepSeek V3.2的后训练计算预算超过了预训练成本的10% [7] - **AI Agent能力滞后**:在真实应用场景中,开源模型的泛化能力和指令理解能力明显落后,阻碍了实际部署的有效性 [8] - 具体表现为:在MCP-Mark中,DeepSeek V3.2得分45.9,低于Gemini 3.0 Pro的51.0;在MCP-Universe中,前者为80.3,后者为87.9;在Tool-Decathlon中差距更明显 [8] DeepSeek的技术创新与应对策略 - **架构革新**:引入DSA机制,通过“闪电索引器”选择top-k个最重要的token参与计算,将计算复杂度从O(L²)降至O(L×k),其中k=2048 [10] - 在128K上下文长度下,DSA大幅降低了推理成本且性能几乎无损,在AA-LCR和Fiction.liveBench等测试中表现甚至优于使用传统注意力的前代模型 [10] - **超常规资源投入**:持续强化学习训练预算已超过预训练成本的10%,为数学、编程、推理、Agent等六大领域分别训练专家模型 [12] - 在持续预训练阶段,模型经历了943.7B tokens的训练,并采用GRPO算法进行混合训练,整合推理、Agent和人类对齐任务 [12] - **系统化强化Agent能力**:开发了系统化的任务合成流程,合成了超过1800个多样化环境和85,000条复杂提示,涵盖24,667个代码Agent任务、50,275个搜索Agent任务、4,417个通用Agent任务和5,908个代码解释器任务 [13] - 效果显著:在MCP-Universe上达到80.3%的成功率,虽低于Gemini 3.0 Pro的87.9%,但已是开源模型最佳表现,显著缩小了与闭源模型的差距 [13] 行业启示与路径 - 开源AI的生存之道在于技术路线创新,而非硬碰硬拼资源 [14] - DeepSeek V3.2证明了通过更高效的架构和更科学的后训练,可以用更少的资源实现接近闭源模型的效果 [13][14] - 如果Gemini 3.0证明了持续扩展预训练的潜力,DeepSeek V3.2则证明了在大规模上下文环境中强化学习的可扩展性 [13]
DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了
36氪· 2025-12-04 10:38
DeepSeek-V3.2模型性能与效率分析 - 新发布的DeepSeek-V3.2 Speciale版本在处理复杂任务时暴露出Token使用效率不佳的问题,在相同任务上,Gemini仅消耗2万Token,而DeepSeek-V3.2 Speciale消耗了7.7万Token,是前者的3倍以上[1] - 独立分析提供商Artificial Analysis指出,DeepSeek V3.2在推理模式下比上一代更啰嗦,在运行AAII基准测试时,输出Token消耗从上一版本的6200万显著增加至8600万[7] - 官方技术报告承认,DeepSeek-V3.2-Speciale的Token使用效率明显低于Gemini-3.0-Pro[13],为了降低部署成本并减少推理时延,官方版DeepSeek-V3.2在训练中施加了更严格的Token约束[14] 模型基准测试表现对比 - 在AIME 2025基准测试中,DeepSeek-V3.2-Speciale的Pass@1分数为96.0,消耗23k Token,而Gemini-3.0 Pro分数为95.0,消耗15k Token[13] - 在HMMT Feb 2025测试中,DeepSeek-V3.2-Speciale获得99.2的高分,消耗27k Token,Gemini-3.0 Pro为97.5分,消耗16k Token[13] - 在CodeForces基准测试中,DeepSeek-V3.2-Speciale获得2701的评分,但消耗高达77k Token,而Gemini-3.0 Pro评分为2708,仅消耗22k Token[13] GRPO算法固有缺陷分析 - DeepSeek-V3.2 Speciale输出内容又长又啰嗦但最终仍然出错的问题,根源在于GRPO算法本身的固有缺陷[2] - 研究论文指出GRPO算法存在长度偏置,当优势函数为负值时,较长的错误响应所受惩罚更弱,导致策略在错误样本中偏向生成更长的回答[18] - 在DeepSeek-R1-Zero的训练过程中,模型的响应长度在整个训练阶段持续增长,这一现象在DeepSeek-V3.2 Speciale中仍然存在[16],DeepSeek-V3.2的技术报告显示,难度偏置已被优化,但长度偏置仍然保留[18] 用户反馈与性能指标 - 社区用户反馈,DeepSeek-V3.2 Speciale具备极强的推理能力,但Token消耗速度如喝水般迅速,显著高于同类模型[5] - 用户评价指出,如果DeepSeek-V3.2 Speciale的生成速度能从当前约30 tokens/s提升至100 tokens/s左右,其综合可用性和使用体验将获得大幅改善[5] - 在对比测试中,DeepSeek V3.2-Speciale的平均耗时为613秒,消耗34501 Token,而Gemini 3 Pro仅耗时113秒,消耗12116 Token[7] 行业技术发展动态 - 与Grok和Mistral对比,DeepSeek V3.2在输出Token方面存在明显延迟[10] - GRPO算法已成为大模型后训练的黄金范式,但其在理论和实际实现之间存在不一致性,在PPO的大多开源实现中加入了长度归一化,无意中引入了长度偏置[21] - DeepSeek研究者表示,Token效率仍将是未来一个至关重要的研究方向[14]
谷歌掀“美国版DeepSeek冲击”,投资人拆解算力赛道前景|华尔街观察
第一财经资讯· 2025-12-04 10:09
谷歌AI进展与市场影响 - 摩根士丹利报告显著上调谷歌自研AI芯片TPU的产量预测,预计到2027年达500万片,2028年达700万片,较此前预测的300万片和320万片大幅提升 [1] - TPU产量提升预计将为谷歌带来约130亿美元营收增量及0.40美元的每股收益提升 [1] - 谷歌最新大型语言模型Gemini 3完全由其TPU训练,在训练成本和效率上相比英伟达GPU更具优势 [1] - 谷歌母公司Alphabet股价冲破320美元,年初至今涨幅接近70%,市值逼近4万亿美元,市盈率从年内14倍翻倍至逼近28倍 [1] 谷歌的核心竞争优势 - 谷歌被投资经理视为最接近通用人工智能的企业,具备算力保障与数据两大关键优势 [2][4] - 算力优势源于自身强劲现金流,无需外部融资即可获取充足GPU [4] - 数据优势在于沉淀了数十年的搜索、视频、安卓移动等浅层与深层数据,是AI训练的核心“养料” [4] - 谷歌拥有“一体化”生态系统优势,包括搜索、Gmail、Workspace、Android,利于将AI融入数十亿用户工作流程 [5] - 谷歌联合创始人佩奇回归主抓AI,结合DeepMind技术,有望推出超越ChatGPT的产品 [4] 对英伟达及AI硬件格局的影响 - 市场担心谷歌AI进展,导致英伟达市值蒸发超千亿美元 [1] - 英伟达持股的数据中心运营商CoreWeave股价从历史高位下跌近50%,其竞争对手Nebius股价也持续下行 [7] - 分析认为TPU作为专用计算芯片,在特定推理场景有优势,但无法取代GPU的通用计算地位,两者是互补而非替代关系 [2][7] - 在AI解决“情商问题”(处理非确定性、概念性内容)的背景下,英伟达GPU是关键支撑,扮演“情商调动总协调师”的角色 [7][8] - 英伟达在算力领域的主导刚起步,行业资本开支上升趋势有望维持,其市盈率接近20倍,估值被认为合理 [8] AI投资格局与市场观点 - 巴菲特旗下伯克希尔·哈撒韦于2025年三季度首次建仓谷歌母公司Alphabet,持仓规模达43亿美元,引发市场震动 [4] - 当前大模型竞争格局从“谁拥有最智能的聊天机器人”转向“谁拥有最集成的一体化工作流程”,谷歌两者兼备 [5] - OpenAI面临挑战:若在多模态消费者功能上与谷歌竞争,将陷入消耗战;若退守企业市场,则面临谷歌通过生态系统渗透的威胁 [5] - 市场开始担心AI投资性价比,但认为AI是类似工业革命的重大变革,不能以单一企业短期收支衡量整个行业 [6] - 多位投资经理仍长期持有AMD和英伟达,认为以目前市盈率减持不明智,但短期内不利因素不太可能消失 [9] AI应用端的投资机会 - 未来投资者目光将更多聚集于AI应用端,因为应用端是“资本开支的接收者”和被AI真正赋能的部分 [10] - 垂直应用领域如教育、医疗、文创、通用办公等都可能跑出独角兽 [11] - 中国企业在AI应用层,特别是在用户体验打造方面占据优势,得益于庞大用户群体 [11] - 以哔哩哔哩为例,其被看好的原因包括:用户规模达3.6亿且具备消费力、内容生态适合知识类长视频与AI赋能、游戏与广告业务增长潜力清晰 [11] - 高盛、摩根士丹利等机构已发布报告提高哔哩哔哩目标价,看好其广告变现潜力与AI带来的效率提升 [11]
DeepSeek-V3.2被找出bug了:疯狂消耗token,答案还可能出错,研究人员:GRPO老问题没解决
36氪· 2025-12-04 02:21
模型性能与市场定位 - DeepSeek-V3.2模型,特别是其长思考增强版Speciale,以开源形式对闭源顶级模型构成了竞争压力[4] - 在解决相同复杂任务时,Speciale模型消耗的token数量显著高于竞争对手,例如Gemini仅使用2万个token,而Speciale需要花费7.7万个token[4] - 该模型允许生成极长的思维链,通过大量消耗token进行深度自我修正和探索,走的是一条“在超长上下文下持续扩展强化学习”的路线[14] 技术缺陷与算法问题 - DeepSeek-V3.2模型存在“浪费token”的问题,这是一个自DeepSeek-R1-Zero以来一直存在的“bug”[1][5] - 问题的根源被认为在于GRPO算法存在两个“隐藏偏见”[8] - 第一个是“长度偏见”:GRPO算法在计算奖励时会将答案长度纳入考量,导致短的错误答案被罚得更重,而长的错误答案惩罚较轻,这激励模型生成“又长又错”的答案来规避惩罚[8] - 第二个是“难度偏见”:算法会根据同一批题目得分的标准差调整权重,导致过于简单或困难的题目被过度关注,而中等难度的关键题目反而被忽略[9] - 根据研究,DeepSeek-V3.2已经通过新的优势值计算方式修正了“难度偏见”,但仍然保留了有偏的长度规范项,即“长度偏见”依然存在[10][11] 官方回应与成本考量 - DeepSeek官方技术报告坦承,token效率对于DeepSeek-V3.2而言仍然是一个挑战,模型通常需要生成更长的轨迹才能达到Gemini-3.0-Pro的输出质量[14] - 从输出成本角度看,DeepSeek-V3.2的价格仅为GPT-5的1/24,考虑到其百万token级别的输出,这一成本被认为尚可接受[14] - 有观点指出,DeepSeek模型的上下文长度维持在128K已久未提升,这可能与GPU资源有限有关[14]
AI三国杀:OpenAI狂卷,DeepSeek封神,却被Mistral偷了家?
36氪· 2025-12-03 11:55
Mistral Large 3模型发布 - 公司推出MoE大模型Mistral Large 3,采用41B active / 675B total的MoE架构,具备原生图像理解能力、256k上下文长度以及强大的多语言能力[1][3] - 模型在LMArena排名中位列开源模型第6,其ELO得分在开源大模型中稳居第一梯队,与Kimi K2打成平手,仅略低于DeepSeek v3.2[3][6] - 在MMLU、GPOA、SimpleQA、AMC、LiveCodeBench等多项基础任务上,Mistral Large 3(Base)与DeepSeek 37B、Kimi K2 127B保持同一水平,属于开源系第一梯队底模[8] - 模型采用Apache 2.0开源协议,并与NVIDIA深度合作,采用FP4格式并重写了Blackwell的注意力与MoE内核,优化了推理链路[10] - 在真实任务评估中,Mistral Large 3(Instruct)在通用任务和多语言任务里对DeepSeek V3.1、Kimi K2取得53%–60%的胜率[33] Ministral 3小模型系列 - 公司推出Ministral 3系列小模型,包括3B、8B、14B三种规格,每个规格均有base、instruct、reasoning三个版本,全部为多模态且开源[1][11] - Ministral 3的instruct版本在综合智能指数上得分分别为31(14B)、28(8B)、22(3B),全部超越上一代Mistral Small 3.2,且参数量多40%[11] - 小模型经过优化可部署于多种设备,包括DGX Spark、RTX PC、普通笔记本及Jetson等嵌入式板卡,实现从数据中心到边缘设备的覆盖[11][18] - Ministral 14B的底模在数学、知识问答、多语言任务中全面领先Gemma 13B和Qwen 1.8B,其reasoning版本在AIME'25等推理任务上领先Qwen 14B「Thinking」[23][25] - Ministral 14B(Instruction)在WildBench、Arena Hard、数学推理和多模态任务上全面领先Gemma 13B与Qwen 1.8B,指令调优后综合能力几乎碾压同量级模型[28] 性能与基准测试表现 - Mistral Large 3相比上一代Large 2提升了11分,达到38分,但仍未进入GPT-5、Gemini 3、Claude Opus等顶级专有模型所在的第一梯队[13] - 在Artificial Analysis的综合榜单中,前排被GPT-5、Gemini 3、Opus系列占据,DeepSeek和Qwen持续贴近第一梯队,Mistral Large 3则位于两者之间[13] - Ministral 14B(Reasoning)在AIME'25数学推理任务上达到85%的准确率,在数学和代码推理方面几乎是同量级模型的天花板[20][25] 战略定位与行业影响 - 公司战略聚焦于企业市场,首席科学家指出超过90%的企业任务可通过微调的小模型满足,直接针对OpenAI等闭源模型成本高、可控性差的痛点[29] - 公司提供定制化服务,派遣工程师进驻客户公司,帮助构建企业专属AI,目标是用14B模型在企业场景中替代70B、400B的大模型[31] - 公司构建平台化能力,包括Mistral Agents API、Magistral模型系列及AI Studio,形成从模型到工具链的完整生态[33][35] - 公司代表欧洲式“软件制造业”哲学,将AI能力做成标准件供用户随取随用,与美国的“云端神谕”模式形成对比,在全球AI版图中开辟了新路径[37][38]
朱啸虎:DeepSeek对人类历史的改变被低估了 |未竟之约
新浪财经· 2025-12-03 10:40
节目信息 - 泛财经人文对话栏目《未竟之约》首期深度访谈即将上线 [1][3] - 节目由新浪财经、微博着力打造,微博财经与语言即世界工作室联合出品 [1][3] - 首期主持人为张小珺,对话嘉宾为金沙江创投主管合伙人朱啸虎 [1][3] 访谈核心议题 - 对话将直面AI浪潮下的激流与暗礁 [1][3] - 嘉宾朱啸虎提出观点:DeepSeek对人类历史的改变被低估了 [2][4] 内容性质声明 - 会议实录为现场速记整理,未经演讲者审阅 [2][4] - 新浪网登载此文出于传递更多信息之目的,不意味着赞同其观点或证实其描述 [2][4]
老外傻眼,明用英文提问,DeepSeek依然坚持中文思考
36氪· 2025-12-03 09:14
DeepSeek模型新版本发布 - 公司推出DeepSeek-V3.2和DeepSeek-V3.2-Speciale两大新模型,推理能力显著提升[1] - DeepSeek-V3.2版本能与GPT-5硬碰硬,Speciale版本结合长思考和定理证明能力,表现媲美Gemini-3.0-Pro[1] - 海外研究者反馈DeepSeek推理速度显著提升,但在用英文询问时思考过程仍会使用中文[1] 多语言推理效率研究 - 微软论文《EfficientXLang》发现使用非英语语言推理可减少Token消耗并保持准确性,即使翻译回英语优势依然存在[5] - 在所有评估模型和数据集上,非英语语言推理能实现20-40%的显著令牌降低,DeepSeek R1的token减少量从14.1%(俄语)到29.9%(西班牙语)不等,Qwen 3韩语减少量高达73%[9] - 中文表达相同文本含义所需字符量明显少于英文,信息密度更高,但并非最有效率的语言[3][5][9] 长上下文多语言性能表现 - 马里兰大学和微软研究提出多语言基准OneRuler,评估26种语言在128K令牌长上下文理解能力[10] - 实验表明英语在长上下文任务中排名第6,波兰语位居榜首,低资源语言与高资源语言性能差距随上下文长度增加而扩大[10] - Gemini 1.5 Flash展现最佳长上下文性能,英语和中文均未进入排名前五语言[15] 大模型思考语言选择因素 - 国产大模型因训练数据包含更多中文内容,思考过程出现中文属正常现象,如AI编程工具Cursor 2.0核心模型思考过程完全由中文构成[17] - OpenAI的o1-pro模型也会随机出现中文思考过程,尽管其训练过程中英文数据占比更高[20] - 不同语言有不同特性,在大模型中会产生各种现象,中文训练语料日益丰富[24][25]
DeepSeek V3.2正式版发布:官方称推理比肩GPT-5
凤凰网· 2025-12-03 09:04
模型发布与性能表现 - 公司于12月1日正式发布新一代开源大模型DeepSeek-V3.2及其长思考增强版DeepSeek-V3.2-Speciale,并同步更新官方网页端、App及API至V3.2版本 [1] - DeepSeek-V3.2在公开推理基准测试中推理能力达到GPT-5水平,与Gemini-3.0-Pro接近,同时输出长度较Kimi-K2-Thinking显著缩短以降低计算开销 [1] - DeepSeek-V3.2-Speciale版本融合DeepSeek-Math-V2定理证明能力,在IMO、CMO、ICPC及IOI等国际竞赛中取得金牌成绩,其中ICPC成绩达到人类选手第二名水平 [1] 技术特性与能力提升 - 新版本首次实现思考模式与工具调用融合,支持在思考过程中调用外部工具 [5] - 通过大规模Agent训练数据合成方法,模型在1800多个环境和超过8.5万条复杂指令上进行强化学习训练,提升了泛化能力 [5] - 公司在智能体评测中达到当前开源模型最高水平,进一步缩小与闭源模型差距 [5] 版本演进与开放策略 - 此前实验版本DeepSeek-V3.2-Exp于两个月前发布,经用户反馈测试,其采用的DSA稀疏注意力机制在各项场景中未出现显著性能下降 [5] - Speciale版本目前以临时API形式开放,供社区研究与评测 [5]
聊DeepSeek、聊AI硬件、聊竞争对手,OpenAI首席研究官专访信息密度有点大
36氪· 2025-12-03 07:46
人才竞争与留存策略 - Meta在人才争夺上采取激进策略,每年投入数十亿美元用于招募,并试图挖走其直接管理团队中近半数成员,但多数人选择留下 [2] - 扎克伯格曾亲自向多位OpenAI员工送汤以招揽人才,作为回应,公司也开始向从Meta招募的员工送汤 [2] - 公司提供的薪酬倍数通常低于市场顶尖水平,但留住人才的关键在于员工对实现AGI共同愿景的信念,而非薪资竞争 [2] 研发资源分配与管理 - 公司内部同时推进的研究项目约300个,核心职责之一是对项目进行技术评估与优先级排序,并将有限算力分配给最有望推动AGI实现的项目 [3] - 公司将探索性研究置于首位,大量计算资源投入探索下一个范式,这部分投入经常超过最终模型训练本身的消耗 [3] - 管理挑战在于清晰拒绝非优先项目,通过透明原则保持研究组织高效运作,将算力集中于范式突破而非渐进迭代 [3] 技术发展重点与竞争优势 - 过去半年团队聚焦全方位提升预训练能力,实现关键环节突破,现已能在预训练领域与Gemini 3正面竞争 [5] - 当其他公司聚焦强化学习时,专注预训练成为公司的信息优势,近期模型因预训练强化而显著提升 [5] - 公司绝对会继续扩大模型规模,并已掌握支持进一步扩展的算法突破,在数据效率方面的算法非常强劲 [8] 对竞争与行业动态的应对 - 面对谷歌Gemini 3等竞争模型发布,团队关注但不会打乱自身节奏,将竞争对手发布视为行业方向一致的验证 [4] - 公司常用名为42问题的数学谜题测试模型,以考察数学推理与算法优化能力,但不会为在发布首日测试对手模型而熬夜 [4] - 面对DeepSeek开源模型冲击,公司选择坚守自身研究节奏,持续创新而非立即回应外界质疑 [10] AGI发展进程与衡量标准 - 关于AGI时间预测,公司更倾向将焦点从抽象时间预测转向具体进展指标,如是否产出新的科学知识和推进科学前沿 [6] - 公司认为正处在生产AGI的过程之中,自今年夏天起已观察到一个非常剧烈的阶段转变,AI在推动科学发现方面进入新阶段 [6] - AGI讨论往往陷入定义之争,即使内部也难以给出完全一致的定义,更倾向于用历史进程类比工业革命 [6] 未来技术路线图与目标 - 研究团队设定明确目标:一年内让AI成为研究实习生实质参与科研,两年半内实现AI端到端的完整研究能力 [7] - 当前流程由人类主导,但一年内将转变为人类把控方向,AI执行实现与调试的模式 [7] - 算力需求真实且迫切,如果今天多给3倍算力可立刻用完,多10倍几周内就能排满,看不到任何放缓迹象 [8] 硬件开发与交互体验演进 - 公司与知名设计师乔尼·艾维合作开发下一代AI硬件设备,旨在突破现有ChatGPT一问一答的交互局限 [9] - 未来设备应具备持续学习与记忆能力,能记住用户、理解意图、关联问题,并在每次互动中变得更聪明 [9] - 硬件设计流程与AI研究存在深层次相似性,均需经历大量探索、假设、试错与迭代,艾维是公司在品味上的鉴别者 [9]