Scaling Law
搜索文档
资深科技投资者:如果没有Scaling Law的突破,2024年AI就崩了
华尔街见闻· 2025-12-10 08:26
文章核心观点 - Gemini 3模型的发布证明大模型的扩展定律依然有效 在硬件算力受限的窗口期 AI通过新的推理机制实现了能力跃升 支撑了当前科技股的高估值 [1] - 行业已跨越单纯依赖堆砌显卡的增长瓶颈 进入通过逻辑推理与验证实现价值跃升的新阶段 未来当新定律运行在更强硬件上时 AI能力将迎来再次爆发 [5] 关于扩展定律的验证与意义 - Gemini 3的发布具有里程碑意义 明确证实了预训练扩展定律仍然有效 [2] - 该定律此前更多是一种经验观察 其原理并未被完全理解 [2] - 对投资者而言 每一次对扩展定律的确认都至关重要 若其失效 海量资本支出将无法转化为更强的智能表现 [2] - Gemini 3证明即便在现有硬件架构下 通过增加算力和数据 模型基座能力依然在提升 [2] 硬件断档期的挑战与应对 - 英伟达下一代芯片Blackwell面临科技史上最复杂的产品过渡与延迟 导致硬件算力出现“断档期” [1] - 若非模型推理能力及时涌现 全球AI产业本将在2024年中期至Gemini 3发布期间陷入完全停滞 并可能引发资本市场剧烈动荡 [1] - 在过去几个月没有真正下一代算力上线的情况下 AI的进步主要依赖于两类新方法 [1] 推动AI进步的两大新技术路径 - 带有验证奖励的强化学习 只要有明确的对错结果 AI就能通过强化学习自我进化 [4] - 测试时计算 让模型在回答问题前“思考”更长时间 通过消耗更多的推理算力来换取更高的智能表现 [4] - 这两项技术让模型在现有硬件上实现了智能水平的显著提升 [1] - 这两大定律在英伟达Blackwell缺席的情况下 强行延续了摩尔定律般的增长 填补了硬件迭代的空窗期 并具有乘数效应 [3] 推理能力带来的智能飞跃 - 让全球市场躲过硬件真空期劫难的是“推理”能力的出现 [3] - 根据ARC AGI基准测试数据 AI智能水平在过去四年里仅从0进展到8% [3] - 在OpenAI推出首个具备推理能力的模型后 短短三个月内就从8%飙升至95% [3] - 这一飞跃源于两条新的扩展定律 [3]
当千亿参数撞上5毫米芯片
钛媒体APP· 2025-12-10 03:19
文章核心观点 - 全球AI技术发展重点正从追求云端大模型的参数规模,转向解决端侧AI的工程化难题,以实现高智商、低延迟、低功耗的智能应用[4][16] - 端侧AI面临“不可能三角”的物理极限挑战,行业通过“云-边-端”三级分层架构、算法模型压缩、芯片架构创新以及从通用走向专用等路径寻求突破[7][8][11][15] - 中国AI产业出现集体觉醒,不再盲目追求参数之“大”,而是转向追求应用落地之“实”,致力于将AI嵌入万物,实现真正的万物智能[16][18] 技术风向与行业共识 - 2025年技术风向逆转,工程界开始重点攻克“端侧AI”命题,目标是将大模型能力塞进面积数平方毫米、功耗仅几瓦的端侧芯片中[4] - 行业普遍共识是未来AI架构必须是“人格分裂”的“云-边-端”三级分层架构:云端处理复杂长尾问题,端侧负责高频、实时、隐私敏感任务[7] - 端侧AI面临“不可能三角”挑战:高智商、低延迟、低功耗三者难以兼得[7] - 端侧物理条件严苛,主流车载芯片、智能家居SoC或旗舰手机的NPU专用内存仅几GB甚至几百MB,而运行一个700亿参数模型仅加载权重就需约140GB显存[6] 算法层面的优化路径 - 行业主要通过三把“手术刀”对模型进行压缩与优化:知识蒸馏、极致量化、结构剪枝[8][10] - **知识蒸馏**:让云端超大模型(Teacher)将核心逻辑“传授”给端侧小模型(Student),使0.5B参数的小模型在特定垂直场景表现能逼近百亿参数通用模型[8] - **极致量化**:通过训练后量化或量化感知训练,将模型权重从FP16压缩至INT8甚至INT4,使模型体积压缩4倍以上,推理速度成倍提升[10] - **结构剪枝**:剔除神经网络中对输出影响微乎其微的冗余参数,从物理层面减少计算量[10] 芯片架构的创新突破 - 端侧大模型推理的主要瓶颈在于“访存”,传统冯·诺依曼架构下,超过80%的功耗消耗在数据搬运上,即“内存墙”危机[11] - 行业通过DSA领域专用架构来突破瓶颈,核心思路包括存算一体化、异构计算调度和算子硬化[13][14] - **存算一体化**:拉近存储与计算单元的物理距离,甚至在SRAM中直接计算,减少数据搬运开销[13] - **异构计算调度**:在SoC内精细分工,CPU负责流程控制,DSP负责信号处理,定制NPU负责繁重的矩阵乘法运算[14] - **算子硬化**:针对Transformer核心的Attention机制,在硅片上直接“刻死”加速电路,牺牲通用性以换取极高效率,实现毫秒级响应[14] - 云知声、地平线等硬科技企业通过上述架构创新,已将芯片出货量做到上亿颗[13] 应用策略的务实转变 - 行业路径从追求“通用”走向深耕“专用”,承认AI局限性,打造专精的垂直智能体[15] - 商汤医疗采用“平台化”策略,搭建模型生产平台,让医院基于自身高质量数据训练针对特定病种的专用模型,将AI变为“熟练技工”[15] - 云知声的产业路径是避开通用大模型红海,通过在医疗、家居等垂直领域深耕来打磨端侧技术与芯片,赚取数据反馈反哺基础研究[15] - 这种转变旨在让AI更务实,需要的算力更少,但在专业领域给出的建议更靠谱[15] 产业影响与未来展望 - 中国AI产业集体觉醒,转向追求应用落地的“实”[16] - 成千上万的工程师致力于将AI的价格打下来,体积缩下去,使其嵌入生活的每一块玻璃、每一颗芯片[17] - 真正的“万物智能”是让万物拥有一颗微小、聪明且独立的“芯”,不再依赖脆弱的网络连接[18] - 当一颗几十块钱的芯片能跑通拥有逻辑推理能力的大模型且不依赖网络时,智能时代的奇点才算真正到来[18]
月之暗面迎来一名女总裁
华尔街见闻· 2025-12-09 13:01
公司核心动态:月之暗面(Kimi)的战略与商业化 - 前金沙江创投主管合伙人张予彤以“Kimi总裁”新身份公开亮相,负责公司整体战略与商业化,包括融资与新产品开发 [1][2] - 公司推出付费会员服务“OK Computer”模式,旨在让用户为节省时间和解决复杂问题的能力付费,打破国内大模型长期免费的传统,是从烧钱换量转向价值变现的关键举措 [6] - 公司最新一轮融资已接近收尾,估值有望冲至40亿美元,并有IPO计划 [6] - 面对用户增长瓶颈,公司收缩了投放预算,策略从“烧钱换量”转向依靠“技术溢价”路线 [4][6] 公司技术能力与市场地位 - 公司最新的开源思考模型Kimi K2 Thinking在HLE和BrowseComp等基准测试中刷新了SOTA记录,据称超越了GPT-5和Grok 4等顶尖模型 [4] - 公司技术底牌包括Muon二阶优化器,首次在万亿参数模型上验证了可行性,使Token效率提升了2倍 [4] - 全球顶尖AI搜索应用Perplexity在其模型列表中,除闭源模型外,唯一接入的就是Kimi K2 Thinking [4] - 公司强调即便只有海外巨头1%的资金和人员投入,依然能重写训练范式,以回应市场对其“后劲不足”的担忧 [3][4] - QuestMobile数据显示,Kimi月活用户数从去年底的2101万下滑至今年三季度末的967万,而同期豆包和DeepSeek月活破亿 [5] 行业竞争格局与趋势 - 中国AI市场呈现清晰的“双寡头”特征:字节跳动的豆包依靠抖音生态日活达5000万,深度求索(DeepSeek)以极致的技术效率和低价策略击穿行业底线,两者切走近半壁江山 [8] - 阿里千问、月之暗面、智谱AI、MiniMax等“六小虎”被夹在巨头生态霸权和DeepSeek的成本优势之间,单纯靠聊天机器人已不足以确立生存空间,进入差异化生存的淘汰赛 [8] - 行业从“百花齐放”固化为“阶层分化”,靠PPT融资的“草莽时代”已结束,下半场是关于获客成本、用户生命周期价值和毛利率的冷酷计算 [8][10] - 大模型公司资本化进程加速,智谱AI已在北京证监局备案辅导,MiniMax也传出IPO规划,给同行带来巨大心理压力 [9] 行业参与者战略调整 - “六小虎”开始痛苦变阵:百川智能重新聚焦医疗垂直领域,试图避开通用模型的竞争;零一万物放弃了万亿参数超大模型研发,转而拥抱DeepSeek模型做To B应用 [8] - 分析师认为大模型市场不会赢家通吃,而是分层共存,在政府、金融等强调安全可控的场景以及企业垂直领域仍有发展机会,关键看商业化落地路径 [9] - 随着基础大模型能力提升,垂直领域在未来1-2年里会有较好的变现机会 [9]
Scaling Law 仍然成立,企业搜广推怎么做才能少踩“坑”?
AI前线· 2025-12-09 06:26
作者 | AICon 全球人工智能开发与应用大会 策划 | 罗燕珊 编辑 | 宇琪 当大模型从通用技术探索深入产业场景,搜索、广告与推荐系统作为连接用户需求与业务价值的 核心链路,正迎来全链路智能重构。那么,生成式推荐真正落地后的关键挑战是什么?又应该如 何解决? 近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了 京东内容推荐架构负责人颜林 担任主持 人,和 荣耀 AI 算法专家冯晓东、京东算法总监张泽华、中科大计算机学院副教授王皓 一 起,在 AICon 全球人工智能开发与应用大会 2025 北京站 即将召开之际,共同探讨生成式推 荐的落地洞察。 部分精彩观点如下: 完整直播回放可查看: https://www.infoq.cn/video/0ViWrdqyQwNvO7TdQpyD 以下内容基于直播速记整理,经 InfoQ 删减。 行业真正做到端到端的统一 pipeline 仍有较大差距,更多工作还是在 pipeline 的单点与大模型 结合。 搜广推场景中的 scaling law 依然成立,并且仍在快速上升阶段。 低价值场景用小模型覆盖,高价值场景用大模型争取额外收益。 不应拘泥于某项技术 ...
新力量NewForce总第4919期
第一上海证券· 2025-12-08 12:09
石药集团 (01093) 公司研究 - 2025年前三季度营收198.9亿元人民币,同比下降12.3%,调整后归母净利润下降15.2%[6] - 成药板块收入154.5亿元人民币,同比下降17.2%,其中神经系统收入56.7亿元(占比40.8%),肿瘤板块受集采影响收入下降56.8%至16.5亿元[6][7] - 公司承诺下半年派息不低于上半年(14港仙),并加大研发,研发费用占成药收入比同比上升6.3个百分点至27.1%[6] - 通过DCF估值(WACC 10%,永续增长3%)得出目标市值1165亿港元,目标价10.03港元,对应2025年市盈率25.2倍[9] 科技行业周报 - AI算力需求从训练侧转向推理应用驱动,谷歌预计未来4-5年算力需实现1000倍增长,2026年算力将非常紧张[12][13] - 光模块需求旺盛,预计2026年1.6T光模块出货量乐观情况下超过2500万只,800G光模块出货超过5500万只[14] - 国产算力关注度提升,摩尔线程上市首日市值达2822.5亿元人民币,沐曦股份拟募资39亿元人民币[16] - 建议关注国产算力芯片供应商(如寒武纪)及上游晶圆代工厂(如中芯国际、华虹半导体)[17]
哈萨比斯:DeepMind才是Scaling Law发现者,现在也没看到瓶颈
量子位· 2025-12-08 06:07
Scaling Law的现状与历史 - 谷歌DeepMind首席执行官哈萨比斯在Axios AI+峰会上力挺Scaling Law,认为其对于实现AGI至关重要[1][6] - 哈萨比斯指出,Scaling Law最早的发现者并非OpenAI,而是DeepMind团队,其内部在2017至2018年期间的研究已发现相关规律,并称之为“Chinchilla Scaling Laws”[6][14][17] - 基于对Scaling Law有效性的确认,DeepMind调整了研究方向并投入更多资源,这被认为是其在大模型领域取得成功、推动Gemini从1.0演进到3.0时代的关键[18] Scaling Law与AGI(通用人工智能)的关系 - 公司认为,无论AGI最终形态如何,Scaling都将是其中的关键组成部分,且当前Scaling尚未到达极限,有必要继续沿此路线将系统推向最大化[21][22] - 哈萨比斯提出,单靠Scaling Law也有可能达成AGI,因为大量数据和计算资源的投入是展现类人智慧能力的合理途径[7][23] - 同时,他也猜测实现AGI可能还需要一两个类似Transformer或AlphaGo级别的重大突破,并预测这个时间点可能在5到10年内[24][26] 对未来12个月AI发展的预测 - **多模态融合**:完整的多模态融合将是主流演进方向,谷歌DeepMind正全力推进,旨在通过交叉融合图像、视频、文本和音频来全面提升模型的推理和创造力[27][28][30] - **视觉智能突破**:以谷歌Nano Banana Pro等图像模型为例,视觉理解能力有显著进展,未来将在更丰富的分析、故事讲述和分步视觉推理方面继续探索[31][32][33] - **世界模型普及**:世界模型是行业关注重点,也是哈萨比斯个人的工作重点,例如谷歌8月上线的世界模型Genie 3,预计下一年该领域将持续受到业界关注[35][36][37] - **Agent可靠性提升**:哈萨比斯认为,现有Agent系统尚不完全可靠,但预计再有一年时间,Agent将能开始接近于可靠地完成委托任务[38][39][40] Gemini的发展与目标 - Gemini 3的成功验证了Scaling Law的有效性,其全网爆火被视为谷歌打了一场漂亮的翻身仗[4][5] - Gemini 3的独到之处在于个性化的深度、简洁的回答、温和反驳不合理观点的能力,并能一键式生成商业级游戏,展现了其基座架构在理解高层次指令和输出高精度细节方面的优势[43][44][45][46] - 公司对Gemini设定的最终目标是成为“通用万能助手”或“通用助手”,下一代Gemini将延续现有优势,出现在更多设备上并无缝融入日常生活,其使用频率将变得和使用手机一样频繁[9][41][46][47]
持续看好AI链,关注存储周期影响
华泰证券· 2025-12-05 09:05
核心观点 - 2026年电子行业主线为AI链、存储周期上行及自主可控加速,持续看好AI数据中心拉动的存储涨价周期、全球头部CSP厂自研ASIC落地带动高端PCB需求、国内代工厂及存储IDM扩产受益上游设备商、消费电子端侧AI创新催化产业链 [1] - Scaling Law进入2.0阶段,从预训练拓展至后训练与推理,推动算力需求持续增长,互联组件(光模块/交换机)因GPU集群规模扩大呈现非线性增长 [2][18] - 存储周期受AI数据中心需求拉动及供给受限影响,4Q25 DRAM/NAND价格环比涨幅扩大至23%-28%/5%-10%,预计1H26价格进一步上行 [3][91][92] - 自主可控趋势下,国内晶圆厂加速先进制程产能扩张,2.5D/3D封装市场2025-2029年CAGR达25.8%,存储芯粒国产化带动刻蚀/沉积设备需求提升 [4][111][120][146] AI链:Scaling Law与算力需求 AI模型演进 - Scaling Law从预训练扩展至后训练(强化学习、思维链)和推理阶段,头部模型训练数据量从15T tokens提升至30T以上(如Qwen系列达36T tokens)[18][24] - 海外路径依赖算力投入(如Grok 4后训练算力较Grok 3扩大10倍),国内聚焦架构优化(如DeepSeek动态稀疏注意力、Kimi Muon优化器降低50%算力成本)[31][32] 互联组件需求 - AI算力扩张催生Scale-out(集群互联)、Scale-up(内存池化)、Scale-across(跨数据中心)三大互联需求,DCI市场规模预计从2023年10亿美元增至2028年30亿美元(CAGR 25%)[36][56][59] - GPU数量增长驱动互联组件非线性需求:GPU达4096个时,交换机/GPU比例从4.7%升至7.8%,光模块/GPU比例从2.5倍升至3.5倍 [42][43][45] AI芯片与PCB - 全球八大CSP厂商2026年资本支出预计达6000亿美元(同比增40%),2030年GPU市场规模4724亿美元(2024-2030年CAGR 35.19%)[59][60][63] - AI服务器PCB需求向高多层(14层以上)、高阶HDI迭代,2024年全球AI/HPC领域PCB市场规模60亿美元,2029年预计150亿美元(CAGR 20.1%)[73][76][77] - 2026年算力PCB需求预计达1000亿元,ASIC板卡贡献300亿元增量,CCL材料向M8/M9升级支持单通道224Gbps传输 [86][82] 存储周期:供需结构与价格趋势 价格与供给 - 海外原厂4Q25涨价函频出:美光DRAM涨价20%-30%,三星LPDDR5系列涨15%-30%,闪迪NAND 11月涨价50% [91] - HDD供应短缺(交期52周)加速企业级SSD渗透,2026年DRAM/NAND资本支出增幅保守(14%/5%),产能转向HBM等高附加值产品 [99][100][101] 需求拉动 - 2024年企业级SSD/HBM市场规模262/200亿美元,2027年预计达351/488亿美元(CAGR 10.2%/34.6%)[103][104][105] - AI推理应用拉动NAND需求,KV Cache缓存需求增长(如LLaMA-2-13B模型并发10请求需31.25GB容量),华为等厂商推出AI SSD构建三级缓存体系 [106][107][109] 自主可控:制造、封测与设备 制造与封测 - 中国大陆晶圆厂在成熟制程份额提升(中芯国际/华虹/晶合跻身全球前十),但先进制程份额仅8%(2023年),预计2027年美国份额升至21% [111][112][113] - 2.5D/3D封装市场高速增长,全球/中国芯粒多芯片集成封装2025-2029年CAGR为25.8%/43.7%,台积电CoWoS/SoIC产能加速扩张 [120][124][125][129] 设备技术迭代 - DRAM向3D架构演进,4F²+CBA方案成为方向,Yole预计2029年CBA-DRAM占DRAM产量29% [134][138][143][144] - 3D NAND层数向300层以上突破,刻蚀/沉积设备价值量提升(如高深宽比刻蚀、PE-HARP工艺),国产设备商受益存储扩产 [146][147][148] 消费电子:压力与创新 - 存储涨价使安卓手机/PC产业链承压,出货量可能同比下滑,零部件利润率受挤压,苹果链受影响较小 [5] - 2026年折叠屏、AI/AR眼镜、OpenAI硬件等新品催化行业,苹果可能推出折叠屏及Apple Intelligence功能,AR产品拐点临近 [5][32]
奥特曼发红色警报,大模型走进死胡同了吗 ?
36氪· 2025-12-03 04:31
行业技术瓶颈 - 大语言模型训练成本飙升但性能提升显著放缓,2019-2022年成本增加10倍性能提升25%-35%,2023年后同样成本投入性能提升降至10%-15%,2024年以来成本翻倍性能提升不足5% [2][3] - 头部模型性能表现趋同,在关键基准测试上得分集中在一个狭窄区间,2025年11月排名第一和第十的模型Elo评分差距从2024年6月的超过150分收窄至不足50分 [10] - 曾经被视为黄金定律的Scaling Law正在失效,模型代际更新间隔拉长,例如Meta Llama模型从第三代到计划推出的第四代间隔已超过15个月 [11][12] OpenAI面临的竞争与内部挑战 - 公司宣布进入"Code Red"紧急状态,竞争对手谷歌Gemini 3模型在基准测试上实现超越,其月活跃用户从2025年7月的4.5亿增长至10月的6.5亿,同时Anthropic的Claude周访问量达0.41亿人次,较六周前增长17.1% [1][3] - 自2024年5月GPT-4o发布后,公司顶尖研究人员未能成功完成一次大规模全面预训练,GPT-5相比GPT-4更像是微调优化而非代际升级,其MMLU评分仅比GPT-4提升10%-20% [6][7] - 公司调整策略重心转向优化现有产品ChatGPT,改进个性化功能、速度及可靠性,并推迟广告、健康AI代理等其他项目开发,鼓励员工调岗并每日召开改进会议 [8] 技术困境的根本原因 - 大语言模型面临"不可约误差"限制,当模型足够强不再犯低级错误后,由语言本身歧义和不确定性造成的误差无法通过增加数据、算力或改进算法消除 [14][15][16] - 高质量训练数据面临枯竭,GPT-4几乎已用完互联网上高质量文本,剩余大量低质量内容,使用AI生成数据训练会导致"模型崩溃",使模型输出多样性下降并放大自身错误 [20][21] - 互联网上已充斥大量AI生成内容,未来模型通过爬取网络获取训练数据将不可避免包含这些内容,使模型崩溃从理论问题转变为实际威胁 [22] 行业未来发展方向争议 - 以李飞飞为代表的观点认为大语言模型只是AI系统组件,未来需要发展能理解三维物理世界的"世界模型",使用逻辑规则和符号推理而非统计模式 [23][24] - 杨立昆等学者批评语言模型路径只是学习统计规律而非真正理解世界,实现真正智能需让AI建立对物理世界基本概念的模型 [25][27] - OpenAI和Anthropic坚持"规模假说",认为继续扩大模型规模、投入更多数据和算力,智能会"自动涌现",语言模型路径仍有潜力达到AGI [28][29]
ChatGPT三岁生日,谷歌却为它准备了“葬礼”
虎嗅APP· 2025-12-02 23:55
文章核心观点 - ChatGPT发布三年后AI行业格局发生颠覆性变化,谷歌Gemini 3的强势崛起对OpenAI形成巨大竞争压力[8][9][17][34] - AI技术演进从纯文本对话发展到多模态应用爆发,彻底重塑人类生产效率和社会结构[28][29][33][34] - OpenAI采用独特的融资模式,通过合作伙伴承担近1000亿美元债务来支撑算力扩张,自身财务风险极低[53][54][55][63] 人类被改写的三年 - 2022-2023年:ChatGPT突破图灵测试防线,主要特点是"对话"交互,Prompt Engineering成为热门技术但迅速被AI自身能力瓦解[24][25][27] - 2024-2025年:多模态AI爆发,GPT-4o、Midjourney等模型具备图像、音频、视频处理能力,Vibe Coding和Cursor等工具重塑生产关系[28][29][33] - 2025年成为"奇点体验年",谷歌Gemini 3的卓越表现引发行业格局变化[34] 谷歌重生,OpenAI变天 - 谷歌Gemini移动应用月活用户从5月约4亿激增至6.5亿,用户使用时间已超过ChatGPT[37][39] - 行业领袖评价发生逆转,Hugging Face联合创始人称"天已经变了",Salesforce CEO表示"回不去了"[42][43][44] - OpenAI面临多重压力,内部员工感到竞争压力,公司产品线扩张过快可能影响专注度[46][48][49] OpenAI的独特融资模式 - 合作伙伴为OpenAI承担近1000亿美元债务,相当于全球六大企业借款人净债务总和[53][54][58] - OpenAI自身账上几乎没有欠款,仅拥有40亿美元信贷额度且未动用[55] - 具体债务分布:甲骨文/Vantage债务380亿美元,软银债务200亿美元,CoreWeave债务超100亿美元[53][60][61] - 甲骨文已发售180亿美元债券,未来四年可能还需借款1000亿美元完成OpenAI合同[64] 技术演进对比 - GPT系列性能持续提升:GPT-5在速度、推理能力、token效率、准确性和上下文保留方面均达到最佳水平[23] - OpenAI计划未来8年投入1.4万亿美元用于算力建设,与英伟达、甲骨文、AMD等达成巨额交易[49] - 技术发展带来社会影响:CS课程教授开始教"不写一行代码的"编程课,企业开始大规模裁员[11]
从开源最强到挑战全球最强:DeepSeek新模型给出了解法
观察者网· 2025-12-02 11:38
模型发布核心信息 - 12月1日,公司发布两个正式版模型:面向日常使用的DeepSeek-V3.2和面向极致探索的DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2是9月底实验版V3.2-Exp的正式版,平衡推理能力与输出长度,适合问答场景并强化了Agent能力,官方网页端、App和API均已更新 [1][4] - Speciale版本是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,目标是将开源模型推理能力推向极致,目前仅以临时API服务形式开放 [1] 模型性能表现 - 在公开推理测试中,V3.2已达到GPT-5水平,仅略低于Google Gemini 3 Pro,相比Kimi-K2-Thinking输出长度大幅降低,减少计算开销与用户等待时间 [6] - Speciale在多个推理基准测试中超越Gemini 3 Pro,包括美国数学邀请赛(96.0分)、哈佛MIT数学竞赛(99.2分)和IMO(84.5分) [7] - 在编程与理工科博士生测试中,Speciale仍略逊于Google顶级模型,如LiveCodeBench(88.7分)和GPQA Diamond(85.7分)低于Gemini 3 Pro的90.7分和91.9分 [7] 技术架构创新 - 公司设计了DSA(DeepSeek稀疏注意力)机制应对长文本计算量爆炸,该机制像图书管理员通过“闪电索引器”只检索关键信息,大幅降低计算复杂度 [8] - V3.2的核心亮点是“Thinking in Tool-Use”(思考型工具调用),这是AI Agent领域的“Interleaved Thinking”(交错思维链)技术的重要背书 [8][9] - 该技术将冗长、重度依赖工具的任务转化为稳定的“计划→行动→反思”循环,通过复用假设与部分结论减少多轮任务中的“状态漂移”与重复性错误 [9] 战略方向与行业定位 - 公司将“Agent能力”提升到与“推理能力”同等重要的战略位置,试图通过Agent能力将模型从“聊天机器人”进化为真正的“数字劳动力” [13] - 从经济维度看,企业真正愿意付费的是“降本增效的行动”而非“更优美的回答”,Agent使LLM从“对话式AI”进化为“动作式AI”以产生商业闭环 [13] - 公司思路已从工具转变为基础设施提供商,大模型正演变成调度工具的通用操作系统,模型是内核,Agent是用户态程序,插件则是工具 [14] 行业竞争格局 - 过去一年开源大模型生态集体爆发,阿里云Qwen系列、月之暗面Kimi、智谱GLM和MiniMax M系列均取得超越当时顶级闭源模型的成果 [1] - Google Gemini 3.0 Pro的发布重新定义了“全球最强”,其强劲性能让开源和闭源的差距瞬间又变成了一道新的天花板 [2] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、Agent领域泛化能力和指令遵循能力存在明显差距 [15] 未来发展路径 - 公司计划通过增加预训练计算量填补知识空白,并优化模型推理链的“智能密度”提高效率,让模型学会“少说话、多办事” [16] - 研究员Zhibin Gou表示,训练后的瓶颈需通过优化方法和数据解决,而非仅等待更好的基础模型,持续扩大模型规模、数据量、上下文和强化学习 [17] - 公司用实打实的模型证明Scaling没死只是换了战场,当行业讨论Scaling Law是否撞墙时,公司想证明持续扩展的可能性 [19]