Scaling Law
搜索文档
倒反天罡,Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
36氪· 2025-12-22 10:12
倒反天罡! Gemini 3 Flash的表现在SWE-Bench Verified测试中获得了78%的分数,比超大杯Pro还略胜一筹。 | Benchmark | Description | | Gemini | Gemini | Gemini | Gemini | | --- | --- | --- | --- | --- | --- | --- | | | | | 3 Flash | 3 Pro | 2.5 Flash | 2.5 Pro | | | | | Thinking | Thinking | Thinking | Thinking | | | | | | $2.00 | | $1.25 | | Input price | | $/1M tokens | $0.50 | $4.00 > | $0.30 | $2.50 > | | | | | | 200k | | 200% | | | | | | tokens | | tokens | | Output price | | $/IM tokens | $3.00 | $12.00 | $2.50 | $10.00 | | | | | | $18. ...
信仰与突围:2026人工智能趋势前瞻
36氪· 2025-12-22 09:32
谁也无法想到,ChatGPT迎来三周年之际,没有庆祝和纪念,反而是内部发布的一封红色警报,再次敲响了人工智能竞争白热化的战鼓。在受到Gemini 3 惊艳效果的威胁下,Open AI加速推出了GPT 5.2,用更多的资源,在多项指标上实现了反超。但三年下来,各大模型之间的性能差距和范式差异持续缩 小,业界出现不少质疑的声音,认为大模型发展正面临天花板。但也有很多人坚定看好AGI的到来,产业充满了更多的争论和分化。 站在2025的年尾,回顾来时之路,从DeepSeek的火热,到GPT4o 后吉卜力动画的流行,Sora2的与山姆奥特曼同框,再到谷歌Nano Banana生图的各种机器 猫讲解。有时似乎有恍如隔世之感,一项今年的技术,仿佛已是多年前的流行。 展望2026,我们不仅感受到对大模型智能瓶颈和投资回报不确定性的焦虑,看到更多的非共识,也看到大家的坚守和信仰,以及有望在多个方向的突围, 更多的期待和探索正在扑面而来。 信仰 1.Scalling Law驱动向AGI持续进化 自 ChatGPT 横空出世以来,业界主流都相信只要不断增加算力、扩充数据、堆叠参数,机器的智能就会像物理定律一样增长,直至触达 AGI ...
信仰与突围:2026人工智能趋势前瞻
腾讯研究院· 2025-12-22 08:33
信仰 1.Scalling Law驱动 向AGI持续进化 王齐昂 独立科技观察者 谁也无法想到,ChatGPT迎来三周年之际,没有庆祝和纪念,反而是内部发布的一封红色警报,再次敲 响了人工智能竞争白热化的战鼓。在受到Gemini 3惊艳效果的威胁下,Open AI加速推出了GPT 5.2,用 更多的资源,在多项指标上实现了反超。但三年下来,各大模型之间的性能差距和范式差异持续缩小, 业界出现不少质疑的声音,认为大模型发展正面临天花板。但也有很多人坚定看好AGI的到来,产业充 满了更多的争论和分化。 站在2025的年尾,回顾来时之路,从DeepSeek的火热,到GPT4o 后吉卜力动画的流行,Sora2的与山姆 奥特曼同框,再到谷歌Nano Banana生图的各种机器猫讲解。 有时似乎有恍如隔世之感,一项今年的技 术,仿佛已是多年前的流行。 展望2026,我们不仅感受到对大模型智能瓶颈和投资回报不确定性的焦虑,看到更多的非共识,也看到 大家的坚守和信仰,以及有望在多个方向的突围,更多的期待和探索正在扑面而来。 自 ChatGPT 横空出世以来,业界主流都相信只要不断增加算力、扩充数据、堆叠参数,机器的智能就 会 ...
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
量子位· 2025-12-22 08:01
文章核心观点 - Gemini 3 Flash 模型在多项关键性能基准测试中超越了其旗舰版本 Gemini 3 Pro 及上一代产品,同时具备显著的成本和速度优势,这挑战了“模型越大越好”的传统观念,并揭示了谷歌在模型开发战略上的重大转变,即通过旗舰模型“蒸馏”出更高效、更强大的轻量版模型 [1][4][6][19] 模型性能表现 - **编程能力反超**:在衡量软件工程能力的权威测试 SWE-Bench Verified 中,Gemini 3 Flash 获得 **78.0%** 的分数,超越了 Gemini 3 Pro 的 **76.2%** 以及上一代 Gemini 2.5 Pro 的 **59.6%** [1][2][6] - **数学能力顶尖**:在 AIME 2025 数学基准测试中,结合代码执行能力的 Gemini 3 Flash 得分高达 **99.7%**,已无限逼近满分,不使用工具时也达到 **95.2%**,略高于 Pro 版的 **95.0%** [2][7] - **多模态与推理能力强劲**:在 Humanity‘s Last Exam 学术推理测试中,Flash 在不使用工具的情况下获得 **33.7%** 的分数,与 Pro 版的 **37.5%** 处于同一梯队;在 MMMU-Pro 多模态理解测试中,Flash 以 **81.2%** 的成绩与 Pro 版的 **81.0%** 基本持平 [2][7] - **全面领先上一代**:Gemini 3 Flash 在几乎所有基准测试中的表现都全面超越了上一代的 Gemini 2.5 Pro 和 2.5 Flash [2][6] 成本与速度优势 - **定价极具竞争力**:Gemini 3 Flash 的输入成本为 **0.50美元/百万Token**,输出成本为 **3.00美元/百万Token**,显著低于 Gemini 3 Pro 的 **4.00美元/百万输入** 和 **12.00美元/百万输出** [2][8][9] - **速度与效率提升**:Gemini 3 Flash 的推理速度是 Gemini 2.5 Pro 的 **3倍**,同时 Token 消耗量减少了 **30%** [9] - **性价比突出**:相较于性能提升,其价格虽略高于 Gemini 2.5 Flash,但仍被认为极具吸引力 [9] 战略定位与技术路径 - **Pro 模型的新角色**:谷歌团队明确表示,旗舰 Pro 模型的主要作用之一是作为“蒸馏”轻量版 Flash 模型的来源,旨在不计成本地探索智能上限,而 Flash 则负责继承能力并极致优化延迟、成本和吞吐量 [10][12][13] - **技术实现路径**:Flash 的性能超越并非简单蒸馏的结果,而是集成了大量最新的代理强化学习研究成果,证明了通过先进的后训练算法,小模型可以实现对更大参数模型的“降维打击” [20][21][22] - **Scaling Law 的演变**:团队认为单纯依靠预训练阶段堆砌参数的路径正在逼近极限,未来的扩展重点将从预训练算力堆叠转移到推理侧的计算扩展和后训练优化 [15][16][17] 行业影响与竞争格局 - **挑战传统观念**:Flash 的表现直接打破了“参数至上”和“旗舰版迷信”,证明了更便宜、更快的模型可以同时是更聪明的模型,引发了关于“帕累托前沿”反转的讨论 [4][19][23] - **横向对比保持竞争力**:在与主要竞品的对比中,Gemini 3 Flash 在多项测试中表现优异,例如在 SWE-Bench Verified 测试中得分 **78.0%**,高于 Claude Sonnet 的 **77.2%**,接近 GPT-5.2 Extra high 的 **80.0%** [8] - **未来演进方向**:行业认为后训练是目前最大的“未开垦绿地”,在代码、推理等封闭任务被“击穿”后,提升模型在开放式任务上的能力将成为关键 [17][18]
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
量子位· 2025-12-22 04:41
一水 发自 凹非寺 量子位 | 公众号 QbitAI MiniMax海螺视频团队不藏了! 首次开源 就揭晓了一个困扰行业已久的问题的答案—— 为什么往第一阶段的视觉分词器里砸再多算力,也无法提升第二阶段的生成效果? 翻译成大白话就是,虽然图像/视频生成模型的参数越做越大、算力越堆越猛,但用户实际体验下来总有一种微妙的感受——这些庞大的投入 与产出似乎不成正比,模型离完全真正可用总是差一段距离。 So why?问题,大概率就出在 视觉分词器(Tokenizer) 这个东西身上了。 当算力不再是答案时,真正需要被重新审视的,其实是生成模型的"起点"。 在当前主流的两阶段生成框架中 (分词器+生成模型) ,业界已经在视觉分词器的预训练上投入了大量算力与数据,但一个尴尬的事实是: 这些成本,几乎没有线性地转化为生成质量的提升 。 而MiniMax海螺视频团队,不止挑战了这一现实——用实验证明"Tokenizer的scaling能够提升模型性能"。 更关键的是,还带来了一款 开箱即用、专为"下一代生成模型"打造的可扩展视觉分词器预训练框架——Visual Tokenizer Pre-training (以下简称VTP) ...
Scaling Law没死,Gemini核心大佬爆料,谷歌已有颠覆性密钥
36氪· 2025-12-22 01:05
谷歌又要有重大突破了? 最近,Google DeepMind的Gemini预训练负责人Sebastian Borgeaud在采访中给出重磅爆料—— Google DeepMind的Gemini预训练负责人Sebastian Borgeaud在最近的访谈中表示,预计在未来一年内,针对提升长上下文处理效率以及进一步扩展模型上 下文长度的预训练技术,将会有重大创新。 未来一年,大模型预训练领域将在「长上下文处理效率」和「上下文长度扩展」两大方向迎来重大技术创新。 同时,Google Gemini三巨头——Jeff Dean、OriolVinyalsML和Noam Shazeer罕见同台了,他们的对谈中,跟Sebastian的内容展现出了惊人的一致。 众多高瞻远瞩、闪烁着智慧光芒的思想让人深思。 难怪,谷歌依然是那个巨人。 谷歌大佬激动预言 已破解大模型核心秘密 另外他还透露说,最近他们在注意力机制方面取得了一些非常有趣的发现,这可能在未来几个月内重塑他们的研究方向。 对此,他表示非常兴奋。 而且他提出了振聋发聩的一句话:Scaling Law并未消亡,只是正在演变! Sebastian Borgeaud是Gemin ...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
量子位· 2025-12-21 05:45
编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 具身智能模型是物理世界的基础模型,独立于、平行于语言模型、多模态模型等虚拟世界的模型。 这一判断背后,首先是对物理世界与虚拟世界本质差异的重新认识。 语言模型和多模态模型所面对的,是高度可复现、低随机性的符号世界;而机器人所处的物理世界,则充满连续性、随机性、不完全可观测性 以及大量与力、接触和时序强相关的过程。 沿用以语言和视觉为中心建立起来的建模范式,本身就存在结构性的错位。 也正因为如此,自变量机器人在实践中选择了一条更长期的路线:不把具身智能当作应用层问题,而是从模型架构、数据范式、推理方式乃至 硬件形态上,系统性地重做一套"物理世界的智能底座"。 为了完整体现王潜的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 过去一年,具身智能领域反复被问到一个问题:它到底只是多模态模型的一个应用,还是一种全新的基础模型? 对此, 自变量机器人创始人兼CEO王潜 表示: MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主 ...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
量子位· 2025-12-21 02:00
编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 涌现,AI沙场如今兵家争锋所期待出现的「境界」。 自从Scaling Law为模型带来惊人的能力增长后,几乎所有模型厂商都被卷入了一场无止境的FOMO,没人敢停下来。 我觉得大模型最有魅力的地方,在于它是非线性变化,代表着极大的不确定性,但一旦出现性能涌现就将远超想象。 在量子位MEET2026智能未来大会上,清华大学人工智能研究院常务副院长,欧洲科学院外籍院士 孙茂松 如此感慨。 只要算力还能堆、参数还能涨,就不能停止烧钱。 然而,在Scaling的边际成本越来越高的背景下, 万一最后发现这是条死胡同,投入全打水漂了怎么办? 孙茂松的建议是,可以「致广大」,但更要「尽精微」。 就企业界而言,少数实力极其雄厚的团队,可以尝试在「致广大」方向上继续跟随国际前沿;但绝大多数AI公司,都应该把主要精力放在「尽 精微」上。 为了完整呈现孙茂松的思考,在不改变原意的基础上,量子位对演讲内容进行了整理编辑,希望能提供新的视角与洞察。 MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众35 ...
刘煜辉:当AI Scaling撞上天花板,谁在真正兑现技术红利?
新浪财经· 2025-12-18 09:31
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 来源:刘煜辉的高维宏观 中国资本市场应当承担起为"东大治权时代"进行全球资产定价的新使命——这意味着我们要逐步淡出 对"西大"估值体系的被动映射,转而建立一套自己的独立资产定价体系。全球产业格局正在发生根本性 位移:过去由西大主导的技术叙事和金融定价,越来越难以反映我们在工业制造、系统集成上的压倒性 优势。 东大在落地能力和完整产业生态上的优势无以伦比。在AI领域,全球绝大多数端侧设备(手机、PC等 等)的硬件制造和供应链整合集中于中国;在新能源车领域,从电池材料、电芯到整车,中国已形成闭 环产能,占据全球60%以上份额; 在光伏、风电、特高压电网等绿色能源基础设施上,东大也输出全球;从新能源到废塑化学循环,都是 刨西大王朝能源基的祖坟,挑战传统石化能源路径。这就是东大的超级工业Power,它的"超级"在于不 依赖于资源的能源产能、电网等等。 这些凝聚着工匠精神和大国重器的产业,未来理应享有全球资产溢价。反观西大,其定位已经越来越接 近于一个纯粹的技术蓝图输出者。而支撑其AI叙事的Scaling Law("模型性能随算力、数据和参数规模 ...
AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪· 2025-12-17 11:43
这意味着,智能的提升并不是"想象空间"问题,而是绕不开能量、带宽、存储、制造和成本的物理限 制。 AGI 会不会到来? 这是AI 行业里反复被讨论、却一直始终缺乏清晰论证的问题。 最近,西雅图艾伦人工智能研究所(AI2)的研究员蒂姆·德特默斯(Tim Dettmers)在一篇文章,题目很 直接——《为什么 AGI 不会实现?》。 蒂姆·德特默斯 在这篇文章中,他提出了一个被长期忽视、却至关重要的前提: 计算并不是抽象概念,而是一件彻底受物理规律约束的事情。 德特默斯认为,当下市场对AGI 的判断普遍偏乐观,一个关键原因在于: 很多讨论只停留在模型、参数和算法层面,却忽视了支撑这些能力的物理基础正在逼近极限。 在文章中,德特默斯第一次从物理约束的角度,系统性地解释了为什么AGI 面临一系列难以回避的现 实。这些判断,也有助于我们更好地理解当前的AI行业。 他在文章中总结了几条关键判断: 1)Transformer 的成功并非偶然,而是在当前物理约束下接近最优的工程选择,继续通过架构改进获得 的边际收益正在快速下降。 2)当下大量所谓"创新",本质仍是既有框架上的渐进改进,很难带来结构性跃迁。 3)AI 过去的 ...