Workflow
量子位
icon
搜索文档
为什么Agent总是Demo猛如龙实战一条虫?
量子位· 2025-12-22 09:30
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 为什么Agent在演示时无所不能,到了实际场景却频频拉胯? 一篇长达51页的论文 研究了自ChatGPT以来的主要智能体, 给出参考框架:适应性是其中关键。 智能体定义上不是只会被动回答的AI,而是能自己规划、用工具(比如搜索引擎、代码编译器、数据库)、记东西,一步步完成复杂任务。 当遇到新任务、新环境时,不需要重造一个新的智能体,而是通过 "微调自己" 或 "优化工具",快速适配需求(比如从写普通代码适配到写垂 直行业代码)。 | 1 UUC 25 Stanford 3 Princeton 49 Harvard 5W UW 65 Caltech 7 UC Berkeley | | --- | | 8 UCSD 9 Georgia Tech 10N Northwestern 11 AM TAMU 12Unity | 这篇论文作者阵容豪华,来自UIUC、斯坦福、普林斯顿、哈佛、UC伯克利等12所高校的三十多位研究者联手,由UIUC的韩家炜教授团队领 衔,共同一作Pengcheng Jiang,Jiacheng Lin,Zhiyi Shi为UIUC博士生。 A ...
硅谷停电干崩谷歌Robotaxi,马斯克贴脸热嘲:特斯拉就没事
量子位· 2025-12-22 09:30
一凡 发自 凹非寺 量子位 | 公众号 QbitAI 一次大规模停电,暴露了全球无人车一哥的短板。 被曝估值冲上千亿美元没几天,Waymo就因为当地停电全面停摆了,挡在路中间,造成城市 拥堵,相关视频疯传。 马斯克第一时间"补刀",表示自家Robotaxi就没受到影响。看上去,特斯拉代表的L2渐进式 路线,似乎小胜了一局……反正马哥认为这就是彰显优越性的时刻。 在Robotaxi战场上,今年马斯克的一举一动,都把自动驾驶之争推向了新的高潮,大洋两岸 更多玩家开始入场,沿着「特斯拉路线」前进,与「Waymo路线」争夺自动驾驶圣杯。 所以问题是,停电是如何影响Waymo Robotaxi的? 当地停电,Waymo停工 Waymo停摆源自一场火灾,旧金山变电站失火,导致当地大规模停电,据说直接影响到13 万居民用电。 更要命的是,因为大范围停电,马路上的红绿灯都不亮了,引发Waymo无人车全面停摆。 真是屋漏偏逢连夜雨,本就混乱的交通,这下因为无人车挡在路上变得更堵了。Waymo只好 连夜找拖车运走了无人车,同时宣布在当地停运,目前还不清楚什么时候重新上线。 所以为啥停电会导致Waymo停运?首先是官方回应暴露的运 ...
全自研仿真GPU求解器x虚实对标物理测量工厂,打造具身合成数据SuperApp,加速具身仿真生态丨光轮智能@MEET2026
量子位· 2025-12-22 08:01
编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 从大模型智能的"语言世界"迈向具身智能的"物理世界",仿真正在成为连接落地的底层基础设施。 在本次量子位MEET2026智能未来大会上,光轮智能联合创始人兼总裁 杨海波 给出了他的观察: 具身智能的规模远大于文本与视觉模型,因为数据维度更真实、更复杂。 这也就意味着,具身智能时代的核心,不是算法本身,而是它所依赖的数据是否有效、可扩展——仿真是唯一能够解决数据问题的方案。 在仿真策略的路上,会遇到仿真不真实、Sim2Real不可靠等行业痛点, 光轮智能正在通过自研的一整套"测量、生成、求解"仿真基础设施来 解决这些问题 ,为具身智能提供数据、训练、评测的全流程解决方案。 △ 杨海波指出光轮智能深耕合成数据领域 另外杨海波还进一步指出, 仿真不是孤立的技术工具,需要以真实产业需求为锚点,通过应用场景构建生态。 其中, 具身仿真资产制作是生态的源头活水 ,依托自动化物理测量与生成技术,产出高物理真实的规范化数据资产,为具身训练提供核心燃 料; 大规模RL训练则通过并行的虚拟场景让智能体高效试错学习,将数据价值转化为具身实际技能 ,同时反向打磨仿真 ...
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
量子位· 2025-12-22 08:01
文章核心观点 - Gemini 3 Flash 模型在多项关键性能基准测试中超越了其旗舰版本 Gemini 3 Pro 及上一代产品,同时具备显著的成本和速度优势,这挑战了“模型越大越好”的传统观念,并揭示了谷歌在模型开发战略上的重大转变,即通过旗舰模型“蒸馏”出更高效、更强大的轻量版模型 [1][4][6][19] 模型性能表现 - **编程能力反超**:在衡量软件工程能力的权威测试 SWE-Bench Verified 中,Gemini 3 Flash 获得 **78.0%** 的分数,超越了 Gemini 3 Pro 的 **76.2%** 以及上一代 Gemini 2.5 Pro 的 **59.6%** [1][2][6] - **数学能力顶尖**:在 AIME 2025 数学基准测试中,结合代码执行能力的 Gemini 3 Flash 得分高达 **99.7%**,已无限逼近满分,不使用工具时也达到 **95.2%**,略高于 Pro 版的 **95.0%** [2][7] - **多模态与推理能力强劲**:在 Humanity‘s Last Exam 学术推理测试中,Flash 在不使用工具的情况下获得 **33.7%** 的分数,与 Pro 版的 **37.5%** 处于同一梯队;在 MMMU-Pro 多模态理解测试中,Flash 以 **81.2%** 的成绩与 Pro 版的 **81.0%** 基本持平 [2][7] - **全面领先上一代**:Gemini 3 Flash 在几乎所有基准测试中的表现都全面超越了上一代的 Gemini 2.5 Pro 和 2.5 Flash [2][6] 成本与速度优势 - **定价极具竞争力**:Gemini 3 Flash 的输入成本为 **0.50美元/百万Token**,输出成本为 **3.00美元/百万Token**,显著低于 Gemini 3 Pro 的 **4.00美元/百万输入** 和 **12.00美元/百万输出** [2][8][9] - **速度与效率提升**:Gemini 3 Flash 的推理速度是 Gemini 2.5 Pro 的 **3倍**,同时 Token 消耗量减少了 **30%** [9] - **性价比突出**:相较于性能提升,其价格虽略高于 Gemini 2.5 Flash,但仍被认为极具吸引力 [9] 战略定位与技术路径 - **Pro 模型的新角色**:谷歌团队明确表示,旗舰 Pro 模型的主要作用之一是作为“蒸馏”轻量版 Flash 模型的来源,旨在不计成本地探索智能上限,而 Flash 则负责继承能力并极致优化延迟、成本和吞吐量 [10][12][13] - **技术实现路径**:Flash 的性能超越并非简单蒸馏的结果,而是集成了大量最新的代理强化学习研究成果,证明了通过先进的后训练算法,小模型可以实现对更大参数模型的“降维打击” [20][21][22] - **Scaling Law 的演变**:团队认为单纯依靠预训练阶段堆砌参数的路径正在逼近极限,未来的扩展重点将从预训练算力堆叠转移到推理侧的计算扩展和后训练优化 [15][16][17] 行业影响与竞争格局 - **挑战传统观念**:Flash 的表现直接打破了“参数至上”和“旗舰版迷信”,证明了更便宜、更快的模型可以同时是更聪明的模型,引发了关于“帕累托前沿”反转的讨论 [4][19][23] - **横向对比保持竞争力**:在与主要竞品的对比中,Gemini 3 Flash 在多项测试中表现优异,例如在 SWE-Bench Verified 测试中得分 **78.0%**,高于 Claude Sonnet 的 **77.2%**,接近 GPT-5.2 Extra high 的 **80.0%** [8] - **未来演进方向**:行业认为后训练是目前最大的“未开垦绿地”,在代码、推理等封闭任务被“击穿”后,提升模型在开放式任务上的能力将成为关键 [17][18]
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」
量子位· 2025-12-22 04:41
TwiG团队 投稿 量子位 | 公众号 QbitAI 在文生图 (Text-to-Image) 和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。 但当你要求模型处理复杂的空间关系、多物体交互或精准的数量控制时,它们往往会"露怯":不是把猫画到了窗户外面,就是把三个苹果画 成了四个。 为了解决这个问题,学术界此前主要有两条路: 一条是 "谋定而后动" (Think-before-Generation) ,即在画第一笔之前,先写好详细的布局计划。但这就像让画家在动笔前必须把每一 笔都想得清清楚楚,一旦开画就无法更改,缺乏灵活性。 另一条是 "亡羊补牢" (Think-after-Generation) ,即先把图画完,再通过多轮对话来挑错、修改。这虽然有效,但往往意味着巨大的推 理开销和漫长的等待时间。 那么,有没有一种方法,能让模型像人类画家一样,在作画的过程中停下来看一眼,既能审视刚才画得对不对,又能为下一笔做好规划? 近日,来自香港中文大学、美团等机构的研究团队提出了一种全新的范式—— Thinking-while-Generating(TwiG)。这是首个在单 ...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
量子位· 2025-12-22 04:41
一水 发自 凹非寺 量子位 | 公众号 QbitAI MiniMax海螺视频团队不藏了! 首次开源 就揭晓了一个困扰行业已久的问题的答案—— 为什么往第一阶段的视觉分词器里砸再多算力,也无法提升第二阶段的生成效果? 翻译成大白话就是,虽然图像/视频生成模型的参数越做越大、算力越堆越猛,但用户实际体验下来总有一种微妙的感受——这些庞大的投入 与产出似乎不成正比,模型离完全真正可用总是差一段距离。 So why?问题,大概率就出在 视觉分词器(Tokenizer) 这个东西身上了。 当算力不再是答案时,真正需要被重新审视的,其实是生成模型的"起点"。 在当前主流的两阶段生成框架中 (分词器+生成模型) ,业界已经在视觉分词器的预训练上投入了大量算力与数据,但一个尴尬的事实是: 这些成本,几乎没有线性地转化为生成质量的提升 。 而MiniMax海螺视频团队,不止挑战了这一现实——用实验证明"Tokenizer的scaling能够提升模型性能"。 更关键的是,还带来了一款 开箱即用、专为"下一代生成模型"打造的可扩展视觉分词器预训练框架——Visual Tokenizer Pre-training (以下简称VTP) ...
量子位编辑作者招聘
量子位· 2025-12-22 04:41
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 参与核心采访,对话产业专家、技术大牛、撰写AI云落地案例。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作, ...
天下苦SaaS已久,企业级AI得靠「结果」说话
量子位· 2025-12-22 04:41
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 天下苦SaaS已久。 服务商为居高不下的推理成本头疼,客户诟病交付质量跟「抽卡」一样反复无常…… 进入AI时代,SaaS似乎不再是那颗令人趋之若鹜的明珠。 在此背景下,RaaS ( Result as a Service,按结果付费 ) 被普遍认为是最有潜力的出路。但受制于结果质量难衡 量、用户认知不成熟等阻力,鲜有企业愿意「吃螃蟹」。 如今,深耕企业级AI领域11年的 百融云创 ,选择全仓押注这条全新的AI商业化路径。 企业级AI可以不只是卖铲子 「垂直行业+AI」是一座取之不竭的金矿,相信已成为业内的普遍共识。 无论技术如何发展,企业亘古不变的诉求始终是——如何利用新技术为客户提供更好的服务? 但现实是,即便有DeepSeek这样的开源模型出现,真能部署私有模型的企业仍是少数。卡该买还得买,开源模型也不 是拿来就能用,依然得根据垂直场景做大量训练。 有需求,自然就有市场。 为弥合AI落地的这「最后一公里」,市面上涌现出一大批「共享单车」:出租模型训练所需的基础设施和工具包,按 Token计费。 然而,即便「铲子」的种类越来越多,企业客户似乎至今也没能 ...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
量子位· 2025-12-22 01:40
编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI "从算力集群、平台体系,到算电协同、国产化适配,再到产业级落地,AI基础设施正从'资源供给'走向'系统能力'。" 这是商汤大装置副总裁、CTO 宣善明 ,在量子位MEET2026智能未来大会上关于商汤在AI Infra领域的最新进展分享。 他强调,真正面向大模型时代的AI Infra,不能只解决"有没有算力",而要解决"算力如何高效、稳定、可规模化地支撑模型与产业"。 而这,正是商汤大装置过去几年持续演进的方向。 为了完整体现宣善明的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 核心观点梳理 以下为演讲全文。 目前商汤的战略是"1+X","1"即核心业务,包括大装置、大模型、AI应用三位一体;"X"即创新业务,包括智驾、医疗、零售等模块。 大装置方面,商汤始终坚持自身优势,打造最懂大模型的AI Infra,依托多年的核心技术积累,目前算力总规模达32000P。 商汤智算中心通过算电协同,削峰平谷,精准预测15分钟内算力对电力的消耗,已实现年化降低7%电费,实现年度碳减排超过3000吨, 综合算效提升15 ...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身
量子位· 2025-12-22 01:40
在AI席卷各行各业的今天,体育圈的"智能化"走到哪一步了? 现有的智能体育系统,大多还停留在"打分+可视化"的阶段。 屏幕上画出的骨骼线很酷,但对于运动员和教练来说,往往面临一个尴尬的灵魂拷问:"我知道我动作不对,分很低,但为什么不对?我该 怎么练才能提高?" 通用大模型 (如GPT-5) 虽然在自然语言交互上表现卓越,但在处理专业的体育生物力学分析时却面临严峻挑战 。 由于缺乏细粒度的视觉感知能力,它们往往无法捕捉动作的微小差异,导致严重的幻觉现象。其生成的建议多为缺乏针对性的通用模板,甚 至存在物理不可行性,难以指导实际训练。 SportsGPT团队 投稿 量子位 | 公众号 QbitAI 为解决这一问题, 由中国科学院大学、中国科学院自动化研究所、北京体育大学等机构联合提出了 SportsGPT 。 这是一个由大语言模型 (LLM) 驱动的可解释体育运动评估与训练指导框架。它不再只是冷冰冰地展示数据,而是实现了一个 从"动作评 估"到"专业诊断"再到"训练处方"的完整智能闭环 。 △ SportsGPT框架介绍 SportsGPT框架围绕动作评估 (Motion Assessment) 与训练指导 (T ...