大语言模型
搜索文档
谷歌Gemini 3来势汹汹,奥尔特曼拉响“红色警报”
财富FORTUNE· 2025-12-08 13:05
行业竞争态势 - 人工智能行业竞争加剧,谷歌发布最新模型Gemini 3后,OpenAI首席执行官宣布公司进入“红色警报”状态以应对竞争压力 [2] - 谷歌Gemini 3发布首日便大范围接入了其拥有数十亿用户的庞大生态系统,包括其称为有史以来最快的谷歌搜索部署 [2] - 谷歌在2022年底ChatGPT发布前被认为是全球AI研究领导者,做出了许多使现代生成式AI成为可能的突破,但ChatGPT的发布使行业重心转移,谷歌一度需要奋力追赶 [4] - 目前竞争形势再次逆转,在AI竞赛中需要保卫地盘的是OpenAI [5] 公司动态与战略 - OpenAI首席执行官在内部备忘录中表示,ChatGPT正处于一个关键时刻,公司将推迟其他计划(包括广告计划)以调集更多资源改进ChatGPT [2] - OpenAI首席执行官警告员工注意“暂时的经济逆风”,并预测谷歌的再度崛起将带来“艰难的氛围” [4] - OpenAI计划于下周发布一款新的推理模型,该模型在内部评估中优于谷歌的Gemini 3 [6] - OpenAI在持续消耗资金的同时,指望能够再筹集1000亿美元,并且需要继续增加订阅收入以满足投资者,其预测今年来自ChatGPT的收入将接近100亿美元 [5] - 尽管有数十名OpenAI顶级研究人员离开,加入了竞争对手公司,OpenAI仍必须继续改进ChatGPT [5] 产品表现与市场数据 - 谷歌Gemini在10月份月活跃用户增长至6.5亿 [4] - OpenAI报告ChatGPT有8亿周活跃用户,对许多用户来说,ChatGPT就是AI的代名词 [5] - 谷歌最新模型Gemini 3在多模态推理、数学和代码方面有强劲的基准测试结果 [4] - 谷歌首个Gemini模型在2023年12月推出后,因其输出内容的问题以及不准确的图像和文本而面临强烈反弹,其搜索AI概览功能也曾提供错误信息 [4] 历史背景与行业基础 - 谷歌研究人员在里程碑论文《注意力就是全部》中发明了Transformer架构,该架构是每一个现代大语言模型的基础 [4] - 谷歌在2019年推出了BERT模型,该模型在数年内都是最先进的语言模型 [4] - 谷歌于2014年1月以大约5亿美元收购了AI研究实验室DeepMind,该实验室在ChatGPT出现前已因多项突破(如AlphaGo、AlphaFold)登上全球新闻头条 [5] - 谷歌首席执行官承认,OpenAI在发布聊天机器人方面抢在了谷歌前面,当时谷歌的产品尚未达到可发布且能被接受的水平 [3]
IBM CEO警告:超大规模云厂商的数据中心投资难以盈利
财富FORTUNE· 2025-12-08 13:05
IBM首席执行官对科技巨头AI基础设施投资的质疑 - 核心观点:IBM首席执行官阿文德·克里希纳认为,谷歌、亚马逊等科技巨头在AI数据中心上的数百亿美元巨额投资“绝无可能”获得合理回报 [2] - 质疑巨额资本支出难以覆盖:仅建设一座1吉瓦的数据中心就需要投资约800亿美元,若企业承诺建设20到30吉瓦,资本支出将高达1.5万亿美元,几乎相当于特斯拉当前市值 [2] - 质疑整体投资回报模型:若所有超大规模云厂商合计扩建至约100吉瓦容量,需要约8万亿美元投资,仅支付利息就需要约8000亿美元利润支撑,所需利润规模惊人 [2][3] - 指出技术迭代导致资产快速过时:数据中心所依赖的芯片会很快过时,必须在五年内充分利用所有设备,之后整套设备需淘汰并重新采购 [4] 对通用人工智能(AGI)发展前景的看法 - 认为以现有技术实现通用人工智能的概率极低:尽管大语言模型性能持续提升,但实现AGI的概率“最多只有1%”,所需技术远超当前大语言模型路线的技术要求 [5] - 肯定AI技术的企业价值:承认该技术对企业具有重要价值,认为它将释放数万亿美元的生产力潜能 [5] - 指出投资热潮的部分动机:科技巨头竞相成为首个实现通用人工智能的企业 [4] 行业投资现状与趋势 - 全球数据中心当前电力需求与AI占比:高盛估算,全球数据中心市场当前总耗电量约为55吉瓦,其中仅约14%与AI相关 [2] - 预计未来电力需求将大幅增长:高盛预计,随着AI需求增长,数据中心市场的电力需求到2027年可能升至84吉瓦 [2] - 各云厂商仍在加速投资:预计今年相关投入将达到约3800亿美元 [5] - 具体公司资本支出上调:谷歌母公司Alphabet将2025年资本支出预期从850亿美元上调至910亿至930亿美元;亚马逊在第三季度将资本支出预期从1180亿美元上调至1250亿美元 [5]
复旦大学邓建国:未来是人机共生的世界,大学的使命是让人成为更好的人
新浪财经· 2025-12-08 12:31
AI发展趋势与核心驱动力 - 人工智能的发展根基在于芯片、数据、算法三大核心元素 [3][7] - 在摩尔定律驱动下,借助移动传感器产生的海量数据与强大芯片的分析能力,共同催生了当前的大语言模型 [3][7] AI技术的当前局限与演进方向 - 大语言模型存在缺乏物理身体的“核心短板”,导致其无法提供人类沟通所需的性别、年龄、地域等基础变量,难以建立稳定的信任关系 [3][7] - 为弥补此短板,虚拟数字人、实体机器人相继出现,这一变革对人类沟通模式产生了深远挑战 [3][7] - 即便AI具备身体形态,人类仍渴望线下真实的互动与联结,单纯的人工语音或线上交互难以满足深层需求 [3][7] 人类在AI时代的核心竞争力 - AI或许能替代制作类知识与部分思考类知识,但人类基于碳基生命的共情能力、聚生能力是不可替代的核心竞争力 [4][8] - 人类学习与沟通的本质是多元、多信道、社会性的聚生过程 [3][7] 高等教育在AI时代的使命与转型 - 未来人机共生是必然趋势,大学的使命是让人成为更好的人 [4][8] - 大学应跳出传统显性知识传授的框架,重点培育元知识、默会知识与实践型知识 [3][7] - 大学需强化人类独特的共情与聚生能力,以应对沟通形态变革带来的挑战 [3][7] - 面对AI带来的沟通变革与知识迭代,大学需坚守其社会性与实践性特质,通过培育核心知识与独特能力,帮助人类在人机竞争与协作中保持核心价值 [4][8] AI带来的社会角色转变 - AI的发展将人类从重复性工作中解脱,使其能专注于更具创造性、情感性的价值创造 [4][8] - 浪漫主义运动的兴起源于科学革命解放了人类的繁重劳动,AI的发展将带来类似的解放效应 [4][8]
DeepSeek双模型发布:一位是“话少助手” 一位是“偏科天才”
科技日报· 2025-12-08 10:03
公司产品发布与技术突破 - 公司于12月1日同时发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型 [1] - 在公开推理测试中,V3.2水平达到了OpenAI今年8月推出的GPT-5水平,略低于谷歌的Gemini3 Pro [1] - DeepSeek-V3.2定位为高性价比的日常助手,具备更强的推理能力和智能体能力,旨在成为“数字劳动力”以完成自动生成报表、编写代码等复杂工作 [2] - DeepSeek-V3.2-Speciale专攻高难度数学问题求解、学术研究逻辑验证和编程竞赛解题,旨在将开源模型推理能力推向极致 [2] - 新模型实现了两项质的突破:引用领域专用架构和思考型工具调用技术 [2] - 领域专用架构技术可让模型在完成任务时仅检索最关键信息,从而大幅提升效率、降低消耗 [2] - 思考型工具调用技术使模型在得到指令后,能先思考再调用工具执行,然后根据结果继续思考、再次调用,实现多轮交替的复杂问题解决,并保留记录供后续推理使用 [2] - 这是公司首次将思考融入工具使用,改变了以往模型依赖人“喂”数据的发展范式,实现AI的自我训练和进化 [2] - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2,但Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [4] 行业竞争格局与影响 - 过去一年,以Google、OpenAI等为代表的闭源社区在复杂任务中表现优越,而开源社区受制于架构、资源分配及智能体能力等关键缺陷,与闭源社区性能差距进一步扩大 [3] - 公司发布新模型的根本动力是缩小开源模型与闭源模型间的差距 [4] - 新模型证明了闭源大模型的巅峰并非不可逾越,为我国乃至全球开源大模型的发展注入强心剂 [4] - 公司从今年初发布R1大模型以来,发展主线始终聚焦实用性和泛化能力,让“赶超闭源”从美好愿景变为闭源厂商的现实压力 [4] - 公司为全球开发者提供了一个强大、可控且经济的模型底座,助力大语言模型融入千行百业、形成商业闭环 [4] - 新模型为大语言模型带来了新的治理难题,需警惕工具调用风险,以及学术造假、自动化生成代码漏洞、产业不公平竞争等挑战 [4]
模型可以“卷”、算力必须“烧”!瑞银:AI巨头密集推新模型,算力投入将继续加码
智通财经网· 2025-12-08 09:54
行业竞争格局 - 近期AI大语言模型领域迎来密集发布潮,谷歌、Anthropic、DeepSeek等企业相继推出新一代模型,推动智能前沿持续突破,行业竞争日益激烈 [1] - 谷歌于11月18日推出Gemini 3 Pro多模态模型,在Hugging Face排行榜中斩获综合性能、文生图及视觉任务三项第一,网页开发任务排名第二 [1] - Anthropic于11月24日发布Claude Opus 4.5模型,其网页开发任务排名位居榜首,同时在模型安全性和防滥用方面实现显著提升 [1] - DeepSeek于12月1日推出开源模型DeepSeek V3.2,其高算力版本“Speciale”性能与Gemini 3 Pro相当,在保持接近闭源前沿模型性能的同时显著降低了推理成本 [1] - 行业竞争加剧对OpenAI等公司构成压力,推动AI行业向多模型、多供应商的格局演进,这一趋势预计将至少持续至2026年 [3] 模型性能突破 - 新一代模型在核心性能指标上展现出突破性进展,ARC-AGI-2基准测试显示,Gemini 3 Deep Think和Claude Opus 4.5的多步推理任务得分分别达到45%和38%,远超此前多数前沿模型10%-20%的水平,接近人类平均60%的表现 [2] - 模型性能的“规模定律”依然有效,算力投入的增加持续带来模型能力的非线性提升 [1][2] - DeepSeek V3.2通过强化学习算法创新和稀疏注意力架构实现了性能与成本效益的平衡 [1] 算力与芯片竞争 - 算力投入是决定AI竞争格局的关键因素 [1] - 芯片领域存在GPU与AI专用ASIC芯片的技术路线竞争,ASIC芯片在特定AI任务上效率更高,但GPU凭借灵活架构和广泛的软件生态支持,目前仍占据数据中心芯片市场90%的份额 [2] - 谷歌披露Gemini 3 Pro完全基于自研TPU芯片训练,随着OpenAI与博通、Anthropic与谷歌等合作的推进,ASIC芯片关注度持续提升,预计未来两类芯片将并行发展 [2] - 英伟达最新财报显示,其下一代GPU产品已获得5000亿美元的营收可见性,彰显算力需求的强劲增长态势 [2] - 随着英伟达Blackwell和Rubin等新一代芯片的推出,算力扩张的竞赛将持续,这也支持了瑞银近期对AI资本支出预测的上调 [3]
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
机器之心· 2025-12-07 04:33
强化学习在大语言模型中的新公式化方法与稳定训练实践 - 阿里千问团队提出了一种针对大语言模型(LLM)的全新强化学习(RL)公式化方法,核心洞察是:为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token级目标作为其一阶近似 [2] - 该方法从原理上解释了多种RL稳定训练技巧的有效性,包括重要性采样权重、剪切(Clipping)机制以及针对混合专家(MoE)模型的路由重放(Routing Replay)方法 [2] - 团队使用一个30B参数的MoE模型进行大量实验,总计耗费数十万GPU小时以验证理论并探索稳定训练实践 [4] 研究背景与核心问题 - 强化学习已成为提升大语言模型复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展RL至关重要 [2] - 主流RL算法普遍存在“奖励在序列级、优化在token级”的不匹配问题,引发了对其理论健全性与训练稳定性的担忧 [2] - 在MoE模型的RL训练中,动态专家路由机制可能破坏token级重要性采样比的有效性,带来了新的挑战 [2] 核心理论框架 - 团队专注于序列级优化,即对整个模型生成的响应赋予一个标量奖励,而不采用基于价值函数的方法,因为构建通用、可扩展且可靠的价值模型极为困难 [6][7] - 直接优化期望序列级奖励非常困难,主要挑战在于训练与推理之间的数值差异,以及用于采样响应的rollout策略与需要优化的目标策略之间的偏差 [8][9] - 团队从序列级奖励期望出发,通过重要性采样进行等价变换,并引入一个替代的token级优化目标,其梯度形式即为带token级重要性采样权重的基本策略梯度算法(REINFORCE) [11][12] - 该token级目标被视为序列级目标的一阶近似,其成立的关键条件是目标策略与rollout策略必须足够接近 [13] 针对MoE模型的挑战与解决方案 - 对于MoE模型,专家路由与训练-推理差异、策略陈旧的紧密耦合,更容易导致基于一阶近似的token级替代优化目标失效 [15][16] - 团队提出Routing Replay方法以稳定MoE模型的RL训练,核心思想是在策略优化过程中固定路由到的专家,使其在优化行为上更接近稠密模型 [17] - Routing Replay有两种具体实现方式:Vanilla Routing Replay(R2)旨在减轻专家路由对策略陈旧的影响;Rollout Routing Replay(R3)旨在减轻专家路由对训练-推理差异的影响 [18][19] 实验结果与主要结论 - 团队在数学推理任务上进行了实验,构建了包含4096道题目的RL训练提示集,并在HMMT25、AIME25和AIME24基准上评测 [21] - 在on-policy训练中,带重要性采样校正的基本策略梯度算法(MiniRL)取得了最佳性能和最高训练稳定性 [10][22] - 在on-policy训练中,引入长度归一化会导致性能下降,因为其破坏了对真实序列级奖励的一阶近似;移除重要性采样校正则会导致训练迅速崩溃 [22] - 在引入off-policy更新以加速收敛时,必须同时使用Routing Replay与Clipping才能实现稳定训练,缺失任一项都会导致训练提前崩溃和峰值性能下降 [10][23] - 不同冷启动初始化方式的模型最终性能趋于一致,表明研究重点应更多放在RL方法本身,而非冷启动细节 [10][27] - 无论是on-policy还是off-policy,只要训练过程稳定,其峰值性能都高度一致,说明稳定的训练过程在成功扩展RL中起决定性作用 [27]
OpenAI会是第一个倒闭的AI独角兽吗?
新浪财经· 2025-12-07 03:39
核心观点 - 当前AI大模型竞争的本质已从单纯的技术参数比拼,演变为围绕“生态整合力”的深度博弈,谷歌凭借其庞大且闭环的数字生态构建了难以复制的竞争壁垒 [11][26] - OpenAI在面临谷歌Gemini 3的激烈竞争后,用户流量显著下滑,公司内部拉响“红色预警”,暂停多项非核心业务,将全部资源重新聚焦于核心产品ChatGPT的性能提升 [6][21] - 未来竞争的胜负关键,在于AI能否无缝融入用户的日常生活场景,成为“基础设施式”的存在,而不仅仅是功能强大的独立工具 [14][29] 竞争态势与市场反应 - Gemini 3上线十五天后,ChatGPT的日均访问量出现约6%的断崖式下滑,从2.03亿骤降至1.91亿,相当于损失了约1200万日均访问量 [5][20] - 在Gemini 3推出两天后,OpenAI在硅谷投资人活动中被选为“第二大可能倒闭的AI独角兽”,反映出投资界对其竞争地位的担忧 [2][17] - 用户反馈显示,Gemini在中文语境理解、多模态生成(如图像处理)、以及“氛围编程”等具体场景中体验更流畅、更“顺手”,而ChatGPT有时显得“翻译腔”重或响应过于谨慎 [9][10][24][25] OpenAI的战略调整与应对 - OpenAI CEO Sam Altman在Gemini 3发布后接连发布内部信,先是承认公司在预训练方面落后于谷歌,随后在12月1日发布措辞严厉的全员信,宣布进入“红色预警”状态 [2][3][6][17][18][21] - 公司已暂停或推迟多项非核心业务探索,包括早期广告商业化、AI智能体项目以及个性化晨间简报产品“Pulse”,以将所有注意力调回ChatGPT的核心体验优化 [6][7][21][22] - 为发起反击,OpenAI正试图通过一款内部评估表现优异、代号为“Garlic”的新型大语言模型来追赶,该模型整合了此前为修复预训练bug而开发的“Shallotpeat”模型的错误修复方案,并可能预示着GPT-5.2或GPT-5.5将在明年初发布 [3][5][18][20] 技术层面的竞争焦点 - 预训练是开发大语言模型的基础阶段,谷歌在该领域的成功让AI研究人员感到惊讶,而OpenAI在预训练中遇到挑战,其调整方法在模型规模变大时失效,这成为其需要解决以追赶谷歌的关键问题 [4][19] - OpenAI此前因预训练挑战,曾将更多注意力转向“推理”模型,但如今必须回头解决预训练瓶颈 [4][19] - 根据内部评估,OpenAI的新模型“Garlic”在涉及编程和推理的任务上,相比Gemini 3和Anthropic的Opus 4.5具有优势 [3][18] 生态优势的具体体现 - 谷歌的生态优势根植于其数十年来积累的YouTube、Google Search、Gmail、Workspace、Android、Google Photos、Maps等产品构成的闭环体验,为Gemini提供了丰富、真实、具上下文关联的训练与交互素材 [11][26] - 这种生态整合让AI能“无感融入”用户数字生活的各个环节,例如在YouTube看教程时直接调取视频内容回答、在搜索结果页一键获得AI摘要、在Gmail中让AI起草回信,形成了极高的使用便利性和粘性 [10][11][25][26] - 相比之下,OpenAI的产品形态长期依赖独立入口或第三方集成,用户需要主动“召唤”AI,导致“功能强大但使用割裂”的体验,尤其在中文市场因缺乏深度本地化训练而处于劣势 [12][27] 未来竞争格局展望 - OpenAI并非没有生态路径,其与微软的深度绑定(Copilot集成Windows、Office、Azure)构成了偏重生产力与企业端的生态,但在普通消费者的日常数字生活渗透上不及谷歌全面 [13][28] - 用户的时间和注意力有限,使用成本(如需要单独打开网页、反复输入上下文)更高的工具,即使能力相当也可能被边缘化,流量下滑背后更值得警惕的是用户心智份额的转移 [13][28] - ChatGPT更可能的走向是从“唯一首选”转变为“特定场景优选”,在编程、英文写作、企业自动化等领域保持优势,而在日常多模态交互与中文用户体验上,可能逐渐让位于生态更完整的对手 [14][29] - 竞争的最终方向在于能否把AI“藏进生活褶皱里”,未来的赢家属于能实现深度生活化场景整合的公司 [14][29]
两个LLM互相对线,推理能力起飞:康奈尔团队发布大模型版类GAN训练法
机器之心· 2025-12-07 02:52
研究背景与核心观点 - 当前大型语言模型在数学推理等任务上仍高度依赖外部监督数据,如人工标注[2] - 研究提出一种类似生成对抗网络的训练范式,通过两个模型(Proposer和Solver)的对抗与共同进化,旨在解决单一模型难以胜任的任务[2] - 该框架名为PasoDoble,由康奈尔大学团队提出,其核心特点是在整个训练过程中完全不依赖任何监督信号[3] 方法论与框架设计 - PasoDoble框架包含四个核心组件:问题生成模型、问题求解模型、知识库以及用于离线训练的题目缓冲区[9] - 训练过程分为在线与离线两种范式,在线训练中两个模型同步更新,离线训练中则交替冻结进行更新[9][10] - 问题生成模型的奖励机制由难度奖励和多样性奖励构成,旨在鼓励其生成既困难又新颖的问题[13][21] - 难度奖励与求解模型的通过率成反比,即使问题非常简单也能获得基础奖励,以确保问题生成的持续性[15][16] - 多样性奖励通过计算与历史问题的Jaccard相似度来鼓励生成独特问题,避免模式退化[17][20] - 问题求解模型的奖励设计相对简单,仅依赖于其答案与问题生成模型提供的标准答案是否一致的正确性奖励[22][23] 实验结果与性能提升 - 在Qwen3-1.7B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从2.22%提升至7.22%,在AIME 2025从1.67%提升至7.22%[6] - 在Qwen3-4B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从6.11%提升至18.89%,在AIME 2025从2.78%提升至18.89%[6] - 在完全无监督条件下,PasoDoble使Qwen3-1.7B-Base在数学任务上的平均性能提升约13个百分点,使Qwen3-4B-Base提升约16个百分点[7] - 在MATH-500基准上,使用Qwen3-1.7B的求解模型准确率从45%提升至67%,并在第20步训练后即超过基线模型[11] - 性能提升具有规模效应,在Qwen2.5-1.5B/3B和Qwen3-1.7B/4B等更大规模模型上提升更为显著[28] - 消融实验表明,使用完全随机奖励进行训练会使求解模型在所有数学基准上的平均准确率几乎降至零,证明了从问题生成模型答案中学习的重要性[36][37] 模型行为分析 - 对问题生成模型的分析显示,即使提示问题前缀重叠达到80%,其生成问题与提示的精确匹配率也仅为12%(使用知识库)和31%(不使用知识库),表明绝大多数生成的问题源于推理而非对训练数据的简单记忆[38][39] 研究意义与未来方向 - 该研究为大语言模型提供了一种通过对抗式训练提升数学推理能力的新路径,并在多个竞赛级数学基准上取得了可量化的显著提升[41] - 该方法通过利用预训练知识库,在模型的预训练阶段与后训练阶段之间建立了有效连接[41] - 当前框架在如GPQA等特定领域外任务中尚未表现出性能提升,未来研究将探索将该框架拓展至代码生成、事实问答等其他领域[41] - 研究指出,探索更广泛的多模型训练范式,包括协作式、竞争式以及角色专门化等设置,对于解决更复杂的任务至关重要[41]
以理想汽车为例,探寻自动驾驶的「大脑」进化史 - VLA 架构解析
自动驾驶之心· 2025-12-07 02:05
自动驾驶技术范式演进 - 行业技术范式快速迭代,从前年的BEV(鸟瞰图视角)到去年的“端到端”(End-to-End),再到2025年的技术焦点VLA(视觉-语言-行动)模型 [1][6] - 传统的端到端(VA)模型存在“黑箱”问题,系统能做出正确操作但缺乏可解释性,引发了信任危机 [1] - 视觉语言模型(VLM)能理解和解释场景,但存在“行动鸿沟”,其输出停留在语言层面,无法直接控制车辆 [3] - VLA模型是一场彻底的范式革命,旨在融合计算机视觉、自然语言处理和强化学习,打造一个既能感知、理解又能执行动作的“可解释的大脑” [6][45] “真”端到端架构辨析 - 一个“真”的端到端驾驶系统必须是一个统一的、完整的神经网络,接收原始传感器输入并直接输出可执行的控制信号,且具备“全程可求导”特性 [8][9] - VLM的引入从架构上“打断”了端到端的闭环,因为其输出是文本而非可执行的轨迹,导致学习信号无法从车辆动作反向传播到VLM,无法受益于自动化的数据闭环驱动 [11][12][13][15][16] - 行业早期的“快慢双核”系统(如理想汽车IM智驾系统)是“半”端到端的过渡形态,它将VLM(慢系统)与传统的VA模型(快系统)拼凑,存在异步冲突、架构臃肿和信息损失、优化困难等致命缺陷 [17][18][20][21][22][26] - VLA是“真”端到端,它回归了从传感输入到轨迹输出的统一神经网络形式,实现了“全程可求导”,驾驶错误信号可以无阻碍地反向传播至整个模型,从而支持高效的数据驱动迭代 [23][25][27] VLA解决的核心痛点 - VLA旨在解决“快慢双核”架构暴露的四大核心痛点:长尾场景挑战、语义鸿沟、空间精度不高、时序建模瓶颈 [31] - 自动驾驶的最大挑战是高度语义化、非标准化的“长尾场景”,如复杂的龙门架、可变车道、临时指示等,传统VA模型无法处理 [32][33][34][35][37] - VLM虽然能理解长尾场景,但其输出的文本与车辆控制器所需的精确数值向量之间存在“语义鸿沟”,导致“行动鸿沟” [36][38][39] - 强行让VLM输出轨迹会导致空间精度不高,其基于语言生成的轨迹点易产生偏差,无法满足高精度控制要求 [40] - VLM在处理时序任务时采用叠加多帧图像的方法,会受到Token长度限制(如8K上下文窗口仅能处理约16帧,约2秒历史)和巨大计算开销的制约,无法进行长时程规划 [41][42][43][44] VLA的通用技术栈 - VLA模型通常由三个核心技术组件构成:视觉编码器(V)、语言编码器(L)和动作解码器(A) [46] - 视觉编码器是VLA的“眼睛”,负责将原始图像转换为LLM能理解的视觉令牌,主流方案包括CLIP/SigLIP和DINOv2 [48] - CLIP/SigLIP提供强大的视觉-文本对齐能力,擅长识别和描述图像内容(“是什么”) [49][51][52] - DINOv2通过自监督学习提供强大的空间理解和高级视觉语义能力(“在哪里/怎么样”) [52] - 顶尖方案(如OpenVLA)采用SigLIP + DINOv2双编码器并联,融合两者特征后通过MLP投影器对齐到LLM的令牌嵌入空间,提供全面的视觉信息 [53][55][56] - 理想汽车MindVLA采用了另一条技术路线,其V模块基于3D高斯建模进行自监督3D编码器预训练,旨在生成高保真的3D场景表示 [57][59][60] - 语言编码器是VLA的“大脑”和决策中枢,负责融合视觉与文本令牌并进行跨模态推理 [62] - 主流选择包括LLaMA家族(如LLaMA-2、Vicuna)和Qwen系列(如Qwen-2.5) [63][64][66][70] - 其工作流程是接收来自V模块的视觉令牌和用户文本指令,通过自注意力计算进行高级推理(如场景分析、动作推理),最终输出高度浓缩的“动作令牌”或“规划令牌”作为意图指令 [67][69][71][72] - 部署优化策略包括LoRA(低秩适应)轻量化微调和MoE(混合专家)架构,理想汽车MindVLA则自研了名为MindGPT的LLM,专为3D驾驶场景和车端实时推理设计 [73][74][75][79] - 动作解码器是VLA的“手脚”,负责将“大脑”输出的意图令牌解码为真实、物理、可执行的控制信号 [76][77][80] - 基于扩散的Transformer是目前最受青睐的“黄金标准”方案,因其擅长建模复杂多模态动作分布,能生成细粒度、平滑、“拟人化”的轨迹 [81][82] - 其他主流方案包括自回归Transformer头、MLP预测器头和嵌入式MPC/规划头 [86] - Diffusion模型通过“迭代去噪”工作,为满足实时性要求,MindVLA等架构采用了ODE采样器等技术将去噪步骤压缩到2到3步内完成 [82] VLA的四个进化阶段 - VLA架构的演进经历了四个清晰的阶段,语言在系统中的角色从被动“解释器”逐步演变为主动“决策核心” [84][85] - 阶段一:语言模型作为“解释器”(Pre-VLA),如DriveGPT-4,其核心目标是增强系统可解释性,输出场景描述或高阶操纵标签,但存在“语义鸿沟”,对实际驾驶帮助有限 [88][89][90] - 阶段二:模块化VLA模型,语言演变为模块化架构中主动的规划组件,如OpenDriveVLA、DriveMoE、RAG-Driver,通过生成可解释的中间表示来指导动作执行,但存在多阶段处理带来的延迟和级联错误风险 [91][92][93][94][97] - 阶段三:统一的端到端VLA模型,在一个单一、可微分的网络中无缝整合感知、语言理解和动作生成,代表作包括EMMA、LMDrive、CarLLaVA和SimLingo,它们通过“行动构想”等技术在语言理解和轨迹输出间建立紧密耦合,反应灵敏但长时程规划和细粒度决策解释能力仍存局限 [95][96][98][99][100][101] - 阶段四:推理增强的VLA模型,这是最新前沿阶段,将VLM/LLM提升为系统的“决策核心”,赋予其“思考”能力,代表作如ORION、Impromptu VLA和AutoVLA,它们将“思维链”与“行动”进行端到端对齐,在输出动作前先进行解释、预测和长时程推理,预示了“可对话的自动驾驶汽车”的未来,但也带来了实时性、记忆索引和安全验证等新挑战 [102][103][104][106]
中国第一,阿里146篇论文入选AI顶会NeurIPS 2025
财经网· 2025-12-05 09:02
公司学术成就与行业地位 - 公司在NeurIPS 2025会议上共有146篇论文入选,是论文收录数量最多的中国公司 [1] - 在本次会议全球顶尖科技公司和机构共2万多篇投稿中,仅有约25%的论文被接收,公司论文收录数量位列全球科技公司前四,仅次于谷歌、微软和Meta [1] - 公司的千问团队在门控注意力机制上的研究成果被评为会议最佳论文,是唯一获奖的中国公司 [1] 全栈AI创新成果覆盖领域 - 公司入选的146篇论文全面覆盖了模型训练框架、数据集和模型基础研究和模型推理优化等领域 [1] - 在模型基础研究方面,千问团队的最佳论文首次清晰揭秘了门控注意力的作用原理,并展示了最佳使用方案,为突破大模型训练瓶颈提供了新理论基础 [2] - 在训练框架层,公司提出了全新的Data-Juicer 2.0数据处理系统,内置100多种数据处理算子,覆盖文本、图像、视频和音频等多种模态,已应用于阿里云人工智能平台PAI [2] - 在推理效率方面,公司与浙江大学合作的论文提出通过动态调节大模型思维速度来优化推理,实验在GSM8K等评测集上取得平均1.3%的准确率提升,同时减少8.6%的Token使用 [3] 开源生态与市场认可 - 目前公司千问已开源300多款模型,涵盖全模态、全尺寸,全球下载量突破7亿次,衍生模型超过18万个,位居全球第一 [3] - 在Gartner发布的GenAI云基础设施、工程、模型及AI知识管理应用四大维度的新兴市场象限报告中,公司均位于新兴领导者象限,是入选全部四项新兴领导者象限的唯一亚太厂商 [3]