机器之心
搜索文档
这下Altman急了,OpenAI紧急启动「红色警报」
机器之心· 2025-12-02 09:18
公司战略调整 - OpenAI宣布进入红色警报状态,调集更多资源改进核心产品ChatGPT [1] - 公司资源调度向核心战线倾斜,非关键项目如广告业务暂时让位 [5] - 为改进ChatGPT的紧急升级将推迟其他产品开发进度,包括自动化购物和健康任务的AI智能体以及个性化报告功能Pulse [6] 竞争格局与市场压力 - 谷歌Gemini月活跃用户从7月的4.5亿激增至10月的6.5亿,增长迅猛 [9] - 谷歌在AI模式搜索和图像生成模型上激进布局,对OpenAI构成切实威胁 [9] - 开发者对谷歌和Anthropic新模型给予强烈好评,加剧行业竞争紧迫感 [10] 财务状况与增长挑战 - 公司首席财务官暗示ChatGPT增长速度出现放缓迹象 [8] - 公司正处于寻求约1000亿美元新融资的关键节点,以支撑其惊人的现金消耗 [8] - 公司预测ChatGPT今年通过订阅产生约100亿美元收入,并在2027年达到350亿美元 [8] 产品与技术反击 - 公司计划发布新款推理模型,内部评估其性能已领先于谷歌Gemini 3 [12] - 新模型将强化ChatGPT的思考模式和深度研究功能,通过消耗更多算力提供更精准答案 [12] - 针对每周8亿活跃用户,ChatGPT将推出高度自定义互动方式,致力于成为真正的私人助理 [13] - 产品优化重点包括减少AI过度拒绝回答良性问题,并提升在公开排名中的表现 [13] - 多模态能力将重点优化图像生成功能,以对标谷歌竞品 [13] 市场地位与行业影响 - ChatGPT目前处理了全球70%的AI助手活动和10%的搜索活动 [15] - 谷歌CEO曾在2022年底因ChatGPT全球爆红而在公司内部发布红色警报,如今攻守之势异也 [4]
迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合的巨大待探索空间
机器之心· 2025-12-02 09:18
文章核心观点 - 多模态检索增强生成(MM-RAG)是新兴技术领域,旨在将大模型的应用从文本扩展到图像、音频、视频、代码、表格、知识图谱、3D对象等多种模态的组合 [2] - 目前MM-RAG的研究和应用尚处于初级阶段,现有工作主要集中于文本和图像组合,其他模态组合存在大量研究空白 [2] - 由多所高校和研究机构联合发布的综述论文首次全面覆盖了几乎所有可能的输入-输出模态组合,为领域提供了系统性的分类框架和技术参考 [4][5] MM-RAG技术现状与潜力 - 论文揭示了MM-RAG领域庞大的潜在输入-输出模态组合空间,在54种潜在组合中仅有18种存在已有研究,研究覆盖率约为33% [5] - 许多极具应用价值的组合(如“文本+视频作为输入,生成视频作为输出”)仍属待开拓的蓝海领域 [5] - 作者构建了基于输入-输出模态组合的全新MM-RAG分类法,系统性组织了现有研究并展示了不同系统的核心技术组件 [6][7] MM-RAG系统工作流程 - MM-RAG系统工作流程可划分为四个关键阶段:预检索(数据组织和查询准备)、检索(从多模态知识库中查找信息)、增强(将多模态信息融入大模型)、生成(生成高质量多模态输出) [8][9][11][12][13][14] - 论文详细总结了每个阶段的常用方法,并讨论了针对不同模态的优化策略 [15] 技术指南与应用前景 - 该综述提供了构建MM-RAG系统的一站式指南,涵盖工作流、组件、训练、评估等核心技术 [17] - 指南内容包括训练策略(最大化检索和生成能力)、评估方法(指标和Benchmark)以及潜在应用与未来研究方向 [18] - 论文作者提供了持续更新的资源库,方便研究者追踪最新技术进展 [17]
AAAI 2026 Oral:明略科技开创稀疏数据「信息瓶颈动态压缩」,精度+速度双SOTA
机器之心· 2025-12-02 06:47
文章核心观点 - 当前AI模型在机器人和具身智能领域面临计算和延迟过高的挑战,尤其是在处理稀疏数据时存在“双重冗余”问题[1][3] - 由东南大学、中南大学、明略科技联合提出的CompTrack框架创新性地解决了空间冗余和信息冗余问题,实现了更少算力、更高精度的效果[2][13] - CompTrack通过信息熵过滤空间冗余和信息瓶颈动态压缩信息冗余,在3D点云跟踪任务中达到80 FPS实时性能,计算量仅为0.94G FLOPs[8][10][15] - 该技术为高效AI提供了通用信息压缩范式,预示着从蛮力计算向信息效率的范式转变,适用于机器人传感器融合、多模态处理等多个领域[14] 技术挑战分析 - 当前AI模型普遍面临“双重冗余”挑战:空间冗余指海量无关背景点和空白区域浪费算力并污染特征[5] - 信息冗余指即便在前景目标上也存在大量重复和低价值信息,如车辆引擎盖上的100个点和500个点提供的有效几何信息几乎等价[5] - 现有方法大多只处理空间冗余问题,对前景信息冗余问题束手无策[7] CompTrack技术框架 - 空间前景预测器基于信息熵理论,通过高斯热图监督学习精准筛除信息含量低的背景噪声[8] - 信息瓶颈引导的动态令牌压缩模块基于信息瓶颈原理,只保留对最终预测有价值的信息[10] - 该模块利用在线奇异值分解实时分析输入数据的“内在秩”,实现数据依赖的动态压缩[11] - 通过可学习的Cross-Attention模块绕过SVD的不可微问题,实现端到端训练[12] 应用成效 - 在RTX 3090上达到80 FPS实时性能,相比SOTA方法的65 FPS实现1.3倍加速[15] - 计算量显著降低至0.94G FLOPs,IB-DTC模块是实现从48 FPS提升至75 FPS效率飞跃的核心[15] - 在nuScenes和Waymo两个大规模数据集上均刷新了SOTA性能[15]
五年,终于等来Transformers v5
机器之心· 2025-12-02 06:47
产品发布与市场地位 - Transformers v5 发布首个候选版本 v5.0.0rc0,标志着从 v4 到 v5 长达五年的技术周期跨越 [1][2] - 该库日下载量从2020年11月v4发布时的2万次激增至如今的超过300万次,总安装量突破12亿次 [2] - 支持的模型架构从最初的40个扩展至超过400个,社区贡献的模型权重超过75万个 [2] 核心战略方向 - v5版本将PyTorch确立为唯一核心后端,聚焦于四大维度进化:极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性、将量化提升为核心功能 [2] - 在人工智能领域,公司将“重塑”视为保持长盛不衰的关键,需要不断演进以保持其相关性 [2] 简洁性与标准化 - 团队首要关注点是简洁性,旨在实现更广泛的标准化、更强的通用性和更全面的生态支持 [3][4] - 大力推进模块化设计,使维护更简单、集成速度更快,并促进社区协作 [6] - 引入抽象层如AttentionInterface来简化通用辅助函数的管理 [8] 模型集成与工具 - 目标是收录所有最新模型架构,成为模型定义的唯一可信来源,过去5年平均每周新增1-3个新模型 [4] - 构建工具通过机器学习识别新模型与现有架构的代码相似度,并致力于自动化模型转换流程以减少手动工作 [9][10] - 对建模文件和标注相关文件进行大规模重构,使建模代码只保留核心部分 [11] 训练能力扩展 - v5版本加大了对大规模预训练和完整训练的支持,重新设计了模型初始化方式并加入对优化算子的支持 [15][16] - 已与torchtitan、megatron、nanotron等工具实现更广泛的兼容 [16] - 继续与Python生态系统中的微调工具紧密合作,并与JAX生态中的工具兼容 [17] 推理优化 - v5优化推理方向,包括专用内核、更干净的默认设置、新的API,以及优化对推理引擎的支持 [18][19] - 定位并非取代vLLM、SGLang等专业推理引擎,而是实现与这些引擎的兼容 [21] - 与ONNXRuntime、llama.cpp和MLX密切合作,确保良好的互操作性,并推动设备端直接运行 [23][24] 量化技术 - 量化被提升为核心能力之一,确保与主要功能完全兼容,并为训练与推理提供可靠的量化框架 [25][27] - 许多SOTA模型如今以低精度格式发布,如8-bit和4-bit [25]
华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」
机器之心· 2025-12-02 06:47
技术突破与行业范式转变 - 文本生成领域迎来从自回归模型向扩散语言模型的重要范式转变,但长序列训练不稳定性是核心痛点,即使是100B参数的LLaDA 2.0上下文窗口也仅为4K [1] - 华为发布openPangu-R-7B-Diffusion,基于openPangu-Embedded-7B进行少量数据(800B tokens)续训练,成功将扩散语言模型的上下文长度扩展至32K [1] 模型性能表现 - 在通用能力基准测试中,MMLU得分81.66,MMLU-Pro得分71.26,CMMLU得分76.43,CEval得分70.81,IFEval Prompt Strict得分60.81 [2] - 在数学能力基准测试中,GSM8K得分91.89,MATH得分84.26,大幅领先同类模型 [2][3] - 在代码能力基准测试中,MBPP得分84.05,HumanEval得分87.80,展现出卓越的逻辑泛化能力 [2][3] - 多学科知识(MMLU-Pro)超越16B参数量的LLaDA 2.0-mini-preview达22% [3] - Base模型在多个基准测试中平均得分65.26,优于对比模型 [4] 核心架构创新 - 创新性地融合了自回归的前文因果注意力掩码,而非沿用传统扩散模型的全注意力或分块掩码 [7] - 该设计从根本上解决了架构适配难题,消除适配壁垒,仅需从预测Next Token转变为预测Next Block中的Mask Token,极大降低适配成本 [8] - 兼容性最大化,使模型能自然继承自回归模型的预训练知识,为长窗口训练打下坚实基础 [8] 训练与推理优化 - 训练策略延续BlockDiffusion思路但进行关键优化,Context利用率达100%,将无掩码Context部分数据用于标准自回归Next Token Prediction训练 [15] - 双模式解码赋予模型自回归+扩散的双重解码能力,用户可通过不同采样设置灵活权衡生成质量与速度 [15] - 在并行解码模式下,其速度最高可达自回归解码的2.5倍,模型完整保留变长推理与KV-Cache特性 [15] 技术特点与能力展示 - 模型展现出结合扩散并行生成与深度思维链的"慢思考"能力,在处理复杂数学推理和编程任务时表现优异 [12] - 可视化实测显示,模型在4个生成步数内并行将多个[MASK]噪声逐步去噪还原为清晰语义Token,而非传统自回归模型的逐词生成方式 [12] - 该模型成功证明扩散模型不仅可以快(并行解码),更可以深(32K长文与慢思考),开启扩散语言模型新篇章 [14]
NeurIPS 2025|CAKE:大模型驱动的贝叶斯优化新配方,让黑箱优化更智能、更高效
机器之心· 2025-12-02 06:47
核心技术创新 - 提出名为Context-Aware Kernel Evolution (CAKE)的新方法,利用大语言模型的推理与生成能力,在贝叶斯优化过程中自动、动态地设计最优的高斯过程核函数[5][6] - 该方法将核函数设计问题重新构想为一个"进化过程",LLM作为生成新核函数的引擎,执行交叉和变异两类遗传操作,并根据贝叶斯信息准则评估性能[15][17][19] - 提出BIC-Acquisition Kernel Ranking (BAKER)方法,通过加权平衡模型拟合度和采样潜力两个指标对核函数进行排序,在优化代理模型与实际推进最优解之间取得稳健平衡[21][22] 技术性能优势 - 在超参数优化任务中,CAKE在60个HPO任务上所有测试的ML模型中均取得最高最终准确率,在优化早期(如前25%预算内)能迅速收敛到高性能区域[27] - 在控制器调优任务中,CAKE显著优于所有基线,能更快收敛至高回报控制策略,在月球着陆任务中是少数能成功达到200分目标分数的BO方法之一[28] - 在光子芯片设计的多目标优化中,CAKE使用预期的超体积改进作为获取函数,求得高质量解的速度提升近十倍,大幅节省设计时间与成本[29][32] 方法比较验证 - 与三大类基线方法比较:固定核(SE或M5)、自适应核(随机选择、按获取函数值选择或按BIC选择)、组合与高级方法(深度高斯过程、高斯过程集成等)[25][26] - 消融研究证实CAKE和BAKER两个组件的必要性,完整模型效果远超CKS + BAKER(证明LLM优于传统搜索)和CAKE + BIC(证明BAKER平衡策略优于单独BIC)[35] - 实验证明LLM作为遗传算子能更迅速引导核函数种群朝更高适应度方向进化,与随机重组或传统遗传算法相比,适应度分布曲线能更快向高分区域移动[31] 计算成本分析 - 使用LLM会增加每次迭代的"墙上时钟时间"至8.3秒,而固定核方法仅需0.6秒,自适应方法需3.7秒[40] - 在贝叶斯优化典型应用场景(如药物研发、芯片设计)中,函数评估成本(数小时或数天)远高于LLM推理成本(秒级),CAKE通过减少函数评估次数总体上极大节约优化总成本[39] - 性能随着LLM能力提升而提升,使用gemini-2.0-flash在LR、SVM、RF、XGB、MLP任务上分别达到0.8253、0.8720、0.9056、0.9310、0.8780准确率,证明框架具有良好的"未来兼容性"[41] 应用前景拓展 - CAKE标志着AI for Science范式下的一次根本性跃迁,将大语言模型角色从文本生成工具提升为参与算法级结构设计的智能协作者[42] - 未来计划扩展CAKE框架,引入更具通用性的核函数语法,并将其核心思想推广至其他基于核方法的机器学习任务,如支持向量机、核主成分分析以及度量学习等[42] - 这项工作为构建更加自主、可解释且持续进化的智能优化系统开辟新路径,有望成为推动自动化实验室与加速科学发现进程的关键技术之一[42]
架构解耦是统一多模态模型所必须的吗?全新AIA损失:No
机器之心· 2025-12-02 05:07
统一理解与生成模型的发展现状 - 近一年来统一理解与生成模型发展迅速,但视觉理解和生成任务在网络层间存在冲突[2] - 早期完全统一模型(如Emu3)与单任务方法性能差距巨大,Janus-Pro、BAGEL通过解耦架构显著缩小了性能差距[2] - 后续方法通过直接拼接现有理解和生成模型达到极致性能,但这种方式可能背离统一模型的初衷[2] 统一模型的初衷与架构解耦的缺点 - 统一模型的初衷是通过透明化、合理化的图文交错思考过程提高单任务性能,例如走迷宫时生成每一步图像、做数学题时画辅助线等[3] - 架构解耦模型如BAGEL实现图文交错思考需要经历隐空间解码到文字/像素空间再编码到隐空间的复杂过程,存在计算开销大和信息丢失问题[3] - 架构解耦虽然带来可观性能提升,但随着研究深入可能成为重大问题[3] AIA方法的核心发现 - 研究发现不管如何解耦架构,理解和生成任务在同一层网络中始终呈现负相关关系,这与输入模态、长度和类别无关[8] - 模型自发学习分配两个任务在每层中的占比来缓解冲突,说明架构解耦本质上没有解决任务冲突问题[8] - 随着模型解耦程度增强,其跨模态交互模式会趋向单任务表现,这是性能提升的主要原因[8] AIA方法的技术创新 - 研究者设计Attention Interaction Alignment (AIA)损失,将单任务模型的跨模态交互模式作为学习目标,显式约束统一模型的交互模式[10] - AIA在Emu3和Janus-Pro上实验表明,无需其他trick即可提升模型性能,缩小与高解耦程度模型的差距[12] - 加入AIA损失后,Emu3和Janus-Pro的交互曲线都向单任务模型靠近,证明AIA有效性[14] AIA方法的性能表现 - Emu3 + AIA在多项指标上提升:MMMU从31.6提升至35.7,MMBench从61.4提升至64.8,MMVet从15.1提升至18.7,POPÉ从77.3提升至82.7[14] - Janus-Pro + AIA在MMBench从65.54提升至75.6,POPÉ从87.4提升至89.8[14] - 生成任务指标也有提升:Emu3 + AIA的GenEval从0.60提升至0.67,DPG从79.24提升至81.20[14] AIA的训练特性与优势 - AIA在不同模型上训练表现不同:Emu3预训练知识薄弱,AIA在很大范围内都能稳定收敛;Janus-Pro预训练知识强,AIA需要合适比重才能达到好效果[17] - AIA可减少数据配比工程问题,在生成与理解数据配比1:1情况下达到更好效果,说明两个任务产生协同优化效果[19] - AIA证明任务冲突可能是统一模型的天然特性,而非需要避免的问题[21] 统一模型的未来发展方向 - 完全统一方法与高解耦模型存在很大差距,但随着Emu3.5等模型出现,差距预计会缩小[15] - 另一条路径是移除所有任务区分线索(统一分词器、消除特殊token、使用交错数据),但会显著增加训练难度[22] - 统一模型的理论和架构远未成熟,需要更多研究者关注其真正意义而非单纯追求单任务基准性能[24]
刚刚,千问App把谷歌和OpenAI的「付费绝活」塞进了手机,还免费?
机器之心· 2025-12-02 05:07
千问App核心功能更新 - 千问App正式接入阿里两大顶级视觉模型Qwen-Image和Wan 2.5,将工业级AI视觉生成能力整合至移动端[1][4] - 此次更新旨在打破技术门槛,使普通用户无需代码知识或复杂部署即可在手机上使用顶尖的多模态AI模型[4][73] - 更新深度整合了文生图、图像编辑、图生视频、原生音画同步等能力,在单一应用内实现了多模态工作流的无缝串联[47][74] Qwen-Image模型能力 - 模型核心突破在于强大的视觉逻辑理解能力,能够理解几何空间关系,在处理家居摆放等涉及透视和物体关系的指令时表现出色[9][14] - 展现出卓越的主体一致性保持能力,在宠物图像替换、多图融合等高难度编辑任务中能精准保留主体特征,避免身份崩坏[18][22][65] - 在Hugging Face等开源社区备受关注,Qwen-Image-Edit及其变体总下载量已突破300万次,是平台上最热门的图像模型之一[58][72] - 引入了语义与外观双重编辑机制,既能进行像素级修补,也能实现语义重构,在多项图像生成和编辑基准测试中达到SOTA性能[62][64] Wan 2.5模型能力 - 作为国内少有的具备原生音画同步能力的视频生成模型,其采用原生多模态架构,可同时处理文本、图像、视频和音频信号[36][68][69] - 能够基于画面场景推理生成匹配的音乐,实现对口型、音画卡点等高难度操作,使AI视频生成进入视听一体新阶段[43][70][76] - 模型可直接在千问App内调用,用户无需在不同工具间切换即可实现从静态图像到有声视频的一站式创作[47][49] 多模态工作流整合 - 千问App解决了AI视觉生成领域的“工具孤岛”问题,用户可在同一对话框内无缝串联调用Qwen-Image和Wan 2.5等顶尖模型[46][47] - 实现了从文生图到图生视频的流畅创作体验,例如生成《疯狂动物城》角色图像后可直接将其转化为带有对话和音效的视频[48][49][51] - 这种深度整合降低了创作门槛,用户无需连接复杂节点或使用专业软件,通过自然对话即可实现“所说即所得”的创作效果[55][75] 行业技术地位 - 阿里已构建起覆盖文生图、图像编辑、文生视频、音画同步等核心赛道的多模态生成模型生态,模型在全球处于第一梯队[72] - Qwen-Image在开源社区长期霸榜,而Wan 2.5在音画同步等用户体验方面甚至超越了海外闭源顶流模型[3][72] - 此次更新是公司在多模态领域长期技术积累的集中释放,将分散在代码仓库中的专业能力转化为普通用户可轻松使用的产品[73][74]
刚刚,霸榜神秘视频模型身份揭晓,原来它就是「David」
机器之心· 2025-12-02 00:17
产品发布与市场地位 - Runway公司最新发布Gen-4.5视频生成模型,该模型即此前在Artificial Analysis榜单上排名第一的神秘模型Whisper Thunder (aka) David [1] - Gen-4.5在视频生成的运动质量、提示词遵循度以及视觉逼真度方面树立了全新的行业标准 [1] - 该模型是目前全球评价最高的视频生成模型,其ELO Score分数为1,247,超越了Google的Veo 3/3.1(1,226/1,223分)、Kling 2.5(1,225分)以及OpenAI的Sora 2 Pro(1,206分)等主要竞争对手 [3][6] 技术特性与性能突破 - 模型在动态可控的动作生成、时间一致性以及多种生成模式下的精确可控性方面树立了新行业标准 [8] - 具备精确的提示词遵循能力,物体的运动呈现真实的重量、动量与力感,液体流动符合正确的动力学特性,表面细节以高保真度呈现 [11] - 能够生成复杂场景,以高精度呈现结构精巧、元素丰富的多层次场景 [11] - 具备精细的构图能力,能对物体与角色进行精确定位并呈现流畅自然运动效果 [13] - 模型呈现富有表现力的角色,能够展示细腻的情感、自然流畅的肢体动作以及栩栩如生的面部细节 [14] - 覆盖广泛的美学风格,从照片级真实感、电影质感到风格化动画,同时保持统一连贯的视觉语言 [16] 技术架构与部署 - Gen-4.5基于NVIDIA架构构建,在整个流程(包括早期研发、预训练、后训练及推理阶段)均完全运行于NVIDIA GPU之上 [20] - 公司与NVIDIA深度合作,从训练效率到推理速度全方位推动视频扩散模型优化的技术边界 [20] - 推理运行在NVIDIA Hopper和Blackwell系列GPU上,在保证质量的同时实现性能最优化 [20] 行业发展与公司历程 - Runway于2023年2月发布Gen-1,这是首个面向公众的视频生成模型,开创了全新的创意表达方式并催生了新产品类别 [7] - 2023年7月发布的Gen-2率先支持文生视频和图生视频功能,比PIKA和Sora都要早 [7] - 公司不断引领行业,让视频模型变得更强大、更可控,从基础模型的大幅提升到全新的控制方式以及更广泛的上下文能力 [7]
英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子
机器之心· 2025-12-02 00:17
文章核心观点 - NVIDIA Research推出的Alpamayo-R1是一种带有推理能力的视觉-语言-行动模型,旨在解决自动驾驶系统在“长尾场景”中缺乏因果推理能力的关键瓶颈 [1] - 该模型通过引入因果链数据集、扩散式轨迹解码器和多阶段训练策略,使车辆不仅能执行指令,还能在决策前推理出因果关系,实现从“黑箱”到“白箱”的转变 [1][18][19] - 模型在实验中表现出显著性能提升,特别是在规划精度、安全性和推理-行动一致性方面,更接近“真正会判断的司机” [6] 自动驾驶行业当前瓶颈 - 当前自动驾驶模型的瓶颈在于“看”得见但“想”不明白,传统端到端系统常在“长尾场景”中出错,例如迎面来车违规左转、行人突然闯入、临时施工等极少数但易发生事故的场景 [1] Alpamayo-R1模型核心创新 - 引入Chain of Causation因果链数据集,为驾驶数据标注“为什么这样做”的推理信息,例如“减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲” [2][3] - 采用Diffusion-based Trajectory Decoder扩散式轨迹解码器,在实时约束下生成连续、动态可行的驾驶轨迹,结合语言推理输出与物理约束 [5] - 实施Multi-Stage Training多阶段训练策略,包括大规模驾驶数据模态注入、因果链数据监督微调和强化学习优化,使模型在开放及长尾场景中更稳健 [6][13] 模型性能表现 - 规划精度提升12%,越界率降低35%,近碰率降低25%,推理-行动一致性提升37% [10] - 具备99毫秒的端到端实时延迟性能 [10] 技术实现细节 - 输入由多相机、多时序观测帧组成,可选配高层语言输入,所有输入被统一编码成多模态token序列,按时序和传感器顺序排列,送入主干模型Cosmos-Reason进行推理与预测 [7][8] - 输出包含三类token:推理链、中层动作与未来轨迹预测 [8] - 采用“人机协同标注”机制生成CoC数据集,人工标注关键帧和核心因果因素,通过GPT-5等大模型自动生成初版推理后由人类审查,并通过四项规则严格把关质量 [10] 训练流程 - 第一阶段为监督微调,基于在370万条VQA数据上预训练的Cosmos-Reason模型进行微调,其中包括2.47万条驾驶设计视频样本和额外的10万条驾驶样本用于领域自适应 [15] - 第二阶段为因果链监督,引入CoC数据集显式监督模型的推理输出,使其能回答“为什么要减速”等问题,通过人工和教师模型生成高质量推理样本 [16] - 第三阶段为强化学习后训练优化,通过多维度奖励机制提升推理精准性、推理-行动一致性、轨迹平滑性及闭环控制稳定性 [17] 行业未来展望 - Alpamayo-R1的设计理念是自动驾驶从“黑箱”到“白箱”的转折点,使AI的“推理链”与物理世界的“行动链”形成真正闭环,为实现可解释的L4自动驾驶奠定基础 [18][20] - 当车辆能解释自己的每一个决策时,才能确保更加安全,信任与普及才会得以实现 [21]