Workflow
Qwen2.5
icon
搜索文档
别直接训,给主模型加个错题本,6B轻松超越8B
36氪· 2025-12-25 07:05
大语言模型训练新范式:引入“错题本”机制 - 核心观点:一项最新研究提出在大语言模型训练中引入名为“Mistake Log”(错题本)的机制,通过记录模型犯错时的内部思考状态并进行结构化复盘,辅助模型实现类似人类的反思学习,从而提升模型性能[1][2][3] 传统训练范式的局限与“错题本”概念 - 当前主流训练范式高度简化,核心是让模型“更好地拟合正确答案”,仅关注输出对错,不关心导致错误的内部推理路径[2] - 研究指出,大模型当前的关键缺失并非数据或算力,而是一种类似人类的、围绕错误本身展开的深度反思与结构化复盘能力[2] - 研究提出的“Mistake Log”概念旨在刻画“模型是在什么样的内部状态下犯下这个错误的”,关注错误产生的全过程,而非仅仅答案本身[4] Mistake Log的三层核心结构 - **Question(问题)**:记录模型当时在解决什么任务,对应输入的问题级别表示,用于刻画任务语境[5] - **Rationale(推理状态)**:记录模型犯错瞬间的内部推理状态,通过读取Transformer所有层、所有token位置上的隐藏状态表示获得,构成模型“认知状态快照”[5][7] - **Mistakes(错误来源)**:在token级别精细刻画错误来源,通过对比模型预测分布与真实分布,计算每个token上的差距,生成错误热力图以定位错误起始位置和累积过程[7] 辅助模型Copilot的训练与协同机制 - 引入一个专门的辅助模型Copilot,其训练目标是学习主模型(Pilot)的Mistake Log,即学习“在什么样的内部推理状态下,主模型更容易犯哪类错误”[7][10][11] - Copilot的输入结合了任务语境表示和主模型在推理时产生的内部中间表示,以刻画决策状态[10] - Copilot的训练目标是预测主模型在生成过程中各个token层面的误差分布,判断易错位置及偏差程度[10] - 在生成过程中,Copilot输出的纠错信号会与主模型的原始输出融合,实现token生成阶段的实时修正,使模型具备基于历史错误经验动态修正推理轨迹的能力[13] 方法的理论保证与实验验证 - 论文从理论上证明,只要Copilot能较准确地预测错误趋势,且纠错权重选取合理,则融合后的预测期望误差严格小于原始模型的误差,表明该机制具有明确的理论支撑而非启发式技巧[14] - 实验在LLaMA-3、Qwen2.5等多种主流模型和10个推理基准任务上验证了有效性[15] - 一个关键发现是“小模型也能‘以小博大’”:**LLaMA-3.2-3B模型搭配一个3B的Copilot(总参数6B)的性能超过了原始8B参数的LLaMA-3.1-8B模型**,表明纠错能力可能比单纯扩大模型规模更关键[15] - 具体性能提升数据:LLaMA-3.2-1B模型搭配1B Copilot后,在部分任务上平均性能提升**3.3%**;LLaMA-3.2-3B模型搭配3B Copilot后,平均性能提升**4.0%**;Qwen2.5-3B模型搭配3B Copilot后,平均性能提升**5.3%**;Qwen2.5-7B模型搭配3B Copilot后,平均性能提升**5.8%**[16] 方法的意义与未来展望 - 该方法首次系统性地定义并探索了大模型训练中的Mistake Log机制[17] - 与当前主流依赖于显式思维链或多Agent外部纠错的“反思式”方法不同,Mistake Log直接作用于模型的内部认知状态,而非仅停留在输出层面[17] - 未来研究方向包括:基于内部状态的“自我反思”是否比外部纠错更有效、Mistake Log的表示形式与错误模式抽象方式的优化、Copilot结构设计的改进,以及提升方法的稳定性与泛化性[17]
港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM
自动驾驶之心· 2025-12-22 09:20
文章核心观点 - DrivePI是一种新型的空间感知4D多模态大语言模型,它作为一个统一的视觉-语言-行为框架,旨在通过端到端优化,同时执行空间理解、3D感知、预测和规划任务,从而弥合当前自动驾驶系统中基于视觉的方法与基于VLA的方法之间的差距 [4][6][7] 研究背景与挑战 - 当前自动驾驶系统主要有两种范式:基于视觉的方法(如UniAD、VAD)在空间感知方面表现出色但缺乏自然语言交互能力;基于VLA的方法(如OpenDriveVLA、ORION)具有更好的交互能力但缺乏精细的中间3D感知和预测输出,影响可靠性和安全性 [7][8] - 核心挑战在于开发一个统一框架,结合基于视觉模型的精确空间感知能力和VLA方法的自然语言交互能力 [7] 技术架构与创新点 - **多模态感知**:引入激光雷达作为相机图像的补充传感模态,提供精确的3D几何信息,以激发MLLM的空间理解能力 [11] - **精细化空间表示**:生成中间的精细3D感知(如3D占用体素)和预测(如占用流)表示,确保输出特征保持可靠的空间感知能力,增强系统的可解释性和安全保障 [11] - **丰富的数据引擎**:开发了将3D占用和占用流表示无缝集成到自然语言场景描述中的数据引擎,使模型能够通过文本理解复杂的时空动态 [11] - **统一模型设计**:采用端到端联合优化,覆盖3D感知、预测、规划和场景理解等所有任务,用一个MLLM统一了现有的VLA和VA框架 [11] - 架构关键组件包括:多模态视觉编码器(UniLION)、空间投影器、MLLM主干(基于Qwen2.5-0.5B模型构建)、以及四个专用头部(文本头、3D占用头、占用流头、行为扩散头) [11][17] 数据引擎 - 数据引擎分为三个阶段:场景理解注释(使用InternVL3-78B生成前/后视图描述)、4D空间理解注释(利用地面真实占用和流数据生成问答对)、规划推理注释(基于自车未来轨迹生成规划问答对) [18] 实验结果与分析 - **文本理解能力**:在nuScenes-QA基准测试中达到60.7%的平均准确率,超过OpenDriveVLA-7B模型2.5个百分点;在存在、对象和状态子类别上分别达到85.3%、57.5%和59.1%的准确率 [19][20] - **3D占用体素感知性能**:在Occ3D基准测试上达到46.0%的RayIoU,比之前最先进的OPUS方法提高4.8个百分点;在1m、2m和4m距离上分别达到42.2%、46.7%和49.2%的RayIoU [21][22] - **3D占用和占用流预测性能**:在OpenOcc基准测试上实现49.3%的OccScore和49.3%的RayIoU,将占用流mAVE降至0.509;超越FB-OCC的3D占用RayIoU达10.3个百分点,并将流mAVE从0.591降至0.509;比ALOcc-Flow-3D在OccScore上高出6.3%,在RayIoU上高出7.4% [15] - **轨迹规划性能**:在nuScenes基准测试中,使用自车状态信息时实现0.40m的L2误差和0.11%的碰撞率,碰撞率比ORION降低70%(从0.37%降至0.11%);不使用自车状态信息时,L2误差比VAD低32%(从0.72m降至0.49m) [16] 消融研究与分析 - **文本头部与视觉头部的消融研究**:当文本头和视觉头结合时,与仅视觉设置相比,统一模型的3D占用RayIoU提高1.8%,占用流mAVE降低0.18,规划L2误差降低0.52m,同时保持60.7%的文本理解准确率,证明了统一框架的有效性 [23][24] - **文本数据规模的影响**:使用Qwen-2.5 3B模型并扩大训练数据规模后,模型在占用状态预测的准确率从73%提升到87%,占用类别预测的准确率从14.3%显著提升到59.2% [26] - **多任务学习平衡权重研究**:实验表明,较高的3D占用和流损失权重(1.0)在该任务上性能更好,但在规划准确性和文本理解任务上略有降低,最终实现采用了默认权重1.0 [27][28] - **MLLM隐藏状态重要性权重分析**:分析显示,更深层的Transformer层获得更大的可学习权重,表明高级特征对模型有效性更为关键 [29][30] 可视化结果与能力展示 - DrivePI能够同时生成场景描述、3D占用、占用流、动作和轨迹预测的可视化结果,在粗粒度和细粒度预测之间表现出很强的一致性,验证了其统一语言理解与3D感知能力的有效性 [31] - 在静止等待、直行驾驶和夜间转弯等多种复杂驾驶场景中,DrivePI展示了卓越的性能和适应能力,例如在低光照条件下仍能准确描述环境并生成合理轨迹 [36][39] 主要贡献与未来展望 - 提出了首个统一的空间感知4D MLLM框架DrivePI,无缝集成粗粒度语言空间理解与精细3D感知能力 [39] - 将激光雷达作为补充传感模态,并支持精确的3D感知和预测,增强了系统的可解释性和安全保障 [39] - 尽管仅使用0.5B参数的紧凑MLLM主干网络,其在3D占用和占用流预测方面优于现有基于视觉的模型,同时保持了与现有VLA框架相当的交互能力 [39] - 该框架有望通过语言推理和精细的3D输出,启发未来研究,增强自动驾驶系统的可解释性和可解释决策能力 [38]
普元信息:截至目前公司产品已接入Qwen2.5、Qwen3.0、QwQ-32B等开源模型
格隆汇· 2025-11-26 09:41
产品生态合作 - 公司相关产品与阿里云专有云产品通过产品生态集成认证 [1] 技术能力整合 - 截至目前公司产品已接入Qwen2 5、Qwen3 0、QwQ-32B等开源模型 [1]
普元信息:公司产品已接入Qwen2.5、Qwen3.0、QwQ-32B等开源模型
每日经济新闻· 2025-11-26 09:41
业务合作认证 - 公司与阿里云专有云产品通过产品生态集成认证 [2] - 公司产品已接入Qwen2.5、Qwen3.0、QwQ-32B等开源模型 [2]
淘宝终于对搜索动刀了
虎嗅APP· 2025-11-11 23:53
淘天AI战略的核心观点 - 淘天集团在2024年底启动全面的AI战略转型,旨在通过升级搜索引擎、开发AI工具和推出AI导购产品来提升电商生态效率 [7][16] - 该战略被视为一场“给航行中的巨型轮船更换新引擎”的复杂工程,需在维持业务基本盘稳定的同时进行技术革新 [14] - 截至2025年11月,AI驱动的搜索推荐系统已取得初步成效,广告投放ROI提升12%,复杂语义搜索相关性提高20%,推荐信息流点击量增长超10% [29][30] 战略启动与组织架构调整 - 2024年11月底,阿里任命原国际AI业务负责人张凯夫主导淘天AI进化,并整合阿里妈妈广告算法与淘天搜索推荐算法团队,成立“搜推智能产品事业部” [7] - 2024年双十一结束后第10天,阿里巴巴CEO吴泳铭宣布成立电商事业群,由具有成功AI化经验的蒋凡出任CEO,进一步加速AI落地 [13] AI战略的三大核心任务 - 优先升级“搜推广”系统以提高流量匹配效率,此为三项任务中难度最高的一项 [16] - 为商家和运营团队提供一系列AI工具以实现降本增效,例如AIGC内容生成工具在2024年四季度密集上线 [16] - 针对消费者在不同场景推出新的AI导购产品,如拍立淘的“AI找低价”功能 [16] 技术基础架构的重构 - 淘天搜索引擎升级面临的核心挑战是已有22年历史的商品库系统,其信息标签不足以支撑AI大模型的理解与分析 [19] - 搜推团队利用AI Agent替代传统人力方式重构商品库,在不到6个月内完成了对数十亿商品信息的标准化处理 [20][21] - 采用务实的技术路线,仅对AI效率显著优于传统方案的环节进行AI化改造,而非全盘推翻 [21] 产品上线与组织管理创新 - 新AI功能采用分流测试模式,从2%用户开始,依据数据表现逐步扩大至5%、8%等更大范围 [23] - 设立灵活的项目小组制,小组负责人直接向张凯夫汇报,并被赋予较大创新空间,考核侧重用户指标而非短期GMV [23][24] - 公司强调AI工具的实用性,对“玩花活儿”类创新持谨慎态度,不过度追求学术论文或奖项 [25] 人才战略与文化变革 - 2025年淘天针对AI关键技术岗位进行疫情后最大规模扩招,重点吸纳00后青年人才 [26] - 建立系统性人才培养机制,避免人才在AI Coding时代沦为“螺丝钉”,并鼓励所有层级员工提出创新项目 [27] - 公司内部形成“鼓励创造”的氛围,高层直接带领由年轻员工组成的创新小组 [24][27] 当前成效与未来挑战 - AI工具已在实际业务中显现价值,例如某宠物食品品牌通过使用AI优化关键词和生成视频内容,获得订单同比35%以上增长 [4] - 传统行业商家(如家具、五金)对AI工具接受度较低,教育市场和使用培养仍需时间 [31] - 多模态能力与搜索推荐的深度结合尚有巨大探索空间,AI进化被定位为未来三至五年的持久战 [31][33]
清华唐杰新作:大模型能打掼蛋吗?
量子位· 2025-09-10 10:01
研究核心发现 - 大语言模型能够通过专门训练掌握8种不同类型的棋牌游戏 包括斗地主 掼蛋 立直麻将 Uno 金拉米 Leduc扑克 限注德州扑克和无限注德州扑克 [2][8] - 经过混合训练的微调模型在复杂棋牌游戏中表现显著优于基础模型和API模型 其中GLM4-9B-Chat-mix在6款游戏中获得最高分 [40][42] - 游戏规则相似性会影响模型表现 规则相近的游戏之间存在正向促进作用 而规则差异大的游戏可能出现性能冲突 [45][46][52] 模型性能对比 - 在5种API模型中 GPT-4o综合表现最佳 在大多数游戏中取得最高分 其中在Leduc扑克获得0.84分 在限注德州扑克获得0.60分 [37][39] - GLM-4-plus在斗地主中获得0.345分 表现优于GPT-4o的0.180分 但GPT-4o在无限注德州扑克获得2.73分 显著优于GLM-4-plus的3.21分 [39] - 微调模型中 GLM4-9B-Chat-mix在斗地主获得0.882分 掼蛋0.698分 Uno 0.252分 均位列第一 [42] - Llama3.1-8B-Instruct-mix在无限注德州扑克获得6.02分 立直麻将1.38分 表现突出 [43] 训练方法设计 - 研究采用教师模型生成高质量轨迹数据进行训练 针对不同游戏复杂度设计差异化数据采集方案 [14][20] - 斗地主 掼蛋和立直麻将各收集100万个训练实例 其余5款游戏各采样40万个实例 [20] - 训练数据量对性能提升至关重要 随着数据量增加 模型在斗地主和掼蛋中的表现逐渐接近教师模型 [24] - 混合训练数据集包含310万条数据 各游戏数据量分别为70万 95万 65万 20万 5万 25万 20万和10万 [35] 模型能力分析 - 模型在斗地主中表现出角色差异 GLM在地主角色表现优于Qwen和Llama 但在农民角色表现较差 [29][30] - 数据过滤时只保留获胜方数据 导致农民角色数据质量较低 影响模型表现 [31][32] - 即使没有教师模型 大模型在立直麻将中仍达到与顶尖麻将AI相当的表现 [25] - 模型规模影响性能 研究对参数规模从0.5B到14B的Qwen2.5进行微调以评估规模效应 [22] 通用能力影响 - 在所有游戏上微调的混合模型出现通用能力显著下降 包括知识问答 数学和编程能力 [54] - 通过加入通用数据对游戏模型进行微调 模型的通用能力得到一定程度恢复 [56] - 研究表明只要加入一定量的通用数据 模型打牌能力与通用能力可实现平衡 [6]
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 01:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]
吴伟:中国科技崛起吹响AI平权的号角
环球网资讯· 2025-09-01 22:53
中国AI行业全球影响力提升 - 多位中国企业家与学者入选2025年度全球AI影响力榜单 包括华为创始人任正非、DeepSeek CEO梁文锋、宇树科技CEO王兴兴等[1] - 中国上榜者数量显著增加且背景多元 涵盖领导者、创新者、塑造者和思想者等类别[1] - 中国AI产业快速发展并不断靠近国际舞台中心 反映全球技术格局"去地理化"扩散趋势[1] 开源技术推动行业变革 - DeepSeek开源技术路径增强AI行业开放性与参与性 为建立包容性全球技术格局贡献中国经验[1] - 开源生态帮助企业以极低成本开发衍生模型 阿里通义实验室开源超过200款模型且衍生模型数量突破10万个[1][4] - 中国开源模型Qwen2、Qwen2.5入选斯坦福报告2024年最具代表性AI模型[4] 东南亚AI市场快速发展 - 东南亚数字经济规模预计2030年达2万亿美元 其中AI市场规模有望突破5800亿美元[2] - 新加坡推出国家AI战略2.0并与OpenAI合作设立亚太中心 马来西亚发布AI治理指南并吸引字节跳动等投资[2] - 印度尼西亚制定人工智能国家战略蓝图 预计2030年AI为印尼经济贡献3660亿美元[2] 人才格局变化 - 美国顶级AI研究机构中中国人才占比38% 高于美国本土的37%[3] - 美国STEM领域对中国学者签证收紧加速海外人才回流 中国本土直培与人才回流战略显现成效[3] - 中国现存AI相关企业超442万家 2025年新增50.5万余家[3] 技术竞争力提升 - 中美大模型综合性能差距从2023年17.5%骤降至2025年0.3%[4] - 中国在开源生态建设和垂直领域应用形成独特优势 实现跨越式发展[4] - 政策支持从要素驱动向系统赋能转变 推动基础研究与应用转化双轮驱动[3] 创新生态建设 - 中国AI产业以顶层政策为锚点 坚持自主创新和长期主义发展范式[3] - 发展模式以共建共享为核心 兼顾效率与包容 为全球科技领域提供中国案例[4] - 通过系统性技术突破打破外部垄断 从根本上瓦解技术霸权架构[2]