Workflow
跨语言思维链(Cross-Lingual CoT)
icon
搜索文档
AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言
机器之心· 2025-12-13 04:59
研究背景与痛点 - 现有跨语言推理方法存在“路径依赖”问题:要么直接推理易导致低资源语言产生幻觉,要么强制转英语推理会损害需要保留原语言文化韵味或特定语义的任务[5] - 核心问题在于没有一种单一语言适合所有任务[6] 核心框架与创新 - 研究团队提出AdaMCoT框架,其核心是把“用哪种语言思考”本身当成一个可优化的决策变量,通过自适应地在多种语言间路由并组合链式思考来提升推理性能[2] - 该框架并非“先翻译再回答”,而是引入了自适应路由机制,根据问题特性动态选择最佳思维路径[8] - 框架赋予模型自适应的元认知能力,能够根据输入问题是逻辑题、文化题还是常识题,从候选语言池中路由出最佳思维路径[6] 方法与机制 - 设计双路径推理机制:1) 跨语言思维链,为与提示语言不适配的任务选取合适的“思考语言”完成推理后整合回目标语言;2) 直接生成,对模型擅长的语言或特定任务直接在源语言上生成答案[13] - 引入基于奖励的自适应路由微调机制,利用GPT-4o作为奖励模型,从事实正确性、连贯性和指令遵循度等维度对不同推理路径生成的答案进行打分,并只学习高分(分数≥9)的推理路径[10] 实验结果与性能 - 在mTruthfulQA、CrossAlpaca-Eval 2.0、Cross-MMLU和Cross-LogiQA等多个多语言基准上评估,涵盖了LLaMA 3.1和Qwen 2.5等主流开源模型[14] - 事实推理能力显著提升:在mTruthfulQA数据集上,LLaMA3.1-8B-AdaMCoT在32种语言中的31种上都取得了性能提升[16] - 具体提升幅度:对于中文,准确率相对原模型提升9.0%;对于低资源语言如印度尼西亚语,相对提升高达12.7%;在匈牙利语、葡萄牙语和孟加拉语等语言上,实现了超过10%的绝对提升[19] - 跨语言一致性增强:不仅提高准确率,还显著增强了跨语言的一致性,减少了幻觉现象[18] - 性能对比数据示例:LLaMA3.1-8B-AdaMCoT在英语上准确率为59.24%,在德语上为57.49%,在法语上为58.83%,均高于基线模型和传统方法(如AutoCAP、QAlign)[15] 技术原理深度解读 - 通过Logit Lens分析发现,当模型直接用低资源语言回答复杂问题时,中间层预测充满噪声和幻觉;而引导模型先用英语“思考”时,模型在早期层级就能锁定正确事实路径,生成答案更自信准确[24] - 通过UMAP可视化显示,AdaMCoT成功拉近了不同语言在语义空间中的距离,非英语语言的嵌入向量显著向英语中心靠拢,促进了多语言知识在语义层面的深层融合[27] 总结与意义 - AdaMCoT提出了一种全新的多语言推理范式:不改变模型参数规模,不依赖海量多语言预训练数据,仅通过“学会如何选择思考语言”就能显著释放大模型的跨语言潜能[28] - 该工作为提升低资源语言的AI性能提供了低成本高效方案,也为理解大模型的跨语言对齐机制提供了新视角,有望成为打破语言隔阂、实现“AI普惠”的关键技术之一[28]