基于文本的AI
搜索文档
基于文本AI的终结?Agent协作可直接「复制思维」,Token效率暴涨
机器之心· 2025-12-05 04:08
文章核心观点 - 普林斯顿大学等机构的研究者提出了一种名为LatentMAS的多智能体推理框架,其核心创新是将AI智能体之间的协作从传统的文本空间转移到了模型的潜在空间[5] - 该框架让智能体直接交换内部的隐藏层表示与KV缓存工作记忆,实现了近乎“心灵感应”式的协作,避免了传统文本交流的冗长、低效和信息丢失问题[5][7] - 实验结果表明,LatentMAS在多个基准任务上实现了更高的准确率、更低的token使用量以及显著提升的推理速度,展示了潜在空间协作的巨大优势[6] 方法介绍 - LatentMAS是一个端到端的潜在协作框架,所有智能体的推理与交流完全在潜在空间中进行,只有最终答案才会被解码为文本输出[14] - 框架建立在三个基本原则之上:推理表达能力(隐藏表示编码更丰富的连续思维)、通信保真度(实现跨智能体的无损信息传递)以及更低的协作复杂度[15][16] - 该方法使LLM智能体能够在潜在空间中生成具有超强表达能力的潜在思维,并以无损方式传递潜在工作记忆,同时保持显著更低的计算复杂度[16] 实验评估 - 在九个基准任务上的全面实验显示,LatentMAS相比单模型基线在顺序式与层级式MAS设置下准确率平均提升14.6%和13.3%[20] - 相比文本式MAS,LatentMAS在顺序式与层级式设置下分别实现4倍与4.3倍的推理加速,并减少70.8%与83.7%的token使用量[21][22] - 在具体任务如GSM8K上,使用Qwen3-14B模型的LatentMAS准确率达到95.2%,相比单模型基线提升11.5%,同时token使用量减少80.6%[23] 高效率潜在协作 - LatentMAS可实现2.6倍至7倍的额外加速,源于潜在推理只需较少的潜在步骤,而文本推理则需要大量逐token解码步骤[25] - 在AIME 24/25等高强度推理任务中,LatentMAS在不到50个潜在步骤的情况下就能达到甚至超过需要超过2万个输出token的文本MAS表现[25] - 相比TextMAS,LatentMAS可减少59.4%至87.9%的token使用量,相比单模型推理也能减少15.0%至60.3%的token使用量[28] 深入分析 - 潜在思维与对应文本响应的嵌入分布区域几乎重叠,表明潜在思维能有效捕捉文本语义,同时具有更高的多样性和表达能力[30][31] - 随着潜在步骤数量的增加,下游性能普遍提升,说明额外的潜在思维提高了AI协作的表达能力[32] - 该方法无需额外训练,可兼容任意HuggingFace模型,并可选择性地支持vLLM后端,通用性强[8]