连续潜空间推理 - 财报，业绩电话会，研报，新闻

连续潜空间推理

搜索文档

量子位· 2025-03-10 03:29

核心观点 - Zoom团队提出的"草稿链"(CoD)方法可替代传统思维链(CoT)，显著降低推理token使用量80%-90%，同时保持准确率基本不变，某些任务中准确率甚至提升[1][2][8] - 该方法受人类解题过程启发，通过生成简洁、信息密集的中间token作为草稿，无需修改模型结构或训练流程，仅需更新提示词示例即可实现[3][4] - 在闭源黑盒模型上具有应用优势，相比"连续潜空间推理"等方法保留了可解释性[5] 技术原理 - 草稿链要求模型为每个推理步骤生成简洁且信息密集的token，类似人类解题时只记录关键中间结果[3][4] - 实现简单，无需模型微调或强化学习，仅需在提示词中更新示例，相关代码和数据已开源[4] 成本效益 - 相比思维链减少70%-90%的token使用量，直接降低推理成本[7] - 企业每月处理100万次推理请求时，成本从3800美元降至760美元，节省超3000美元[6][7] - 规模化应用后成本优势更显著，支持企业处理海量AI查询而不产生过高费用[7] 实验验证算术推理(GSM8k数据集) - GPT-4o标准提示准确率53.3%，思维链提升至95.4%，草稿链保持91.1%[8][11] - Claude 3.5 Sonnet标准提示准确率64.6%，思维链提升至95.8%，草稿链保持91.4%[8][11] - 草稿链将token使用量从约200个/响应降至约40个，减少80%[9] - GPT-4o延迟降低76.2%，Claude 3.5 Sonnet延迟降低48.4%[10][11] 常识推理 - 日期理解任务中，Claude 3.5 Sonnet使用草稿链准确率从87.0%(思维链)提升至89.7%[12][13] - 运动理解任务中，GPT-4o草稿链准确率达98.3%，优于思维链的95.9%[13] 符号推理(抛硬币任务) - 草稿链在保持100%准确率的同时，GPT-4o token使用量从52.4个降至16.8个，延迟从1.4秒降至0.8秒[14][15] - Claude 3.5 Sonnet token使用量从135.3个降至18.9个，延迟从3.1秒降至1.6秒[15] 局限性 - 零样本设置下有效性显著下降，GPT-4o准确率从94.8%(思维链)降至84.4%，Claude 3.5 Sonnet从90.4%降至65.5%[16][17] - 参数量小于30亿的小模型上，与思维链性能差距更大[18] - 推测因训练数据缺乏草稿链风格推理模式，需few-shot样本指导才能生成有效草稿[19]