Workflow
连续潜空间推理
icon
搜索文档
草稿链代替思维链,推理token砍掉80%,显著降低算力成本和延迟
量子位· 2025-03-10 03:29
核心观点 - Zoom团队提出的"草稿链"(CoD)方法可替代传统思维链(CoT),显著降低推理token使用量80%-90%,同时保持准确率基本不变,某些任务中准确率甚至提升[1][2][8] - 该方法受人类解题过程启发,通过生成简洁、信息密集的中间token作为草稿,无需修改模型结构或训练流程,仅需更新提示词示例即可实现[3][4] - 在闭源黑盒模型上具有应用优势,相比"连续潜空间推理"等方法保留了可解释性[5] 技术原理 - 草稿链要求模型为每个推理步骤生成简洁且信息密集的token,类似人类解题时只记录关键中间结果[3][4] - 实现简单,无需模型微调或强化学习,仅需在提示词中更新示例,相关代码和数据已开源[4] 成本效益 - 相比思维链减少70%-90%的token使用量,直接降低推理成本[7] - 企业每月处理100万次推理请求时,成本从3800美元降至760美元,节省超3000美元[6][7] - 规模化应用后成本优势更显著,支持企业处理海量AI查询而不产生过高费用[7] 实验验证 算术推理(GSM8k数据集) - GPT-4o标准提示准确率53.3%,思维链提升至95.4%,草稿链保持91.1%[8][11] - Claude 3.5 Sonnet标准提示准确率64.6%,思维链提升至95.8%,草稿链保持91.4%[8][11] - 草稿链将token使用量从约200个/响应降至约40个,减少80%[9] - GPT-4o延迟降低76.2%,Claude 3.5 Sonnet延迟降低48.4%[10][11] 常识推理 - 日期理解任务中,Claude 3.5 Sonnet使用草稿链准确率从87.0%(思维链)提升至89.7%[12][13] - 运动理解任务中,GPT-4o草稿链准确率达98.3%,优于思维链的95.9%[13] 符号推理(抛硬币任务) - 草稿链在保持100%准确率的同时,GPT-4o token使用量从52.4个降至16.8个,延迟从1.4秒降至0.8秒[14][15] - Claude 3.5 Sonnet token使用量从135.3个降至18.9个,延迟从3.1秒降至1.6秒[15] 局限性 - 零样本设置下有效性显著下降,GPT-4o准确率从94.8%(思维链)降至84.4%,Claude 3.5 Sonnet从90.4%降至65.5%[16][17] - 参数量小于30亿的小模型上,与思维链性能差距更大[18] - 推测因训练数据缺乏草稿链风格推理模式,需few-shot样本指导才能生成有效草稿[19]