LLM推理非确定性

搜索文档
成立7个月首发声,百亿美金独角兽万字雄文:攻克LLM推理非确定性难题
36氪· 2025-09-11 08:11
公司动态 - Thinking Machines Lab推出研究博客专栏"Connectionism"并发表首篇博文 专注于从内核数值计算到提示工程的研究进展分享[1][3] - 公司联合创始人兼OpenAI前副总裁Lilian Weng透露第一代旗舰模型命名为"Connection Machine" 名称源自1980年代神经网络研究子领域[1][3][4] - 公司通过GitHub开源项目(batch_invariant_ops)提供确定性推理实现演示 项目获得174星和6个分支[41] 技术研究突破 - 发现LLM推理非确定性的核心根源是"批次大小变化"而非传统认为的"原子竞争+浮点数"假说 通过实现批处理不变性解决该问题[20][21] - 针对三个关键操作设计批处理不变方案:数据并行RMSNorm(单核心内完成归约)[22][23][24]、数据并行矩阵乘法(损失约20%性能但保持确定性)[26][29]、固定块大小Split-KV注意力机制(确保归约顺序一致性)[33][36][38] - 实验验证:在Qwen3-235B模型上 使用传统方法时1000次生成出现80种不同结果 启用批处理不变kernel后全部1000次生成完全一致[42] 性能表现 - 确定性推理当前存在性能损耗:未优化版本耗时55秒(较默认vLLM的26秒下降111%) 优化注意力内核后降至42秒(仍较默认高61%)[44] - 性能下降主因是FlexAttention集成尚未充分优化 但公司认为这种损耗在可接受范围内[45] 应用价值 - 实现真正同策略强化学习:训练与推理数值一致使KL散度降为0 避免奖励崩溃问题(未做重要性加权时在318步出现峰值)[47][48] - 解决长期存在的训练-推理差异问题 使强化学习能持续平滑优化[47][48]