文章核心观点 - 苹果公司近期发布了一项名为RL4HS的突破性研究,该方法利用强化学习训练大语言模型,使其能够精确识别并定位输出内容中的幻觉片段,而不仅仅是进行笼统的错误提示 [3][4] - 该方法在片段级幻觉检测任务上的性能超越了包括GPT-5和o3在内的多个先进商用模型,标志着大语言模型在可靠性和可审计性方面迈出了重要一步 [5][6] 研究方法与技术框架 - 研究核心是探究显式推理(思维链,CoT)是否有助于复杂的幻觉片段检测任务,初步实验表明,具备CoT推理的模型在多次采样时,至少能生成一个正确答案的潜力显著提升 [8][14] - 提出的RL4HS框架结合了片段级奖励和类别感知的组相对策略优化,旨在激励模型进行有效推理,并解决因奖励函数不对称导致的模型预测偏差问题 [9][17] - 为解决奖励不平衡,引入了类别感知策略优化,为非幻觉类别的样本优势值引入缩放因子α(实验中α=0.5),以缓解模型倾向于做出非幻觉预测的偏差 [17] 实验设计与数据 - 实验在RAGTruth基准测试集上进行,该数据集涵盖摘要生成、问答和数据到文本三类任务,训练、验证和测试集规模分别为数千条样本 [10][17] - 主要采用Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct作为基础模型进行训练与评估 [17] 性能评估与结果对比 - 预训练指令微调模型表现不佳,例如Qwen2.5-7B/14B-Instruct的平均F1分数低于30,表明仅靠提示无法实现精确的片段级定位 [21] - 具备推理能力的预训练模型(如Qwen3-14B)性能有所提升,在摘要任务上F1达到35.8,但仍落后于微调模型 [24] - 监督微调显著提升性能,14B规模模型的平均F1达到55.4 [24] - RL4HS模型在所有基线模型上均表现出优势,RL4HS-7B的平均F1达到55.9,优于监督微调的50.1 [24] - RL4HS-14B模型在摘要、问答和数据到文本任务上的F1分数分别达到57.6、54.8和62.6,超越了Qwen3系列以及表现最强的GPT-5和o3模型 [24] 定性分析与实际意义 - 定性分析案例显示,RL4HS能够执行系统化的一致性检验推理,其推理过程与人工设计的启发式检测流程高度一致,表明其学习到的推理行为是真实可靠的 [25][26] - 该技术能直接指出具体错误段落,对于需要修改输出或进行事实审查的用户,可以大大节省时间 [4]
最近高产的苹果!RL4HS:精准定位LLM幻觉,超越GPT-5及o3!