Workflow
大语言模型幻觉检测
icon
搜索文档
最近高产的苹果!RL4HS:精准定位LLM幻觉,超越GPT-5及o3!
自动驾驶之心· 2025-10-09 07:30
文章核心观点 - 苹果公司近期发布了一项名为RL4HS的突破性研究,该方法利用强化学习训练大语言模型,使其能够精确识别并定位输出内容中的幻觉片段,而不仅仅是进行笼统的错误提示 [3][4] - 该方法在片段级幻觉检测任务上的性能超越了包括GPT-5和o3在内的多个先进商用模型,标志着大语言模型在可靠性和可审计性方面迈出了重要一步 [5][6] 研究方法与技术框架 - 研究核心是探究显式推理(思维链,CoT)是否有助于复杂的幻觉片段检测任务,初步实验表明,具备CoT推理的模型在多次采样时,至少能生成一个正确答案的潜力显著提升 [8][14] - 提出的RL4HS框架结合了片段级奖励和类别感知的组相对策略优化,旨在激励模型进行有效推理,并解决因奖励函数不对称导致的模型预测偏差问题 [9][17] - 为解决奖励不平衡,引入了类别感知策略优化,为非幻觉类别的样本优势值引入缩放因子α(实验中α=0.5),以缓解模型倾向于做出非幻觉预测的偏差 [17] 实验设计与数据 - 实验在RAGTruth基准测试集上进行,该数据集涵盖摘要生成、问答和数据到文本三类任务,训练、验证和测试集规模分别为数千条样本 [10][17] - 主要采用Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct作为基础模型进行训练与评估 [17] 性能评估与结果对比 - 预训练指令微调模型表现不佳,例如Qwen2.5-7B/14B-Instruct的平均F1分数低于30,表明仅靠提示无法实现精确的片段级定位 [21] - 具备推理能力的预训练模型(如Qwen3-14B)性能有所提升,在摘要任务上F1达到35.8,但仍落后于微调模型 [24] - 监督微调显著提升性能,14B规模模型的平均F1达到55.4 [24] - RL4HS模型在所有基线模型上均表现出优势,RL4HS-7B的平均F1达到55.9,优于监督微调的50.1 [24] - RL4HS-14B模型在摘要、问答和数据到文本任务上的F1分数分别达到57.6、54.8和62.6,超越了Qwen3系列以及表现最强的GPT-5和o3模型 [24] 定性分析与实际意义 - 定性分析案例显示,RL4HS能够执行系统化的一致性检验推理,其推理过程与人工设计的启发式检测流程高度一致,表明其学习到的推理行为是真实可靠的 [25][26] - 该技术能直接指出具体错误段落,对于需要修改输出或进行事实审查的用户,可以大大节省时间 [4]
苹果再发论文:精准定位LLM幻觉,GPT-5、o3都办不到
机器之心· 2025-10-06 04:00
文章核心观点 - 苹果公司发布一篇重磅研究论文,提出名为RL4HS的新框架,利用强化学习训练模型以精确识别大语言模型输出中的幻觉片段 [1][2] - 该方法的核心突破在于模型能直接指出具体哪一段文字是错误或幻觉内容,而非仅笼统提示存在错误,这显著提升了模型输出的可靠性和可审计性 [2][3] - 在RAGTruth基准测试中,RL4HS框架的表现超过了包括GPT-5和o3在内的多个先进模型,证明了其在片段级幻觉检测任务上的有效性 [3][9][19] 研究方法与技术细节 - 框架名为RL4HS,全称为Reinforcement Learning for Hallucination Span detection,其核心是使用片段级奖励和类别感知的组相对策略优化来激励模型进行推理 [2][6] - 研究初步实验发现,具备思维链推理的模型在多次采样时,往往能至少生成一个正确答案,这为采用强化学习方法提供了依据 [5][10] - 针对奖励函数固有的不对称性导致的预测偏差,论文提出了类别感知策略优化,为非幻觉类别的样本引入缩放因子α(实验中使用α=0.5)以调整优势值,缓解不平衡问题 [11][12] 实验设置与数据 - 实验在RAGTruth基准测试集上进行,该数据集涵盖摘要生成、问答、数据到文本三类任务 [7][15] - 训练、验证和测试集的数据量分别为:摘要任务1209/271/204条,问答任务1277/269/160条,数据到文本任务3048/624/579条 [15] - 实验主要采用Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct作为基础模型,并与多种专有模型、预训练推理模型及微调基线模型进行对比 [15][16][18] 性能表现与结果分析 - RL4HS模型在所有基线模型之上表现出一致优势,RL4HS-7B在三个任务上的平均F1分数达到55.9,显著优于监督微调的50.1 [19] - 在14B规模下,RL4HS-14B在摘要、问答和数据到文本任务上的F1分数分别达到57.6、54.8和62.6,超越了Qwen3系列以及表现最强的GPT-5和o3模型 [19] - 定性分析表明,RL4HS所学到的推理行为是真实可靠的,能够执行系统化的一致性检验,与传统幻觉检测流程中使用的启发式规则高度契合 [21][22] 行业意义与影响 - 该研究是让大语言模型更可靠、更可审计的重要一步,对于需要修改输出或进行事实审查的用户而言,能大大节省时间 [2][3] - 该方法表明,基于片段级奖励的强化学习机制对于幻觉片段检测这一复杂任务是必要且有效的,为行业提供了新的技术路径 [9][19]