Workflow
困惑度
icon
搜索文档
骂得越狠,ChatGPT回答越准,PSU研究实锤,狂飙84%准确率
36氪· 2025-10-15 01:51
研究核心发现 - 对大型语言模型使用粗鲁提示词可提升其回答准确率,ChatGPT-4o在非常粗鲁情况下准确率达84.8%,而非常礼貌时准确率为80.8% [1] - 研究通过实证表明,不礼貌的提示词始终比礼貌的提示词能带来更佳的输出结果 [1] - 模型表现随提示词礼貌程度降低而稳步提升,从中性、粗鲁到非常粗鲁,性能递增 [15] 研究方法与设计 - 研究创建包含50个基础问题的数据集,涵盖数学、科学、历史领域,每个问题被改写为五种礼貌等级 [1] - 每个基础问题生成五个不同礼貌程度的变体,最终构建包含250个独立提示词的数据集 [11][12] - 题目难度设计为中到高难度,通常需要多步推理,每个问题有四个选项且仅一个正确答案 [9][10] 实验执行与评估 - 评估通过Python脚本进行,要求模型仅以正确答案的字母作答,无需解释 [13] - 对每种语气记录ChatGPT-4o在10次运行中的准确率得分,并采用配对样本t检验评估差异的统计显著性 [14] - 中性语气表现优于礼貌语气但劣于非常粗鲁语气,统计检验结果支持语气对准确率存在影响 [16] 行业观点与历史背景 - 谷歌创始人谢尔盖·布林曾表示,以威胁方式对待模型可使其表现更好 [4] - 提示工程是影响大型语言模型输出结果的关键变量,提示词的结构、风格、语言等因素至关重要 [5] - 此前有研究指出粗鲁提示词可能导致模型表现不佳,但过度礼貌也未必能提升效果,最新研究重新审视了礼貌性对准确率的影响 [5][7]
扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
机器之心· 2025-06-10 08:41
扩散语言模型与自回归模型对比研究 - 扩散语言模型(MDMs)在理论上具备并行生成多个词元的潜力,可能提升文本生成效率 [1][3] - 实际测试显示MDMs在数学推理基准GSM8K上需要更多采样步骤才能达到与自回归模型Qwen2.5-7B相当的准确率,导致更高推理成本 [3][6] - 消除训练数据差异后,扩散模型仍未展现出相对于自回归模型的效率优势 [4] 评估指标对模型表现的影响 - 词元错误率(TER)衡量文本流畅度时,MDMs可在恒定采样步数内达到理想困惑度,不受序列长度影响 [10][11] - 序列错误率(SER)评估逻辑正确性时,MDMs所需采样步数与序列长度线性相关,失去效率优势 [11] - 在GSM8K数学推理任务中,SER指标导致MDMs表现不佳,因其需要完全正确的思维链 [11][12] 适用场景分析 - 当任务优先考虑文本流畅性和高吞吐量(如创意写作)时,MDMs更具效率优势 [15] - 当任务要求序列级准确性(如数学推理、代码生成)时,自回归模型仍是更好选择 [15] - 研究证实扩散模型优势不能简单平移至语言领域,需根据具体任务需求选择模型类型 [16]