Mode Collapse
搜索文档
零成本、无需微调:提示词加几个字让能大模型创造力暴涨 2 倍
36氪· 2025-12-14 00:05
文章核心观点 - 斯坦福大学等机构的研究发现,通过一种名为“言语化采样”的简单提示词技术,无需重新训练或微调模型,即可显著解锁大型语言模型被“安全对齐”过程所抑制的创造力,使答案多样性提升高达2倍[5][6][27] AI模型创造力受限的根源 - 后训练阶段的安全对齐过程导致了“模式坍缩”,使得模型在创意任务中总是输出最刻板、最安全、最无聊的回答[12] - 根本原因并非算法永久性损伤,而是人类标注员在训练过程中存在系统性认知偏差,导致模型被训练得迎合人类对“典型”答案的偏好[13][14] - 人类偏好评分数据显示,典型性偏差权重 α 达到 0.57±0.07 (p<10^-14),表明偏差影响显著[14] “言语化采样”技术的原理与效果 - 技术核心是改变提问方式,从要求“一个”答案变为要求生成多个答案并附带其概率,例如“生成5个关于咖啡的笑话并给出概率”[15][16] - 该方法迫使模型从预训练学到的真实概率分布中随机采样,而非仅输出坍缩后分布中最典型的答案[16] - 应用该技术后,对于具有多种有效视角的问题,答案多样性增加了1.9倍;在诗歌、故事、笑话等任务上,多样性增加了1.6–2.1倍[23][27] - 基础模型的创造力恢复率达到66.8%,而未使用该技术时仅为23.8%[27] - 人类偏好评分提高了25.7%(基于2,700次评分测试),且模型回答更像人类,机械感减少[27] 技术的应用方法与场景 - **通用方法**:在任何聊天机器人中,使用包含生成多个带概率回答的指令的提示词[17] - **专业方法**:在系统提示词中设定规则,要求模型从概率小于0.10的分布长尾部分随机采样回答,以自动提升创造性[20][21][22] - **开发者工具**:可通过安装Python包 `verbalized-sampling` 在代码中调用该功能[23] - **应用场景**:适用于头脑风暴、内容创作、解决问题、图像生成提示词多样化以及合成数据生成等领域[29][30] - **合成数据效益**:使用该技术生成的训练数据,能使下游任务准确率提高14–28%[24] 技术影响的深层洞察 - 该技术证明,对齐并未永久性抹杀模型的创造力,多样性依然编码在模型权重中,只是某些模式变得不易访问[27][28] - 模型规模越大,从中获益越多,例如GPT-4获得的多样性提升是GPT-4-Mini的2倍,表明更大模型有更多被困的创造力等待解锁[24][25][26] - 该技术改变了行业对AI对齐的认知,证明安全性与创造力并非不可兼得,在事实性问题和常识推理上准确率没有下降,安全性未退化[31][32]