Workflow
提示词适应
icon
搜索文档
一句话,性能暴涨49%,马里兰MIT等力作:Prompt才是大模型终极武器
36氪· 2025-08-18 09:31
研究核心发现 - 提示词优化对AI模型性能提升贡献达49%,与模型升级的51%贡献相当 [1][2][4] - 提示词适应被定义为动态互补能力,对释放大模型经济价值至关重要 [3][12] 实验设计与方法 - 研究采用1,893名参与者,随机分配使用DALL-E 2、DALL-E 3或自动提示优化DALL-E 3模型 [4][12] - 参与者需通过10次提示尝试复现目标图像,图像相似度通过CLIP嵌入向量余弦相似度量化 [14][15] - 实验设置15张目标图像,涵盖商业营销、平面设计和建筑摄影三大类别 [14] 性能提升分解 - 模型效应:相同提示词在DALL-E 3比DALL-E 2提升余弦相似度0.0084(p<10⁻⁸),占总提升51% [27] - 提示词效应:DALL-E 3优化提示词比DALL-E 2原始提示词提升余弦相似度0.0079(p=0.024),占总提升48% [28] - 总处理效应达到0.0164余弦相似度提升,相当于0.19个标准差 [23] 用户行为差异 - DALL-E 3用户提示文本长度比DALL-E 2用户长24%,且差距随尝试次数扩大 [25] - 名词和形容词占比在两组间基本一致(DALL-E 3组48% vs DALL-E 2组49%),表明提示词延长反映语义信息丰富化 [25] - DALL-E 3用户更倾向于复用和优化先前提示,采用更具开发性策略 [25] 技能水平影响 - 模型升级主要惠及低技能用户,高技能用户存在收益递减效应 [31][32] - 提示词适应效益在技能分布上无显著差异(p=0.2444) [33] - 总效应与表现十分位数交互项为-0.000115(p=0.0152),表明模型改进缩小高低绩效用户差距 [31] 自动化提示词效果 - GPT-4自动提示优化导致输出质量下降58%,因添加无关细节或曲解原意 [34] - 过度自动化提示词效果不佳,需保持人类主动性 [35] 行业实践意义 - OpenAI总裁建议开发者建立提示词库管理,不断探索模型边界 [8] - 提示词工程仍是热点领域,与新兴的上下文工程并存发展 [11] - 非技术背景用户也能通过提示词优化显著提升模型输出质量 [6]