Prompt Engineering
搜索文档
零成本、无需微调:提示词加几个字让能大模型创造力暴涨 2 倍
36氪· 2025-12-14 00:05
文章核心观点 - 斯坦福大学等机构的研究发现,通过一种名为“言语化采样”的简单提示词技术,无需重新训练或微调模型,即可显著解锁大型语言模型被“安全对齐”过程所抑制的创造力,使答案多样性提升高达2倍[5][6][27] AI模型创造力受限的根源 - 后训练阶段的安全对齐过程导致了“模式坍缩”,使得模型在创意任务中总是输出最刻板、最安全、最无聊的回答[12] - 根本原因并非算法永久性损伤,而是人类标注员在训练过程中存在系统性认知偏差,导致模型被训练得迎合人类对“典型”答案的偏好[13][14] - 人类偏好评分数据显示,典型性偏差权重 α 达到 0.57±0.07 (p<10^-14),表明偏差影响显著[14] “言语化采样”技术的原理与效果 - 技术核心是改变提问方式,从要求“一个”答案变为要求生成多个答案并附带其概率,例如“生成5个关于咖啡的笑话并给出概率”[15][16] - 该方法迫使模型从预训练学到的真实概率分布中随机采样,而非仅输出坍缩后分布中最典型的答案[16] - 应用该技术后,对于具有多种有效视角的问题,答案多样性增加了1.9倍;在诗歌、故事、笑话等任务上,多样性增加了1.6–2.1倍[23][27] - 基础模型的创造力恢复率达到66.8%,而未使用该技术时仅为23.8%[27] - 人类偏好评分提高了25.7%(基于2,700次评分测试),且模型回答更像人类,机械感减少[27] 技术的应用方法与场景 - **通用方法**:在任何聊天机器人中,使用包含生成多个带概率回答的指令的提示词[17] - **专业方法**:在系统提示词中设定规则,要求模型从概率小于0.10的分布长尾部分随机采样回答,以自动提升创造性[20][21][22] - **开发者工具**:可通过安装Python包 `verbalized-sampling` 在代码中调用该功能[23] - **应用场景**:适用于头脑风暴、内容创作、解决问题、图像生成提示词多样化以及合成数据生成等领域[29][30] - **合成数据效益**:使用该技术生成的训练数据,能使下游任务准确率提高14–28%[24] 技术影响的深层洞察 - 该技术证明,对齐并未永久性抹杀模型的创造力,多样性依然编码在模型权重中,只是某些模式变得不易访问[27][28] - 模型规模越大,从中获益越多,例如GPT-4获得的多样性提升是GPT-4-Mini的2倍,表明更大模型有更多被困的创造力等待解锁[24][25][26] - 该技术改变了行业对AI对齐的认知,证明安全性与创造力并非不可兼得,在事实性问题和常识推理上准确率没有下降,安全性未退化[31][32]
ChatGPT三岁生日,谷歌却为它准备了「葬礼」
36氪· 2025-12-01 07:20
AI行业三年发展回顾 - 2022年12月1日OpenAI发布ChatGPT研究预览版,通过简单对话框开启AI新时代[1] - 三年后AI技术已成为数字世界的"氧气",彻底重塑人类社会[5][6] - 技术演进伴随全球性群体焦虑,行业经历狂热与恐慌交织的发展阶段[8] 技术演进轨迹 - 2023-2024年为惊奇与幻觉蜜月期,ChatGPT打破图灵测试防线,关键词为"对话"[14] - Prompt Engineering成为热门新技术但迅速被AI自身能力瓦解[14][16] - 2024-2025年进入多模态与应用爆发期,AI开始处理图像、音频和视频[17] - Vibe Coding兴起,Cursor等生产力工具彻底重塑生产关系[19] 市场竞争格局变化 - 谷歌Gemini 3实现反超,月活用户从5月约4亿激增至6.5亿[21] - 用户花在Gemini聊天时间已超过ChatGPT,尽管OpenAI仍拥有8亿周用户[23] - 行业专家评价世界"天差地别",从OpenAI遥遥领先到格局重塑[26] OpenAI面临挑战 - 公司计划未来8年投入1.4万亿美元用于算力建设[28] - 采用独特"打法":合作伙伴承担金融风险,自身账上几乎无欠款[29][30] - 合作伙伴为投资OpenAI或帮建数据中心已借至少300亿美元[29] - 与OpenAI挂钩的债券、贷款和私人信贷交易规模达1000亿美元[31] 财务风险结构 - 甲骨文发售180亿美元公司债券支付对OpenAI基础设施承诺[31] - 分析师预测甲骨文未来四年需再借1000亿美元完成OpenAI合同[32] - CoreWeave为履行算力合同已借超过100亿美元[31] - OpenAI自身仅拥有40亿美元信贷额度且尚未动用[30] 技术性能对比 - GPT-5在推理能力、token效率和准确性方面均优于前代产品[13] - GPT-5具有更高的推理一致性和最佳上下文保留能力[13] - 速度表现:GPT-4o最快,GPT-5中等,GPT-4较快[13]
如何从0到1做一款AI产品?
虎嗅· 2025-08-15 09:00
公司业务模式 - 公司核心产品Podscan为AI驱动的播客监测平台 每天处理约5万集新播客内容 提供关键词追踪和实时提醒服务[3][4][9] - 目标客户为公关公司和营销机构 帮助其监控品牌及产品在播客中的提及情况[8][10] - 运营规模与客户数量无关 日均处理3.5万集播客 周一达5万集 覆盖全球380万档播客[9] 技术架构 - 采用开源数据库Podcast Index获取近400万条播客RSS源 每周更新4GB的SQLite数据库[11][12] - 通过Podping发布/订阅系统实时接收播客更新通知 配合补充扫描机制确保覆盖率[13] - 自建GPU服务器集群运行Whisper CTranslate 2模型 集成PyAnnote实现说话人分离功能[18][19][21] - 使用OpenSearch处理4TB转录数据 月成本700美元 比原MeiliSearch方案提升数据摄取能力[35][38][40] 成本控制策略 - 月运营成本从3万美元压缩至1万美元 通过选择Hetzner等小众云服务商降低GPU租赁成本[4][13][22] - 放弃高端H100显卡 采用4台低成本整机实现更高综合性能 月省1200美元[22] - 仅触发关键词时调用LLM API 避免每日5万集全文处理可能产生的1万美元成本[27] - 建立基于Redis的三级优先级队列系统 根据用户行为动态调整处理顺序[23][24] 产品演进路径 - 从语音留言工具转型为播客监测平台 发现播客领域缺乏类似Google Alerts的监控工具[7][8] - 短暂实现2个月盈利后因大客户流失再度亏损 月度经常性收入6000美元对比1万美元月开支[57][59] - 调整定价策略 最高套餐从500美元升至2500美元 瞄准预算充足的代理机构客户[63][64] - 从产品主导增长(PLG)转向销售主导增长(SLG) 建立直销渠道和高接触客户关系[61][66][67] 开发范式变革 - 采用AI辅助开发模式 使用Junie等工具生成OpenSearch复杂查询语句 提升开发效率[45][47] - 技术栈从Elixir转向PHP/Laravel 基于Stack Overflow海量训练数据获得更好AI支持[53][54] - 开发角色从编码转为管理 通过自然语言提示词实现功能开发 自称为"0.8倍开发者"[49][50]
AI搜索的未来不是“十个蓝色链接”,而是直接给你答案
虎嗅· 2025-07-25 04:16
一、Perplexity AI的引用规范与监督机制 - 公司明确标注信息来源,不声称拥有内容版权,核心功能是帮助用户更易获取并总结互联网信息,同时清楚展示来源 [6] - 模型训练时被要求避免直接复现原文,而是归纳总结不同来源观点,结合监督微调(SFT)和人类反馈强化学习(RLHF)技术优化 [10] - 产品设计上不支持用户直接粘贴URL要求总结,但承认当前技术无法完全杜绝滥用场景,需持续迭代防护措施 [12][14] 二、AI搜索与传统搜索的差异化路径 - 与传统搜索引擎如Google相比,Perplexity用户平均查询长度达10-11个词,更倾向于直接回答完整问题而非返回链接列表 [17] - Google商业模式依赖搜索广告(单季度收入450亿美元),其激励机制促使用户多点链接,而Perplexity定位为AI原生信息检索工具 [16][18] - 公司近期新增NFL实时比分功能,通过与体育数据提供商合作确保准确性,并计划扩展至深度数据分析如球员对比、历史表现等 [19][21] 三、产品功能扩展与用户习惯重塑 - 根据用户日志数据优先开发金融垂类功能,支持市场调研、投资组合管理等需求,同时解决体育等领域的信息幻觉问题 [23] - 目标覆盖从学术研究到日常查询的全场景,包括本地搜索、天气、购物等基础需求,以推动用户从传统搜索转向AI原生交互 [24] - 近期密集推出数十项新功能,但强调策略基于用户需求分析而非盲目试错,例如金融方向因核心用户群体需求而优先落地 [22][23] 四、内容合作与商业模式探索 - 推出Publisher Program,承诺与媒体分享广告收益,若其内容被引用为答案来源,同时提供API支持媒体站内部署AI助手 [26][31] - 区分两类AI公司:一类训练模型内化内容,另一类实时检索公开信息生成回答,Perplexity属于后者且不将内容纳入训练权重 [27][28] - 广告变现被视为长期方向,但需平衡用户体验与商业利益,预计需两年时间完善机制,当前API成本每4-5个月下降50% [35][37] 五、行业竞争与法律争议回应 - 回应道琼斯诉讼时强调开放合作态度,指出与Fortune、Time等媒体已有合作案例,诉讼方News Corp亦与OpenAI存在协议 [25] - 法律层面主张"事实不受版权保护",认为信息自由传播符合科学精神,但承认当前法律框架存在模糊地带需通过案例明确 [33][34] - 否认与新闻媒体直接竞争,用户使用场景多为分析新闻影响(如股票决策)而非获取原文,强调产品定位差异 [30]
深度|Perplexity CEO专访:AI搜索的未来不是“十个蓝色链接”,而是直接给你答案
Z Potentials· 2025-07-25 03:24
Perplexity AI的核心定位与产品理念 - 公司定位为AI原生搜索引擎,专注于通过归纳总结而非直接复制来提供信息,并明确标注来源[6][7] - 产品设计初衷是改变传统搜索习惯,平均查询长度达10-11个词,远高于Google的2.7个词[15] - 强调事实本身不应被版权保护,主张信息应自由传播的价值观[10][28] 技术实现与内容处理机制 - 采用监督微调(SFT)和基于人类反馈的强化学习(RLHF)技术防止直接复制原文[11] - 每句话标注来源信息,包括页面顶部source panel和文末脚注[7] - 明确反对用户通过"总结URL"等方式滥用产品功能[12][13] 商业模式与行业合作 - 推出Publisher Program,承诺与内容方分享广告收益[23][26] - 区分两类AI公司:训练基础模型型与实时检索型,自认属于后者[23] - 预计API成本每4-5个月下降一半,未来可能再降10-50倍[30] 市场竞争策略 - 指出Google季度搜索广告收入达450亿美元,但其商业模式依赖多点链接[14] - 认为与Google非零和博弈,广告预算可能从100%Google变为95%+5%分配[31] - 优先覆盖金融、体育等垂直领域,解决用户在其他搜索引擎的痛点[20][21] 产品功能演进 - 新增NFL实时比分功能,与专业数据提供商合作[17][18] - 根据日志数据持续优化功能,早期用户主要为学术研究型人群[19][20] - 目标覆盖搜索全场景包括本地、天气、购物等基础需求[21] 版权争议应对 - 回应News Corp诉讼,强调已建立合作机制并当天做出正式回复[22] - 主张产品非新闻工具,用户更多是查询新闻对自身影响而非获取原文[25] - 为媒体提供API支持和企业版产品,帮助其提升内容创作效率[27]
2万行App代码,Claude写了95%!老开发者:每月只花200美元,就像一天多出5小时,IDE要“变天”了!
猿大侠· 2025-07-10 04:10
AI编程工具发展现状 - Claude Code已实现95%代码生成率 在2万行代码的macOS应用中仅需手动编写不到1000行 [5][13] - 主流AI编程工具正从补全模式转向代理式开发 通过工具调用循环实现复杂任务 [3][4] - 新一代模型具备200k tokens上下文窗口 支持自动压缩和上下文预热优化 [24][26][28] 技术能力边界 - 在SwiftUI领域表现优异 但处理Swift并发机制时易混淆新旧API [15][16] - 通过CLAUDE.md规则文件可显著提升输出质量 现代API使用率提高30% [17] - 需配合XcodeBuildMCP等工具才能实现完整构建测试闭环 [39][40] 开发范式变革 - 编程语言门槛消失 系统设计和架构能力成为核心竞争力 [5] - 传统IDE功能被颠覆 未来开发环境将围绕上下文预热和反馈循环设计 [54] - 发布流程自动化程度提升 2000行发布脚本实现全流程管理 [51][52] 生产力跃升 - 开发周期从数月压缩至一周 实现10年未完成的业余项目发布 [5][56] - UI迭代效率提升 通过截图反馈可实现即时视觉优化 [22][43] - 模拟数据生成能力使原型设计速度提升80% [45][46] 行业影响 - 设计岗位需求面临重构 Figma等工具已能自动生成品牌识别系统 [5] - 开发者工具市场格局生变 终端式IDE挑战传统编辑器地位 [4][7] - 企业技术招聘标准将转向问题解决能力而非特定语言技能 [5]
推出4个月就狂赚3亿?!百万用户应用CTO弃Copilot转Claude Code:200美元拯救我的137个应用
AI前线· 2025-07-07 06:57
核心观点 - Anthropic公司推出的AI编码助手Claude Code在4个月内吸引了11.5万名开发者,单周处理代码量达1.95亿行,成为AI编码市场中增长最快的开发者工具之一[1] - 按当前用户采用模式测算,Claude Code年化收入预估约达1.3亿美元,推出4个月已赚取4300万美元[1] - Claude Code通过自然语言指令执行编码任务,无需手动选择上下文即可感知整个代码库的全局信息,与竞争对手形成差异化优势[2] - 开发者反馈Claude Code在提示词质量、工具集成和上下文管理能力方面表现卓越,显著优于其他AI编码助手[2] 市场表现 - Claude Code采用SaaS模式的分层订阅计划,既能从独立开发者处盈利,也能服务企业团队[3] - 该工具瞄准习惯命令行操作、追求模型推理透明性与安全性的工程师群体[3] - 即便按当前定价仅获取少量市场份额,其年化经常性收入(ARR)也有望突破5000万至1亿美元[3] 技术优势 - Claude Code支持开发者通过自然语言指令执行编码任务,同时无需手动选择上下文即可感知整个代码库的全局信息[2] - 该工具与Anthropic最先进语言模型Claude Opus 4集成,形成差异化优势[2] - 开发者反馈Claude Code在提示词质量、工具集成和上下文管理能力方面表现卓越[2] 用户案例 - Sentry工程总监Indragie Karunaratne使用Claude Code构建的macOS应用Context中,2万行代码仅有不到1000行是手工编写的[3] - 开发者表示Claude Code显著提升生产力,"就像每天多给了5个小时"[4] - 一位开发者指出Claude Code能一次性完成复杂功能需求,"简直像变魔术一样"[2] 商业模式 - Claude Code采用典型的SaaS模式,分层订阅计划既能从独立开发者处盈利,也能服务企业团队[3] - 将通用型AI与编码专用AI捆绑的模式,相较于单功能编程助手更能提升用户留存率[3] - 真正的增长突破口在于团队/企业版订阅的向上销售以及开源工作流带来的网络效应[3] 开发效率 - Claude Code能在几分钟内交付完整功能,效率远超人工实现[15] - 开发者表示使用该工具后"就像每天多给了我5个小时"[38] - 在构建macOS应用Context时,2万行代码中仅有不到1000行是手工编写的[7] 技术细节 - Claude Code搭配最新的Sonnet 4和Opus 4模型在代码编写方面表现出色[13] - 该工具能够理解代码风格和设计模式,生成实现功能的代码并验证功能行为[14] - 在Swift语言环境下,Claude能够熟练使用Swift 5.5版本前的大多数语言特性[17] 用户体验 - Claude Code直接取代了传统IDE,将"智能体循环"置于核心位置[8] - 开发者表示使用该工具后几乎不需要任何典型的编辑器功能[36] - 未来的IDE将专注于帮助开发者预置智能体的上下文并设置反馈循环[37] 应用场景 - Claude Code可用于功能代码编写、UI界面生成、模拟数据生成甚至发布脚本[20] - 该工具能够独立驱动反馈循环,变更、测试变更并收集失败的上下文信息[29] - 在构建macOS应用时,Claude能够生成质量极高的模拟数据[30]
程序员还写啥前端?Claude 工程师凌晨2点造出Artifacts:AI直接生成可交互App,现在又重磅升级了
AI前线· 2025-07-01 05:24
核心观点 - Anthropic升级Artifacts功能,使构建交互式AI工具更加轻松,无需编程技能[1] - Claude聊天机器人正式向实用工具平台转型[2] - 数百万用户已创建超过五亿个"作品",涵盖生产力工具和教育游戏[4] - Artifacts功能最初用于生成网站,后发展为可共享的应用程序开发平台[5][7] - 该功能代表AI交互方式的根本性转变,从静态响应转向动态交互体验[17] 功能更新 - Artifacts拥有专属空间,用户可从Claude应用侧边栏访问,整理和查找项目更方便[15] - 支持移动设备和桌面设备,但电脑可访问全部功能[16] - 用户可浏览精选项目获取灵感,几分钟内定制现有作品,或通过简单对话从头构建[21] - 新功能使创作更简单,模糊了AI辅助与软件开发之间的界限[17] 用户反馈 - 用户创建游戏、智能导师和数据分析器等应用程序,体验丝滑[18][19] - 博主测试后认为Artifacts类似"按需构建应用",可能减少对传统SaaS工具的依赖[20][22] - X用户称赞其创新性,认为它实现了GPT Store未能做到的功能[9][24] 商业模式 - 免费向所有用户提供Artifacts体验,包括免费帐户用户[31] - 专业版和团队版提供更多功能和更高使用限额,采用免费增值模式[31] - 强调免费共享以建立社区参与度,与传统软件市场不同[31] 行业影响 - Gartner预测到2025年70%的新应用程序将使用低代码或无代码技术[33] - 催生"平民开发者",41%的企业已启动相关计划[33] - AI开发工具与传统编程互补,专业开发者仍负责复杂系统和安全治理[33] - 预计到2030年全球低代码开发平台市场将达到1870亿美元[34]
用上这些提示词(Prompt),效率超高,老板:你再多干点~
菜鸟教程· 2025-05-20 10:33
AI编程转型趋势 - 编程方式从传统搜索引擎转向AI辅助编程,开发者需要编写更详细的提示词而非简单关键词[1] - 高质量AI代码生成依赖两大要素:强大的底层模型和精准的提示词工程[2] - 行业出现对AI编程工具能否完全替代程序员的讨论,但调试环节仍需人工介入[3] 提示词工程体系 - 建立18类标准化提示词模板库,覆盖代码生成、解释、优化等全生命周期场景[4] - 典型模板包括:代码生成("使用[语言]编写[功能]")、代码优化("优化以下[语言]代码提高[性能]")、算法实现("用[语言]实现[算法]")等[4] - 技术选型提示词要求对比分析技术A/B的优缺点,考虑开发效率、性能等4维度[5] 需求分析与技术决策 - 需求解构提示词要求分4步:功能点优先级排序、难度标注、技术选型推荐、风险预警[6] - 技术选型顾问提示词需生成对比表,评估开发效率、性能等4个核心维度[6] - 实战案例:电商小程序技术栈选择需平衡团队适配度与社区活跃度[6] 代码生成与优化 - 高质量代码生成5要素:清晰结构、详尽注释、极致性能、全面异常处理、符合最新规范[7] - 算法实现提示词要求包含复杂度分析、优化空间说明和执行过程演示[8] - 代码优化聚焦4个关键点:性能瓶颈定位、冗余计算消除、内存占用降低、高效算法替代[8] 测试与质量保障 - 测试用例设计需覆盖正常情况、边界值、异常输入、压力测试4类场景[13] - 单元测试生成要求细粒度路径覆盖,使用mock处理依赖,单个测试仅关注1个断言点[14] - 代码审查提示词要求无情指出潜在BUG、安全隐患、性能问题等5类缺陷[12] 系统设计与部署 - 数据库设计提示词需包含表结构、索引优化、大数据量处理方案、表关系说明[16] - Docker部署方案要求区分3种环境配置,提供资源优化和数据持久化方案[21] - CI/CD流程设计需实现自动化构建测试、分级部署、快速回滚3大核心功能[21] 安全防护体系 - 安全审查提示词要求检测SQL注入、XSS等6类漏洞,并提供具体修复方案[23] - 数据加密方案设计需明确保护范围、安全等级、性能要求和跨平台兼容性[24] - 实战案例:社交APP需对用户数据实施端到端加密,确保数据库泄露时数据安全[24]
掌握三级提示系统,让AI变得无比好用
36氪· 2025-05-18 00:03
AI提示工程核心框架 - 优化提示词是提升AI输出质量的关键解药 尤其适用于教学 写作等脑力工作领域[2] - 在通用AI实现前 提示词设计比模型选择更能决定成果质量 智能体AI同样适用此原则[3][4] - 主流AI工具(ChatGPT DeepSeek Gemini Claude)的输出质量完全取决于指令设计水平[5] 五要素基础提示法 - T任务要素需包含角色定位 明确动词和输出格式要求 示例要求AI以认知科学家身份用表格解释记忆技巧并排序[7] - C背景要素需定义受众特征和行文风格 示例针对40+岁工程师群体要求通俗化表达并善用实例[8] - R参考要素提供文风样本 示例模仿《认知天性》的特定写作风格[9] - E评估要素需验证输出准确性 建议使用Perplexity等工具核查事实[9] - I迭代要素强调持续优化 通过调整提示词实现输出升级[11] 四大优化进阶技法 - 简化指令需拆解复杂需求 示例将UX设计需求从多重要求精简为核心要素[16][18] - 切换视角通过重构AI角色获得差异化输出 示例从认知科学家转为杂志记者获取叙事化结果[19] - 调整措辞需改变提问方式 示例从模糊修改要求转为指定布琳·布朗的写作风格[21] - 设定约束激发创造力 示例将开放式书名推荐限制为5字以内押头韵科幻标题[24] 三级高阶技法应用 - 提示链采用分阶段处理 示例分三步完成内容提炼 开头改写和视觉增强的完整流程[28][30][31] - 思维链要求分步推理 示例设计写作课程时需先阐述每周3小时投入的具体分配逻辑[34] - 思维树探索多方案路径 模板要求AI对问题提出3种解决方案并逐项分析利弊[36] - 元提示实现自我优化 示例让AI自动生成健康领域创业点子的提示词框架[38] 跨模态应用实例 - 多模态提示示例:上传冰箱照片后 AI可根据现有食材推荐60分钟内完成的纯素食食谱 需包含菜名和分步指导[12]