Workflow
提示词工程
icon
搜索文档
阿里图像生成模型登顶 HuggingFace,一句话把马斯克“变老”
36氪· 2025-08-20 08:34
模型技术特点 - 通过系统性的数据工程、渐进式学习策略、改进的多任务训练范式和可扩展架构优化,解决复杂文本渲染和精准图像编辑的核心难题 [1] - 构建包含数十亿级别图文数据的大规模数据处理体系,采用七阶段精细化过滤管道提升数据质量与图文对齐度 [5] - 通过"纯粹渲染"、"组合渲染"和"复杂渲染"三种策略合成高质量文本图像数据,弥补自然数据不足 [5] - 采用由简到繁的"课程学习"策略训练,显著增强复杂中英文文本渲染能力 [5] - 提出增强的多任务学习框架,将输入图像编码为高层语义特征和低层重建特征两种互补特征 [5] - 采用多模态扩散Transformer(MMDiT)作为模型骨干,配合"双重编码"设计平衡语义连贯性与视觉保真度 [6] - 模型架构由Qwen2.5-VL条件编码器、VAE图像压缩与解码器和MMDiT核心生成网络三部分组成 [6] - VAE采用"单编码器、双解码器"独特架构,在保证高质量图像重建的同时为视频生成任务扩展奠定基础 [6] - MMDiT内部引入MSROPE新型位置编码方法,通过将文本信息置于图像网格对角线改善文本与图像特征对齐 [6] - 训练过程采用从低分辨率到高分辨率、从无文本图像到有文本图像的渐进式策略,结合监督微调和直接偏好优化等强化学习方法 [6] 性能表现 - 在通用的图像生成、复杂文本渲染及指令式图像编辑任务上达到业界领先水平 [6] - 在自然界不存在物体的生成任务中,冰山渲染效果优于GPT-5,但火焰与冰山的融合表现存在改进空间 [7] - 在图像重构任务中,能准确理解"漂浮空中"指令并保持背景一致性,而GPT-5则过度解读导致背景完全改变 [12] - 在处理包含特定元素(如星条旗)的图像编辑任务时展现出色能力,成功完成GPT-5和Gemini无法实现的修改指令 [20] - 能保持人物姿态和尺寸不变的情况下,将对象置于火星沙尘暴环境并添加未来主义太空车背景元素 [20] 应用场景比较 - 展现与Photoshop相似的核心编辑能力,但通过自然语言指令而非直接操作工具实现功能 [25] - 通过文本指令实现对象增删操作,并能理解风格要求自动匹配背景,对标Photoshop的内容识别填充功能 [25] - 具备材质与风格转换能力,可通过指令完成如"珐琅彩玻璃艺术"风格的渲染,直接对标Photoshop滤镜库和纹理叠加功能 [26] - 在图像结构性变化处理上超越传统工具,能理解复杂姿态调整指令并保持人物身份、服装细节和背景一致性 [26] - 提供语义级、概率性控制而非像素级精确控制,用户通过描述"什么"而非"如何做"来实现编辑效果 [27] - 采用"一次性"再生成工作流而非基于图层的非破坏性工作流,与Photoshop的图层堆栈逻辑存在根本差异 [28] - 大幅降低图像编辑技术门槛,但需要掌握提示词工程这一新技能来准确描述视觉意图 [28] - 代表全新的图像内容创作与编辑范式,更侧重于创意构想快速实现和语义层面内容调整 [28] - 与传统编辑软件形成互补关系,专业设计场景仍需Photoshop的精确控制,而创意概念图和营销素材场景则更具效率优势 [29] - 标志着专业软件与语义生成引擎深度融合的发展趋势,为未来AI赋能专业工具提供技术基础 [29]
“现在读AI博士已经太晚了”
量子位· 2025-08-19 05:25
行业观点 - 谷歌生成式AI团队创始成员Jad Tarifi认为,当前AI领域发展过快,不建议为追赶热潮而攻读AI博士学位,因为AI技术可能在博士毕业前就被解决[1][5][8] - Tarifi建议要么选择AI生物学等早期细分领域,要么完全避开AI领域,并强调博士学位需要牺牲大量时间和承受痛苦,仅适合对该领域极度痴迷的人[8][9][10] - Tarifi认为传统需要长时间完成的学位(如法律和医学)也面临挑战,因为所学内容可能过时且基于死记硬背[12][13] 就业市场影响 - 生成式AI已成为裁员主要推手之一,2025年前七个月美国因AI裁员超过1万人,AI被列为劳动力减少的五大原因之一[14] - 2025年美国公司已宣布裁员80.6万人,为2020年以来同期最高,科技行业裁员8.9万人,其中2.7万个岗位直接归因于AI驱动的冗余[15][16] - 应届毕业生就业市场收紧,计算机科学专业毕业生需投递2500份简历才能获得10次面试机会,应届生失业率攀升至6%,高于全美平均水平4%[19][20][22] 人才需求变化 - Tarifi建议发展社交技能和同理心,认为AI专业知识涉及"情感谐调"和"良好品味",而非掌握所有技术细节[23][24][25] - Y Combinator创始人Paul Graham指出低级别编程工作正在消失,建议深耕某一领域至远超AI杂活水平以抵御冲击[27][28] - 近50%美国Z世代求职者认为AI已使其学位贬值,企业如多邻国以"AI使用流畅度"作为招聘晋升标准[18][21]
一句话,性能暴涨49%,马里兰MIT等力作:Prompt才是大模型终极武器
36氪· 2025-08-18 09:31
研究核心发现 - 提示词优化对AI模型性能提升贡献达49%,与模型升级的51%贡献相当 [1][2][4] - 提示词适应被定义为动态互补能力,对释放大模型经济价值至关重要 [3][12] 实验设计与方法 - 研究采用1,893名参与者,随机分配使用DALL-E 2、DALL-E 3或自动提示优化DALL-E 3模型 [4][12] - 参与者需通过10次提示尝试复现目标图像,图像相似度通过CLIP嵌入向量余弦相似度量化 [14][15] - 实验设置15张目标图像,涵盖商业营销、平面设计和建筑摄影三大类别 [14] 性能提升分解 - 模型效应:相同提示词在DALL-E 3比DALL-E 2提升余弦相似度0.0084(p<10⁻⁸),占总提升51% [27] - 提示词效应:DALL-E 3优化提示词比DALL-E 2原始提示词提升余弦相似度0.0079(p=0.024),占总提升48% [28] - 总处理效应达到0.0164余弦相似度提升,相当于0.19个标准差 [23] 用户行为差异 - DALL-E 3用户提示文本长度比DALL-E 2用户长24%,且差距随尝试次数扩大 [25] - 名词和形容词占比在两组间基本一致(DALL-E 3组48% vs DALL-E 2组49%),表明提示词延长反映语义信息丰富化 [25] - DALL-E 3用户更倾向于复用和优化先前提示,采用更具开发性策略 [25] 技能水平影响 - 模型升级主要惠及低技能用户,高技能用户存在收益递减效应 [31][32] - 提示词适应效益在技能分布上无显著差异(p=0.2444) [33] - 总效应与表现十分位数交互项为-0.000115(p=0.0152),表明模型改进缩小高低绩效用户差距 [31] 自动化提示词效果 - GPT-4自动提示优化导致输出质量下降58%,因添加无关细节或曲解原意 [34] - 过度自动化提示词效果不佳,需保持人类主动性 [35] 行业实践意义 - OpenAI总裁建议开发者建立提示词库管理,不断探索模型边界 [8] - 提示词工程仍是热点领域,与新兴的上下文工程并存发展 [11] - 非技术背景用户也能通过提示词优化显著提升模型输出质量 [6]
别再空谈“模型即产品”了,AI 已经把产品经理逼到了悬崖边
AI科技大本营· 2025-08-12 09:25
行业现状与挑战 - AI产品领域存在宏大叙事与落地现实之间的巨大鸿沟,表现为技术理想与用户留存率低下的矛盾[1] - 行业呈现两极分化:部分从业者聚焦AGI终极形态,另一部分则面临不稳定API和用户高期待的实际挑战[2] - 当前AI浪潮类比"淘金热",多数参与者难以找到可持续商业模式,部分产品如AI Pin和Rabbit R1已遭遇市场困境[3] 行业活动与解决方案 - 全球产品经理大会将于8月15-16日在北京举行,汇集12大专题分享,覆盖互联网大厂和AI创业公司实战经验[14][16] - 活动将发布可能影响行业格局的重要产品,并通过深度探展和街采捕捉从业者真实困惑[8] - 多位行业领袖将分享实战经验,包括久痕科技CEO汪源、YouMind创始人王保平等,内容涵盖技术路径与商业化方法论[4][5] 产品经理职业转型 - 传统产品技能如原型设计正被AI快速替代,未来需具备战略判断、人机协作编排和用户心理洞察等复合能力[9] - 行业处于关键转折点,从业者需重新定位核心价值,把握技术浪潮方向与情感需求挖掘的双重机遇[9][10] 行业趋势与机会 - 技术演进迅速,GPT-5、Kimi K2长文本处理、Genie 3等多模态生成技术不断突破现实边界[1] - 商业模式探索从"提示词工程"向"上下文工程"进化,部分已验证路径可为行业提供参考[3] - 直播活动将揭示最新行业动态,包括腾讯混元大模型、百度秒哒等头部企业的应用实践[4][5]
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
量子位· 2025-08-02 05:23
核心观点 - 两位清华校友通过设计自我迭代验证流程和提示词优化,使Gemini 2.5 Pro在IMO题目解答中达到金牌水平 [1][4][6] - 基础大模型已具备解决复杂数学推理问题的能力,但需要特定提示词和迭代验证才能充分发挥潜力 [6][7][9] - 该方法突破了单次生成中有限推理预算和初始答案错误的局限性,将LLM潜在能力转化为严谨数学证明 [24] 技术方法 - 采用通用提示词+迭代验证流程,包括初始解决方案生成、自我改进、验证解决方案、审查错误报告、纠正改进解决方案和最终接受/拒绝解决方案六个步骤 [16][17] - 使用Gemini 2.5 Pro作为求解器和验证器,分别采用差异化提示词设计 [16][18] - 验证器模拟IMO评分专家,将问题分为关键错误和论证缺口两类,通过多次迭代降低误判影响 [19][20] - 实验选择IMO 2025题目以避免训练数据污染,设置温度值0.1减少随机错误 [20] 实验结果 - Gemini 2.5 Pro在IMO 6道题目中完成5道,其中前两道题目生成有提示和无提示两种解决方案 [23] - 未解决的第六题因验证器未能区分求解器输出的假阳性答案细节 [24][40] - 使用提示后模型一次独立实验即可解决题目,未使用时思维发散且可能需要多次实验 [39] - 不同题目需要的tokens数在300k到5000k之间,计算时间最快10分钟/题 [38] 模型对比 - Gemini 2.5 Pro在IMO测试中准确率31.55%,成本$431.97,显著高于其他模型 [9] - 对比模型表现:o3(high)准确率16.67%,o4-mini(high)14.29%,Grok 4 11.90%,DeepSeek-R1-0528 6.85% [9] - 研究人员预计使用Grok 4、OpenAI-o系列或多智能体系统可能产生更强数学能力 [25] 研究团队 - 黄溢辰:加州大学伯克利分校物理学博士,曾任职微软AI研究员,研究方向包括量子物理学和机器学习 [28][31] - 杨林:加州大学洛杉矶分校副教授,研究重点为强化学习、机器学习和优化理论,曾获亚马逊教授奖等荣誉 [33][35] - 团队证明学术界利用有限资源也能做出与大厂同等重要的成果 [36][43]
深度评测:PromptPilot,字节跳动的“提示词工厂”
钛媒体APP· 2025-08-01 00:27
文章核心观点 - 提示词工程是影响AI大模型输出质量的关键因素,其发展经历了从简单问答到系统化工程的演进 [3][4][5][64][65] - 字节跳动推出的PromptPilot平台旨在通过提供结构化的提示词生成与优化工具,降低用户使用AI的门槛,并培养系统化的提示词工程思维 [4][35][70][71] 提示词的演进过程 - 提示词的发展分为三个阶段:“魔法咒语”时代(简单问答)、“启蒙与引导”时代(引入示例学习和思维链路)以及当前的“系统化工程”时代(采用结构化框架) [10][13][14] - 系统化工程时代的目标是使AI的输出稳定、可控、易于复制,提示词框架包含角色、背景、任务、规则、输出格式和限制等元素 [14][15] 提示词工程 - 提示词工程被定义为“一门设计和优化提示词的科学”,其核心原则是“Garbage In, Garbage Out”,输入质量直接决定输出质量 [16] - 优质的提示词能有效减少AI的“幻觉”现象,并挖掘AI在复杂任务(如编写代码、市场分析)上的潜力 [17] - 编写提示词可遵循R.O.L.E.S法则,即角色、目标、限制与约束、示例和步骤,并可使用特定符号(如`{}`、`**`)来增强指令的结构性和明确性 [17][30][31] 字节的“提示词工厂” - PromptPilot是字节跳动面向大模型应用的全链路优化平台,核心功能包括Prompt生成、Prompt优化和视觉理解Solution [35][38] - 平台允许用户通过描述任务来生成结构化提示词,并提供评分和GSB比较两种模式对提示词效果进行验证和调优 [39][40][41] - 平台支持通过工作流(如结合Coze平台)实现AI自动评分,并能基于数据集进行智能优化,迭代过程类似强化学习 [45][60][62][64] - 该平台的价值定位是作为“思维矫正器”和“思维脚手架”,帮助用户建立系统化的提示词工程思维,而非提供一键生成的“神级”提示词 [70][71]
AI 产品经理们的挑战:在「审美」之前,都是技术问题
Founder Park· 2025-07-31 03:01
AI Native产品的用户体验挑战 - 移动互联网时代产品成功依赖用户体验设计,而AI Native产品的用户体验已成为技术问题而非单纯审美问题[3] - AI产品面临用户需求与价值交付的双重「失控」,用户无法通过自然语言精准驾驭AI能力[3] - 当前AI产品体验瓶颈本质是技术问题,需模型技术与产品工程协同突破市场临界点[4] AI产品设计的两大技术路径 - Andrej Karpathy提出「上下文工程」,强调系统化管理指令、历史记忆等输入信息,优化AI决策基础[7] - Sean Grove主张「规范化编程」,通过结构化文档定义目标,解决人类意图表达不清的核心问题[7] - 两种方案均超越传统提示词工程,试图绕过人类模糊性缺陷[8] AI产品的未来进化方向 - 解决方案需依赖AI而非人类,AI需具备主动理解、预判用户意图的能力[10][11] - 「宽输入」终极目标为多模态感知+生活流捕捉,形成input-output闭环实现自进化[11] - Karpathy与Grove的工作实质是为AI构建弥补人类缺陷的机制,推动AI与混沌现实协作[12] AI时代产品经理的能力转型 - 产品经理需优先理解「模性」,技术审美成为产品审美的前提条件[13] - AI产品设计逻辑从「人适应AI」转向「AI适应人」,技术能力决定用户体验上限[13]
OpenAI推出学习模式,AI教师真来了?
虎嗅· 2025-07-30 01:45
产品功能更新 - ChatGPT推出名为Study Mode(学习模式)的新功能,该模式旨在帮助用户一步步解决问题,而非直接提供答案[1][2] - 学习模式下,ChatGPT会通过引导性问题、提示和自我反思提示词等方式,根据用户目标和技能水平调整答案,以促进主动学习[3][4] - 该功能对免费用户开放,提供交互式提示、支架式回复、个性化支持、知识测试和灵活性等核心特性[4] 产品交互设计 - 学习模式通过问题了解用户对当前主题的掌握程度,并基于用户知识水平开展辅助教学[8] - 产品交互设计结合解释、问题和活动(如角色扮演、练习轮次),使学习过程感觉像对话而非讲课[24] - 回复风格要求热情、耐心、直言不讳,保持会话流畅性,避免长篇大论,力求营造良好互动氛围[26] 技术实现方式 - 学习模式的底层由OpenAI与教师、科学家和教育学专家合作编写的定制系统指令驱动[12] - 系统提示词工程是构建学习模式的核心方式,其关键规则包括了解用户、以现有知识为基础、引导用户而非直接给答案等[11][19][21] - 技术实现基于对学习科学的长期研究,核心行为包括鼓励主动参与、管理认知负荷、发展元认知等[12]
刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
36氪· 2025-07-30 01:37
ChatGPT学习模式更新 - 核心功能升级为Study Mode(学习模式),通过引导式教学帮助用户逐步解决问题而非直接提供答案[1][2] - 免费用户也可使用该功能,推出后获得广泛好评[2][4] 学习模式核心特性 - **交互式提示**:采用苏格拉底式提问、提示和自我反思提示词促进主动学习[2] - **支架式回复**:信息分章节呈现,突出主题关联性并降低学习压力[2] - **个性化支持**:根据用户技能水平和聊天记录定制课程内容[2] - **知识测试**:通过测验和开放式问题跟踪进度并巩固知识[2] - **灵活性**:允许在对话中随时切换学习目标[2] 技术实现与设计理念 - 底层由OpenAI与教育专家合作编写的系统指令驱动,融合学习科学研究成果[10] - 关键设计原则包括鼓励主动参与、管理认知负荷、培养元认知能力等[10][13] - 系统提示词公开透明,包含用户评估、知识衔接、引导式教学等模块[11][13][15] 实际应用案例 - 支持家庭作业、考试准备和新主题探索等场景[4] - 演示案例显示能根据用户知识水平动态调整教学策略(如逻辑语学习)[6] - 教学流程包含初始评估、分步引导、知识强化等标准化环节[13][14] 行业影响 - 功能设计可复用于其他AI模型,推动教育科技领域创新[16] - 采用简洁热情的交互风格,保持对话流畅性与参与感[15]
刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
机器之心· 2025-07-30 00:48
ChatGPT学习模式更新 - ChatGPT推出Study Mode(学习模式),该模式旨在帮助用户逐步解决问题而非直接提供答案[1][2] - 学习模式下ChatGPT会通过引导性问题、分步骤解释和个性化调整来确保用户理解每个概念[3][4] - 免费用户也可使用该功能,核心特性包括交互式提示、支架式回复、个性化支持、知识测试和灵活性[5] 学习模式的功能特性 - **交互式提示**:采用苏格拉底式提问和提示词引导用户主动学习,避免直接给出答案[5] - **支架式回复**:信息组织成易于理解的章节,突出主题关联性并减少学习压力[5] - **个性化支持**:根据用户技能水平和聊天记忆定制课程内容[5] - **知识测试**:通过测验和开放式问题跟踪进度并提供反馈[5] - **灵活性**:允许用户在对话中随时切换学习模式以调整目标[5] 学习模式的构建原理 - 底层基于OpenAI与教育专家合作设计的提示词工程,体现主动参与、认知负荷管理等学习科学原则[13] - 系统提示词明确要求ChatGPT扮演导师角色,通过提问、联系已有知识、引导发现答案等方式辅助学习[16][17][18][19] - 关键规则包括了解用户目标、检查理解程度、改变互动节奏,并禁止直接解答作业问题[20][21][22] 用户反馈与案例 - 功能推出后广受好评,演示案例显示ChatGPT能通过问题评估用户知识水平并开展针对性教学[6][9] - 开发者发现OpenAI公开了学习模式的系统提示词,便于其他AI模型复现类似功能[14][15][24]