Workflow
提示词工程
icon
搜索文档
浙江大学教授王春晖:高质量数据集是AI大模型训练、推理和验证的关键基础
中国经营报· 2025-09-21 14:52
"如果一只坏钟每天只有两次指向正确的时间,人们会不会逐渐忽视它的故障,甚至依赖它所提供的假 象,大语言模型正如这只坏钟,它们依赖互联网海量数据训练,却常常一本正经地'胡说八道'。"9月21 日,首届青海数据要素生态大会上,浙江大学教授、博导,中国科协决策咨询首席专家,全球数字经济 大会中国数据要素50人论坛主席王春晖如是表示。 而"行业专识数据集",包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业 知识,主要用于支撑业务场景模型落地应用。医疗AI离不开高质量的专家标注数据。比如医疗病理数 据标注复杂耗时,必须由临床专家执行以确保准确。 作为最新发展趋势,AI与数据的融合发展,将逐步从以模型为中心到以数据为中心。不过,王春晖指 出,以数据为中心的人工智能并未削弱以模型为中心的人工智能的价值,而是两种范式在构建AI系统 时相互补充交织。 当前,我国数据产业整体进入发展"快车道",数据作为关键生产要素的价值日益凸显。依托于数据产业 支持的人工智能和AI模型的更高阶进化和迭代,对高质量数据的需求尤其迫切。 高质量数据集是基石 基于当前数据产业生态以及AI大模型的训练模式,借助哲学家维特根斯坦的" ...
政务培训| 未可知 x 浙江省科协: 省科协系统信息员和新媒体工作人员培训圆满结束
公司活动与培训 - 未可知人工智能研究院高级授课专家吴小楠受邀为浙江省科协系统培训班开展专题培训 主题为《DeepSeek提示词技巧与新闻宣传写作》 [1] - 培训覆盖全省120余名科协系统宣传骨干 内容聚焦AI辅助写作核心方法论 包括提示词工程优化 科学叙事逻辑重构和多场景宣传文案生成三大模块 [1] - 现场学员通过实时操作掌握精准控制AI输出风格和快速生成适配内容的实操技能 培训基于DeepSeek等智能工具提升新闻稿件传播效能 [1] 公司定位与业务 - 未可知人工智能研究院聚焦AI前沿趋势 商业落地与人才发展 致力于成为AI时代的认知基础设施 [2] - 公司开发DeepSeek职场应用 AI战略工坊等系列课程 将提示词工程 智能体应用和AI知识库部署等前沿技术转化为落地培训方案 [5] - 未来公司计划结合垂直行业应用 推动AI技术在各行各业的生根发芽 [5] 合作伙伴与资源 - 公司合作伙伴包括中国建设银行 深圳职业技术大学 杭州联合银行等机构 [6] - 其他合作资源涉及博物馆 RSM会计师事务所 山东广电传媒集团和山东广播电视台等 [7][8]
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
36氪· 2025-08-21 08:49
产品发布与市场反馈 - GPT-5于8月8日正式发布,定位为具有博士水平智能的AI产品,但发布后口碑不佳并引发大量用户退订诉求[1][7] - 官方在发布前下架旧模型,但因使用体验问题被迫紧急恢复旧版模型访问权限[1] - 尽管技术测试和跑分显示其优势明显,但用户实际体验中存在严重问题[1] 技术能力与性能表现 - 在数学、真实世界编码、多模态理解和健康领域表现突出,被评测人员称为"理科生"[4][5] - 处理大型代码库重构、复杂Bug修复及从零构建完整应用的能力显著提升,相当于全栈工程师水平[13][14] - Tau-Bench测试(零售场景)分数从73.9%提升至78.2%,体现性能优化[23] - 逻辑推理、常识理解和创造力较旧版本增强,但存在智能不稳定性,简单任务可能出错[5][15] 核心功能演进 - 智能体任务性能:从问答式交互升级为可自主规划步骤、选择工具并持续完成复杂任务的项目管理模式[10][12] - 可引导性:对指令细微差别高度敏感,支持精确控制行为、语气和输出风格[17][18][19] - Responses API新增支持远程连接MCP服务器和图像生成,通过"previous_response_id"实现上下文记忆,降低token消耗成本[20][21][22] 用户交互模式变革 - 需从传统搜索引擎式交互转变为与"数字心智"协作,旧沟通方式导致使用效率低下[8][9] - 新增推理强度(reasoning_effort)和详细度(verbosity)双参数控制系统,分别控制思考深度和回答长度[29][53] - 指令冲突问题显著:严格遵循所有指令的特性导致矛盾指令会引发资源消耗和逻辑混乱[54][56][61] 优化策略与应用场景 - 效率优先场景:通过降低推理强度、设置工具调用预算及提前停止标准来简化输出[29] - 复杂探索场景:提高推理强度并明确困难处理机制,鼓励自主决策[32][33][35] - 代码开发场景:采用"自我反思提示法"先进行需求架构设计再生成代码,提升输出质量[39][42][43] - 风格一致性控制:通过提供详细规则手册确保AI输出与现有项目风格匹配[46] 高阶功能与工具 - 极速模式:在低延迟场景下最小化推理能力以提升速度,但需配合高质量提示词和持久性提醒[69][70][72] - 元提示(Metaprompting):通过AI自我优化提示词设计,降低用户修改负担[73][74] - Prompt optimizer tool官方工具可自动识别指令逻辑冲突问题[65]
阿里图像生成模型登顶 HuggingFace,一句话把马斯克“变老”
36氪· 2025-08-20 08:34
模型技术特点 - 通过系统性的数据工程、渐进式学习策略、改进的多任务训练范式和可扩展架构优化,解决复杂文本渲染和精准图像编辑的核心难题 [1] - 构建包含数十亿级别图文数据的大规模数据处理体系,采用七阶段精细化过滤管道提升数据质量与图文对齐度 [5] - 通过"纯粹渲染"、"组合渲染"和"复杂渲染"三种策略合成高质量文本图像数据,弥补自然数据不足 [5] - 采用由简到繁的"课程学习"策略训练,显著增强复杂中英文文本渲染能力 [5] - 提出增强的多任务学习框架,将输入图像编码为高层语义特征和低层重建特征两种互补特征 [5] - 采用多模态扩散Transformer(MMDiT)作为模型骨干,配合"双重编码"设计平衡语义连贯性与视觉保真度 [6] - 模型架构由Qwen2.5-VL条件编码器、VAE图像压缩与解码器和MMDiT核心生成网络三部分组成 [6] - VAE采用"单编码器、双解码器"独特架构,在保证高质量图像重建的同时为视频生成任务扩展奠定基础 [6] - MMDiT内部引入MSROPE新型位置编码方法,通过将文本信息置于图像网格对角线改善文本与图像特征对齐 [6] - 训练过程采用从低分辨率到高分辨率、从无文本图像到有文本图像的渐进式策略,结合监督微调和直接偏好优化等强化学习方法 [6] 性能表现 - 在通用的图像生成、复杂文本渲染及指令式图像编辑任务上达到业界领先水平 [6] - 在自然界不存在物体的生成任务中,冰山渲染效果优于GPT-5,但火焰与冰山的融合表现存在改进空间 [7] - 在图像重构任务中,能准确理解"漂浮空中"指令并保持背景一致性,而GPT-5则过度解读导致背景完全改变 [12] - 在处理包含特定元素(如星条旗)的图像编辑任务时展现出色能力,成功完成GPT-5和Gemini无法实现的修改指令 [20] - 能保持人物姿态和尺寸不变的情况下,将对象置于火星沙尘暴环境并添加未来主义太空车背景元素 [20] 应用场景比较 - 展现与Photoshop相似的核心编辑能力,但通过自然语言指令而非直接操作工具实现功能 [25] - 通过文本指令实现对象增删操作,并能理解风格要求自动匹配背景,对标Photoshop的内容识别填充功能 [25] - 具备材质与风格转换能力,可通过指令完成如"珐琅彩玻璃艺术"风格的渲染,直接对标Photoshop滤镜库和纹理叠加功能 [26] - 在图像结构性变化处理上超越传统工具,能理解复杂姿态调整指令并保持人物身份、服装细节和背景一致性 [26] - 提供语义级、概率性控制而非像素级精确控制,用户通过描述"什么"而非"如何做"来实现编辑效果 [27] - 采用"一次性"再生成工作流而非基于图层的非破坏性工作流,与Photoshop的图层堆栈逻辑存在根本差异 [28] - 大幅降低图像编辑技术门槛,但需要掌握提示词工程这一新技能来准确描述视觉意图 [28] - 代表全新的图像内容创作与编辑范式,更侧重于创意构想快速实现和语义层面内容调整 [28] - 与传统编辑软件形成互补关系,专业设计场景仍需Photoshop的精确控制,而创意概念图和营销素材场景则更具效率优势 [29] - 标志着专业软件与语义生成引擎深度融合的发展趋势,为未来AI赋能专业工具提供技术基础 [29]
“现在读AI博士已经太晚了”
量子位· 2025-08-19 05:25
行业观点 - 谷歌生成式AI团队创始成员Jad Tarifi认为,当前AI领域发展过快,不建议为追赶热潮而攻读AI博士学位,因为AI技术可能在博士毕业前就被解决[1][5][8] - Tarifi建议要么选择AI生物学等早期细分领域,要么完全避开AI领域,并强调博士学位需要牺牲大量时间和承受痛苦,仅适合对该领域极度痴迷的人[8][9][10] - Tarifi认为传统需要长时间完成的学位(如法律和医学)也面临挑战,因为所学内容可能过时且基于死记硬背[12][13] 就业市场影响 - 生成式AI已成为裁员主要推手之一,2025年前七个月美国因AI裁员超过1万人,AI被列为劳动力减少的五大原因之一[14] - 2025年美国公司已宣布裁员80.6万人,为2020年以来同期最高,科技行业裁员8.9万人,其中2.7万个岗位直接归因于AI驱动的冗余[15][16] - 应届毕业生就业市场收紧,计算机科学专业毕业生需投递2500份简历才能获得10次面试机会,应届生失业率攀升至6%,高于全美平均水平4%[19][20][22] 人才需求变化 - Tarifi建议发展社交技能和同理心,认为AI专业知识涉及"情感谐调"和"良好品味",而非掌握所有技术细节[23][24][25] - Y Combinator创始人Paul Graham指出低级别编程工作正在消失,建议深耕某一领域至远超AI杂活水平以抵御冲击[27][28] - 近50%美国Z世代求职者认为AI已使其学位贬值,企业如多邻国以"AI使用流畅度"作为招聘晋升标准[18][21]
一句话,性能暴涨49%,马里兰MIT等力作:Prompt才是大模型终极武器
36氪· 2025-08-18 09:31
研究核心发现 - 提示词优化对AI模型性能提升贡献达49%,与模型升级的51%贡献相当 [1][2][4] - 提示词适应被定义为动态互补能力,对释放大模型经济价值至关重要 [3][12] 实验设计与方法 - 研究采用1,893名参与者,随机分配使用DALL-E 2、DALL-E 3或自动提示优化DALL-E 3模型 [4][12] - 参与者需通过10次提示尝试复现目标图像,图像相似度通过CLIP嵌入向量余弦相似度量化 [14][15] - 实验设置15张目标图像,涵盖商业营销、平面设计和建筑摄影三大类别 [14] 性能提升分解 - 模型效应:相同提示词在DALL-E 3比DALL-E 2提升余弦相似度0.0084(p<10⁻⁸),占总提升51% [27] - 提示词效应:DALL-E 3优化提示词比DALL-E 2原始提示词提升余弦相似度0.0079(p=0.024),占总提升48% [28] - 总处理效应达到0.0164余弦相似度提升,相当于0.19个标准差 [23] 用户行为差异 - DALL-E 3用户提示文本长度比DALL-E 2用户长24%,且差距随尝试次数扩大 [25] - 名词和形容词占比在两组间基本一致(DALL-E 3组48% vs DALL-E 2组49%),表明提示词延长反映语义信息丰富化 [25] - DALL-E 3用户更倾向于复用和优化先前提示,采用更具开发性策略 [25] 技能水平影响 - 模型升级主要惠及低技能用户,高技能用户存在收益递减效应 [31][32] - 提示词适应效益在技能分布上无显著差异(p=0.2444) [33] - 总效应与表现十分位数交互项为-0.000115(p=0.0152),表明模型改进缩小高低绩效用户差距 [31] 自动化提示词效果 - GPT-4自动提示优化导致输出质量下降58%,因添加无关细节或曲解原意 [34] - 过度自动化提示词效果不佳,需保持人类主动性 [35] 行业实践意义 - OpenAI总裁建议开发者建立提示词库管理,不断探索模型边界 [8] - 提示词工程仍是热点领域,与新兴的上下文工程并存发展 [11] - 非技术背景用户也能通过提示词优化显著提升模型输出质量 [6]
别再空谈“模型即产品”了,AI 已经把产品经理逼到了悬崖边
AI科技大本营· 2025-08-12 09:25
行业现状与挑战 - AI产品领域存在宏大叙事与落地现实之间的巨大鸿沟,表现为技术理想与用户留存率低下的矛盾[1] - 行业呈现两极分化:部分从业者聚焦AGI终极形态,另一部分则面临不稳定API和用户高期待的实际挑战[2] - 当前AI浪潮类比"淘金热",多数参与者难以找到可持续商业模式,部分产品如AI Pin和Rabbit R1已遭遇市场困境[3] 行业活动与解决方案 - 全球产品经理大会将于8月15-16日在北京举行,汇集12大专题分享,覆盖互联网大厂和AI创业公司实战经验[14][16] - 活动将发布可能影响行业格局的重要产品,并通过深度探展和街采捕捉从业者真实困惑[8] - 多位行业领袖将分享实战经验,包括久痕科技CEO汪源、YouMind创始人王保平等,内容涵盖技术路径与商业化方法论[4][5] 产品经理职业转型 - 传统产品技能如原型设计正被AI快速替代,未来需具备战略判断、人机协作编排和用户心理洞察等复合能力[9] - 行业处于关键转折点,从业者需重新定位核心价值,把握技术浪潮方向与情感需求挖掘的双重机遇[9][10] 行业趋势与机会 - 技术演进迅速,GPT-5、Kimi K2长文本处理、Genie 3等多模态生成技术不断突破现实边界[1] - 商业模式探索从"提示词工程"向"上下文工程"进化,部分已验证路径可为行业提供参考[3] - 直播活动将揭示最新行业动态,包括腾讯混元大模型、百度秒哒等头部企业的应用实践[4][5]
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
量子位· 2025-08-02 05:23
核心观点 - 两位清华校友通过设计自我迭代验证流程和提示词优化,使Gemini 2.5 Pro在IMO题目解答中达到金牌水平 [1][4][6] - 基础大模型已具备解决复杂数学推理问题的能力,但需要特定提示词和迭代验证才能充分发挥潜力 [6][7][9] - 该方法突破了单次生成中有限推理预算和初始答案错误的局限性,将LLM潜在能力转化为严谨数学证明 [24] 技术方法 - 采用通用提示词+迭代验证流程,包括初始解决方案生成、自我改进、验证解决方案、审查错误报告、纠正改进解决方案和最终接受/拒绝解决方案六个步骤 [16][17] - 使用Gemini 2.5 Pro作为求解器和验证器,分别采用差异化提示词设计 [16][18] - 验证器模拟IMO评分专家,将问题分为关键错误和论证缺口两类,通过多次迭代降低误判影响 [19][20] - 实验选择IMO 2025题目以避免训练数据污染,设置温度值0.1减少随机错误 [20] 实验结果 - Gemini 2.5 Pro在IMO 6道题目中完成5道,其中前两道题目生成有提示和无提示两种解决方案 [23] - 未解决的第六题因验证器未能区分求解器输出的假阳性答案细节 [24][40] - 使用提示后模型一次独立实验即可解决题目,未使用时思维发散且可能需要多次实验 [39] - 不同题目需要的tokens数在300k到5000k之间,计算时间最快10分钟/题 [38] 模型对比 - Gemini 2.5 Pro在IMO测试中准确率31.55%,成本$431.97,显著高于其他模型 [9] - 对比模型表现:o3(high)准确率16.67%,o4-mini(high)14.29%,Grok 4 11.90%,DeepSeek-R1-0528 6.85% [9] - 研究人员预计使用Grok 4、OpenAI-o系列或多智能体系统可能产生更强数学能力 [25] 研究团队 - 黄溢辰:加州大学伯克利分校物理学博士,曾任职微软AI研究员,研究方向包括量子物理学和机器学习 [28][31] - 杨林:加州大学洛杉矶分校副教授,研究重点为强化学习、机器学习和优化理论,曾获亚马逊教授奖等荣誉 [33][35] - 团队证明学术界利用有限资源也能做出与大厂同等重要的成果 [36][43]
深度评测:PromptPilot,字节跳动的“提示词工厂”
钛媒体APP· 2025-08-01 00:27
文 | 锦缎 下面的情景是不是有些似曾相识? 当满怀期待地给AI大模型下达指令,比如"帮我分析一下这周的股价走势"。 等待数十秒后,得到了一份空洞无物,只有数据罗列的通用模板,令人大失所望。 转念一想,不应该啊,之前看过的短视频里介绍AI都和点石成金一样: 有的人能用AI在朋友圈、小红书和微博上追逐时尚潮流生成爆款文案; 有的人能用AI生成胜过资深程序员编写的高质量代码; 有的人能让AI充当各领域内的行业专家,随随便便来一份分析报告都不在话下; 同样是AI,天差地别的结果。 不同的AI大模型之间能力存在差距,这是事实。 但造成这一差异的更为主要的原因在于,使用AI的方法,也就是提问的方式。 我们注意到,为了降低使用门槛,加速AI大模型应用普及,各大厂也在"提示词工程"上下大心思。 PromptPilot,便是字节系的大模型提示词解决方案平台。 以其为样本,本文将就"提示词工程"与字节系的"提示词工厂",一探究竟。 01 提示词的演进过程 人与AI沟通的媒介,即为提示词(Prompt)。 有人会问:"写Prompt不就是打字提问吗?" 非也,这是一门学问。 这门学问在AI诞生至今的短短几年内,已经经历了从"远古 ...
AI 产品经理们的挑战:在「审美」之前,都是技术问题
Founder Park· 2025-07-31 03:01
AI Native产品的用户体验挑战 - 移动互联网时代产品成功依赖用户体验设计,而AI Native产品的用户体验已成为技术问题而非单纯审美问题[3] - AI产品面临用户需求与价值交付的双重「失控」,用户无法通过自然语言精准驾驭AI能力[3] - 当前AI产品体验瓶颈本质是技术问题,需模型技术与产品工程协同突破市场临界点[4] AI产品设计的两大技术路径 - Andrej Karpathy提出「上下文工程」,强调系统化管理指令、历史记忆等输入信息,优化AI决策基础[7] - Sean Grove主张「规范化编程」,通过结构化文档定义目标,解决人类意图表达不清的核心问题[7] - 两种方案均超越传统提示词工程,试图绕过人类模糊性缺陷[8] AI产品的未来进化方向 - 解决方案需依赖AI而非人类,AI需具备主动理解、预判用户意图的能力[10][11] - 「宽输入」终极目标为多模态感知+生活流捕捉,形成input-output闭环实现自进化[11] - Karpathy与Grove的工作实质是为AI构建弥补人类缺陷的机制,推动AI与混沌现实协作[12] AI时代产品经理的能力转型 - 产品经理需优先理解「模性」,技术审美成为产品审美的前提条件[13] - AI产品设计逻辑从「人适应AI」转向「AI适应人」,技术能力决定用户体验上限[13]