Workflow
Prompt Engineering
icon
搜索文档
平衡创新与严谨
世界银行· 2025-05-15 23:10
报告行业投资评级 文档未提及相关内容 报告的核心观点 - 大语言模型(LLMs)作为生成式人工智能的一种,可提升评估中文本数据收集、处理和分析的效率、广度和有效性,但使用前需验证响应的准确性,应谨慎将其集成到评估工作流程中 [17] - 基于结构化文献综述(SLR)这一评估中常见用例,报告展示了LLMs实验的良好实践,包括确定相关用例、规划工作流程、明确资源分配和预期成果、选择合适评估指标、开发有效提示等,旨在实现LLMs潜力与严谨性的平衡 [18] - 评估办公室应用人工智能的实验是一个持续学习、适应和协作的过程,需不断探索和分享经验,以标准化和扩展评估LLMs性能的框架 [21] 根据相关目录分别进行总结 关键要点 - 识别相关用例,确保实验与LLMs能力有效匹配的用例一致 [9] - 规划用例内的工作流程,将用例分解为详细步骤和任务,便于有效应用LLMs并实现组件复用 [10] - 明确资源分配和预期成果,团队需就实验所需资源和成功标准达成共识 [11] - 制定适当的抽样策略,将数据集划分为训练、验证、测试和预测集,以促进有效提示开发和模型评估 [12] - 选择合适的模型评估指标,针对不同任务选择和计算相应指标,以确定实验成功与否 [13] - 迭代开发和验证提示,通过测试和改进提示,提高模型响应的准确性和相关性 [14] 关键实验考量 - 识别用例时,需确保LLMs应用能在给定资源和约束下比传统方法增加足够的增量价值,常见用例包括文本分类、总结、情感分析和信息检索等 [23][24] - 识别用例内的机会,需创建详细工作流程,发现可重复使用LLMs能力的组件,如文本分类、总结、合成和信息提取等 [26][27] - 就资源和成果达成共识,团队需明确实验所需的人力资源、技术、时间线和成功定义,确保预期成果与资源分配相匹配 [33][34] - 选择合适的指标衡量LLMs性能,针对不同任务选择和计算相应指标,如文本分类使用标准机器学习指标,生成任务使用人类评估标准 [36][38] 实验及结果 - 实验聚焦于SLR文献识别步骤的组件测试,包括基于LLM的文本分类,并对文本总结、合成和信息提取进行实验 [49] - 实验结果显示,LLMs在各生成任务中表现良好,文本总结任务的相关性、连贯性和忠实度较高,信息提取任务的忠实度优秀但相关性较低,文本合成任务忠实度高但有信息遗漏,文本分类任务经多次迭代后结果满意 [56] 新兴良好实践 - 代表性抽样需将数据集划分为四个不同集合,确保模型评估指标有助于提高提示在预测集上的泛化能力,包括理解输入数据分布、识别和纳入代表性观察等步骤 [67][68] - 开发初始提示时,好的提示应包含模型角色、任务说明、相关文本和响应要求等组件,并遵循检查模板、分解任务、尝试不同格式等原则 [75][77] - 评估模型性能时,需手动审查模型响应,评估响应的忠实度,设置特定上下文的指标阈值,使用注释和验证指南,检查编码器间可靠性,并使用混淆矩阵进行文本分类 [88][89] - 细化提示时,根据验证结果分析不准确原因,调整提示内容,但避免创建过于复杂的提示,防止过拟合 [95][96] 未来展望 - 世界银行和国际农业发展基金独立评估部门在评估实践中应用人工智能的实验是一个持续学习、适应和协作的过程,需不断探索和分享经验 [97] - 未来需进一步研究、实验和协作,以标准化和扩展评估LLMs性能的框架,包括在不同组织和背景下分享实验和试点经验 [98]
AI编程与果冻三明治难题:真正的瓶颈并不是提示词工程
36氪· 2025-05-07 23:08
AI协作与沟通 - 哈佛CS50课程的果酱三明治实验揭示,计算机执行指令需要极度清晰,模糊指令会导致混乱结果[3][5][6] - 当前大语言模型虽能推测常规任务(如制作三明治),但在陌生领域或创新场景中仍面临理解障碍[7][8] - AI工具的高效性依赖于用户提供明确的产品背景、用户洞察和细节把控,而非单纯依赖提示词技巧[7][8] AI开发实践 - 开发者使用Claude Code、Cursor等工具快速构建了多个AI产品,包括市场预测平台Betsee xyz、传记助手TellMel ai等[1] - 开发效率显著提升,从半年前仅用于代码自动补全到如今深度依赖AI编程[1] - 儿童也能通过Lovable、Replit等工具参与开发,如制作《荒野乱斗》风格打字游戏[1] AI核心竞争力 - 成功运用AI的关键能力是清晰定义目标愿景、精准阐释执行标准,而非依赖提示词技巧或情感诱导[9] - 需持续提供上下文和修正指令,避免AI因模糊输入产生偏离预期的结果[9] - 行业现状显示多数用户倾向于输入模糊指令,导致输出质量低下,类比实验中的"糖浆炸弹"失败品[6][9]
你真的会用DeepSeek么?
搜狐财经· 2025-05-07 04:04
AI Agent行业趋势 - AI行业正从单一模型应用转向多Agent协作网络,形成"AI互联网"新范式 [7][8][27] - 2025年起行业需求从"驱动单个模型"升级为"设计智能体协作系统",从业者角色需从使用者转变为组织者 [21][27][29] - 字节跳动、阿里、腾讯等国内平台加速布局MCP协议基础设施,海外谷歌A2A协议与Anthropic MCP协议推动跨系统协同标准 [36][37][38][39] 技术架构变革 - Agent通信依赖结构化协议(MCP/A2A)而非自然语言Prompt,意图表达、任务链图谱取代传统Prompt工程 [14][27][29] - 平台化趋势显著:阿里百炼5分钟搭建MCP服务,百度推MCP插件商店,OpenAgents支持自然语言发布Agent能力 [16][38] - 开源框架LangGraph、AutoGen、CrewAI等提供多Agent编排工具,支持状态机、DAG等协作建模 [33][35][41] 企业动态与产品 - 字节跳动2025年4月推出"扣子空间"内测平台并开源Agent TARS项目,支持任务规划与多工具调用 [16][39] - 阿里云百炼上线全生命周期MCP服务,集成高德、无影等50+能力模块,提供零部署Agent构建体验 [38] - 腾讯云发布"AI开发套件"聚焦企业级调度中台,火山引擎OS Agent整合MCP协议实现"一句话开发" [38][39] 从业者转型路径 - 工程岗需转向智能体系统开发:学习LangGraph状态机、MCP协议结构、平台接口设计,目标成为Agent基础设施构建者 [33] - 运营/产品岗需掌握业务需求拆解为多Agent意图的能力,熟练使用AutoGen Studio等平台进行协作设计 [34] - 创业者应聚焦生态构建:将工具服务注册为Agent节点,参与制定意图协议标准,搭建私域Agent网络 [35] 行业基础设施进展 - 海外A2A协议覆盖50+巨头企业,专注跨平台Agent通信标准,MCP协议则强化任务调度与状态传递 [36][37] - 国内形成平台+开源双轨发展:阿里/腾讯提供企业级MCP服务,LangGraph等框架降低多Agent系统构建门槛 [38][41] - 协议层创新类比TCP/IP,MCP/A2A可能成为未来智能体互联网的底层秩序 [42]
Manus创始人早说过:产品非常简单,没有秘密
36氪· 2025-03-07 09:37
文章核心观点 Manus作为号称“首款通用AI Agent”的产品引发关注,但实测表现与demo有差距,其技术价值存在争议,且面临高昂推理成本和证明造血能力等难题 [2][7][22][23] 分组1:Manus产品情况 - Manus是华人公司Monica.im的Agent产品,2025年3月5日深夜其demo视频发布,展示了简历筛选、房产列表筛选等能力,引发科技圈关注,但实测中无法正确理解自然语言指令,需多轮对话或提示词工程辅助 [2][3][7] - Manus团队在20小时内对服务器宕机情况在中文社交平台做出回应,闲鱼上其邀请码被炒至5万元 [5][6][7] 分组2:Monica.im公司发展 - 2023年Monica.im将目光投向海外和AI应用,推出AI浏览器插件“Monica”,实现1000万美金的ARR,净利润达3 - 400万美金 [9][10] - 2024年Monica.im用户量保持稳定增长,截至年底达1000万,较2023年底翻番,字节跳动曾企图收购被拒 [11] - 2025年团队将重心转移到中国市场,Monica中文版搭载DeepSeek开启内测,但水花不大 [11][12][14] - Manus项目发轫于2024年7月,50人团队用3个月做出,目前成了团队离复刻Monica最近的一步 [14][15][16] 分组3:Manus技术架构及价值争议 - Manus接入Claude和阿里通义模型并后训练,运行本质是多个内置Agent配合操作虚拟机,技术模式不新颖 [20] - 有人认为Manus技术价值和壁垒不高,未来通用能力可能被大模型内化或面临竞争;也有人认为将多种技术垂直整合本身是技术壁垒,其反映了行业现状 [20][21][22] 分组4:Manus面临的问题 - Agent创业者面临高昂推理成本问题,Manus单任务运行成本约两美元,难以规模化运营 [23] - Manus团队需接住流量并证明Agent的造血能力 [24]