强化学习环境

搜索文档
AI革命下一站:Anthropic与OpenAI斥巨资打造“虚拟员工”
36氪· 2025-09-17 05:11
核心观点 - Anthropic和OpenAI正开发能替代人类执行复杂工作的AI同事 通过模拟企业软件训练模型 使其像人类员工一样理解和操作真实工作流程 [1] - 该训练方法采用模拟办公沉浸式教学 聘请各行业专家担任职业导师 手把手教授模型软件操作技巧 [2] - 训练成本高昂 Anthropic计划明年投入10亿美元建设AI训练健身房 OpenAI预计今年数据相关支出达10亿美元 2030年将增至80亿美元 [2] - 专家时薪持续上涨 目前20%专家时薪超90美元 10%突破120美元 预计18个月内顶级专家时薪将达150-250美元 [3] - 成功后将突破传统训练技术瓶颈 可能开辟销售AI智能体或开发更强大企业级应用等新商业模式 [3] 训练方法 - 采用强化学习环境模拟真实办公场景 将复杂任务拆分为多个简单步骤并验证完成正确性 [6][7][8] - 以销售任务为例 考核标准包括按最后联系时间筛选客户数据库 发送包含Calendly会议链接的邮件 将潜在客户状态更新为重新接洽等 [7][8] - 通过人类专家示范生成正确案例 筛选模型计算结果与人类一致的案例进行集中训练 快速低成本生成大量训练样本 [11] 基础设施投入 - Anthropic目前将不到10%的后训练预算用于强化学习环境 但由于初期效果显著 明年将大幅提高投入 [8] - 图灵公司已建成超1000个强化学习模拟环境 覆盖从Airbnb到Excel等各类应用场景 每个模拟环境配备100-500个定制任务示例 [9] - Scale、Surge、Mercor和Invisible Technologies等竞争对手纷纷推出类似服务 配备行业专家设计训练任务 [9] 行业影响 - OpenAI高管预测整个经济体未来可能变成巨大的强化学习机器 AI通过记录各领域专业人士日常工作来学习训练 [12] - AI开发商持续用精心筛选的高难度问答训练模型 如顶级编程竞赛题或博士水平生物学问题 用于强化学习特定领域新技能 [9] - 数据标注公司招聘标准升级 从硕博在读生转变为拥有多年经验的职场精英 包括NASA数据科学家、能源部化学家、放射科医师等 [11]
速递|OpenAI和Anthropic的新战场:训练AI操作企业软件,成本年飙80亿美元
Z Potentials· 2025-09-17 03:34
AI模型企业应用训练 - Anthropic和OpenAI等公司正在训练大型语言模型学习使用Salesforce、Zendesk、Cerner等企业级软件工具,以处理白领工作者的复杂任务[1][2] - 训练方法采用模拟应用程序环境(强化学习环境)和领域专家示范操作,与传统AI训练模式存在显著差异[2] 资金投入与成本结构 - Anthropic计划未来一年投资10亿美元创建企业应用克隆体(强化学习环境)[2] - OpenAI预计2030年数据相关成本(含人类专家费用和训练场建设)将达80亿美元,较2024年的10亿美元增长700%[3] - 人类专家时薪持续攀升:Labelbox公司约20%专家时薪超90美元,近10%超120美元,预计未来18个月将涨至150-250美元[6][7] 技术实施与验证方法 - 图灵公司将任务分解为多步骤并制定评估标准,例如验证AI是否按日期筛选数据库、发送带Calendly链接的邮件、更新客户状态等[4][6] - 通过让AI模型重复执行任务(如DCF分析数十次),筛选与人类专家结果一致的案例用于训练[9] 商业化应用前景 - 成功训练后可销售能自动操作企业应用的"虚拟协作者"智能体,或开发新版企业软件,开辟新盈利渠道[3][5] - 强化学习环境市场规模扩大:图灵公司已构建1000多个模拟环境(含Airbnb、Excel等),Scale、Surge等竞争对手纷纷进入该领域[8] 行业资源与人才需求 - AI公司聘请NASA数据科学家、能源部化学家、放射科医师等高端专业人士示范任务,取代早期硕士/博士学生[9] - OpenAI高管预测"整个经济"可能演变为强化学习训练场,通过记录各领域专业人士日常工作方式训练AI[10] 当前进展与规划 - Anthropic目前将不到10%的训练后优化预算用于强化学习环境,但若趋势持续,明年该比例将显著提升[6] - 除企业软件外,AI开发者持续训练模型处理高难度编程竞赛题、博士级生物学问题等精选难题[9]