强化学习环境 - 财报，业绩电话会，研报，新闻

强化学习环境

搜索文档

36氪· 2025-09-17 05:11

核心观点 - Anthropic和OpenAI正开发能替代人类执行复杂工作的AI同事通过模拟企业软件训练模型使其像人类员工一样理解和操作真实工作流程 [1] - 该训练方法采用模拟办公沉浸式教学聘请各行业专家担任职业导师手把手教授模型软件操作技巧 [2] - 训练成本高昂 Anthropic计划明年投入10亿美元建设AI训练健身房 OpenAI预计今年数据相关支出达10亿美元 2030年将增至80亿美元 [2] - 专家时薪持续上涨目前20%专家时薪超90美元 10%突破120美元预计18个月内顶级专家时薪将达150-250美元 [3] - 成功后将突破传统训练技术瓶颈可能开辟销售AI智能体或开发更强大企业级应用等新商业模式 [3] 训练方法 - 采用强化学习环境模拟真实办公场景将复杂任务拆分为多个简单步骤并验证完成正确性 [6][7][8] - 以销售任务为例考核标准包括按最后联系时间筛选客户数据库发送包含Calendly会议链接的邮件将潜在客户状态更新为重新接洽等 [7][8] - 通过人类专家示范生成正确案例筛选模型计算结果与人类一致的案例进行集中训练快速低成本生成大量训练样本 [11] 基础设施投入 - Anthropic目前将不到10%的后训练预算用于强化学习环境但由于初期效果显著明年将大幅提高投入 [8] - 图灵公司已建成超1000个强化学习模拟环境覆盖从Airbnb到Excel等各类应用场景每个模拟环境配备100-500个定制任务示例 [9] - Scale、Surge、Mercor和Invisible Technologies等竞争对手纷纷推出类似服务配备行业专家设计训练任务 [9] 行业影响 - OpenAI高管预测整个经济体未来可能变成巨大的强化学习机器 AI通过记录各领域专业人士日常工作来学习训练 [12] - AI开发商持续用精心筛选的高难度问答训练模型如顶级编程竞赛题或博士水平生物学问题用于强化学习特定领域新技能 [9] - 数据标注公司招聘标准升级从硕博在读生转变为拥有多年经验的职场精英包括NASA数据科学家、能源部化学家、放射科医师等 [11]

速递｜OpenAI和Anthropic的新战场：训练AI操作企业软件，成本年飙80亿美元

Z Potentials· 2025-09-17 03:34

AI模型企业应用训练 - Anthropic和OpenAI等公司正在训练大型语言模型学习使用Salesforce、Zendesk、Cerner等企业级软件工具，以处理白领工作者的复杂任务[1][2] - 训练方法采用模拟应用程序环境（强化学习环境）和领域专家示范操作，与传统AI训练模式存在显著差异[2] 资金投入与成本结构 - Anthropic计划未来一年投资10亿美元创建企业应用克隆体（强化学习环境）[2] - OpenAI预计2030年数据相关成本（含人类专家费用和训练场建设）将达80亿美元，较2024年的10亿美元增长700%[3] - 人类专家时薪持续攀升：Labelbox公司约20%专家时薪超90美元，近10%超120美元，预计未来18个月将涨至150-250美元[6][7] 技术实施与验证方法 - 图灵公司将任务分解为多步骤并制定评估标准，例如验证AI是否按日期筛选数据库、发送带Calendly链接的邮件、更新客户状态等[4][6] - 通过让AI模型重复执行任务（如DCF分析数十次），筛选与人类专家结果一致的案例用于训练[9] 商业化应用前景 - 成功训练后可销售能自动操作企业应用的"虚拟协作者"智能体，或开发新版企业软件，开辟新盈利渠道[3][5] - 强化学习环境市场规模扩大：图灵公司已构建1000多个模拟环境（含Airbnb、Excel等），Scale、Surge等竞争对手纷纷进入该领域[8] 行业资源与人才需求 - AI公司聘请NASA数据科学家、能源部化学家、放射科医师等高端专业人士示范任务，取代早期硕士/博士学生[9] - OpenAI高管预测"整个经济"可能演变为强化学习训练场，通过记录各领域专业人士日常工作方式训练AI[10] 当前进展与规划 - Anthropic目前将不到10%的训练后优化预算用于强化学习环境，但若趋势持续，明年该比例将显著提升[6] - 除企业软件外，AI开发者持续训练模型处理高难度编程竞赛题、博士级生物学问题等精选难题[9]

强化学习

Artificial Intelligence

Artificial Intelligence