Workflow
Era of Experience
icon
搜索文档
RL Infra 行业全景:环境和 RLaaS 如何加速 RL 的 GPT-3 时刻
海外独角兽· 2025-09-24 05:02
作者:Cage RL Scaling 正在把 AI 从"人类数据时代"推向"Agent 体验时代",带来真正能够胜任复杂、长链条任务 的 Agent 新范式。从静态数据到动态交互的学习范式变化,亟需一套全新的基础设施,也因此新的 一批创业公司应运而生。RL Infra 的核心价值是弥合模拟训练与真实世界间的"sim-to-real"鸿沟,让 AI Agent 在部署前就能经历超人类强度的"压力测试"和"刻意练习",使其从实验室 demo 走向商业可 用。 我们对于 RL Infra 的行业图景梳理了三大模块: RL 环境、RLaaS、数据/评估 。版图的一端是致力 于将真实工作流"高保真化"的环境平台,另一端是为企业特定工作流深度优化的 RLaaS 解决方案, 而数据与评估则作为关键桥梁贯穿其中。两种主流路径也代表了不同的商业野心: "横向平台化"的 RL 环境,其目标是成为 AI 时代软件世界的"Unreal Engine";而"纵向一体化"的 RLaaS,则有望在特 定行业内,成为赢家通吃的"AI-native Palantir"。 随着新趋势的演进 , 我们将迎来 RL 的 GPT-3 时刻,把 RL ...
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
Founder Park· 2025-04-30 12:31
模型发布与能力升级 - OpenAI发布o3和o4-mini模型,o3具备最全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [8] - o4-mini专为高效推理优化,部分benchmark表现优于o3,但实际使用中思考时间更短 [8] - 模型首次实现将图像直接融入CoT中,能"看懂"图像并用图像思考,在多模态理解benchmarks中领先 [45] - o3在外部专家评估中比o1少犯20%重大错误,能意识到自身能力边界并拒绝无法解决的问题 [61] 技术路线与产品策略 - Agent产品分化出两类路线:OpenAI黑盒化端到端训练路线和Manus白盒化虚拟机模仿人类工作方式路线 [15] - OpenAI将Agent产品作为未来商业化收入占比的大头 [4] - OpenAI开源Codex CLI,具备多模态推理能力和本地代码环境集成特性,旨在普及竞争对手产品 [64][68] - OpenAI采用先训练mini reasoning版本再scale到full model的发布策略,与GPT系列先大后小的策略不同 [9] 能力测试与表现 - o3在YC官网信息收集任务中经过两次prompt后完成90+家公司信息整理,而Manus能一次性完成但速度较慢 [16][17] - 在Amazon销售数据分析任务中,o3比Manus给出更简洁专业的策略建议和可视化效果 [19][27][28] - o3能通过模糊图片识别出《绝命毒师》角色"炸鸡叔"Gus Fring [46][52] - 模型在数手指个数和判断时钟时间等视觉推理任务上仍存在系统性错误 [69][70][72] 定价与市场竞争 - o3定价为$10/Mtok输入和$40/Mtok输出,是旗舰模型中最贵的 [77][80] - o4-mini定价为o3的1/10,比Claude 3.7更便宜 [78][80] - Gemini 2.5 Pro和DeepSeek-V3等模型在性价比上更具优势 [80] - 行业认为所有一线模型定价可视为在同一水平竞争,Gemini和OpenAI相对便宜 [77][79] 技术发展与未来方向 - OpenAI发现RL Scaling呈现"more compute = better performance"规律,o3投入算力比o1高一个数量级 [81][82] - 强化学习教父提出Era of Experience概念,认为agent需从experience中学习达到superhuman水平 [85][86] - 未来agent可能发展出非人类思维方式的推理,如符号化、分布式或可微分计算 [89] - 构建"world model"预测动作对环境的影响将成为重要发展方向 [89]