强化学习

搜索文档
OpenAI:GPT-5就是All in One,集成各种产品
量子位· 2025-05-17 03:50
GPT-5整合计划 - 下一代基础模型GPT-5计划整合Codex、Operator、Deep Research和Memory等工具,减少模型切换 [2][11] - 核心目标是提升现有模型能力,使其成为多功能助手而非仅提供建议 [10] Codex项目发展 - Codex最初是工程师的业余项目,因内部工作流未充分利用模型而启动 [5] - 内部使用Codex后编程效率提升约3倍,代码和功能交付量显著增加 [5][17] - 团队探索按需付费等灵活定价方案,未来可能推出o3-pro或codex-1-pro版本 [5] 技术实现细节 - Codex CLI工具采用TypeScript编写,因开发者熟悉且适合UI开发,未来将支持多语言扩展 [8] - 云端运行Agent可实现并行化和沙盒化,保障代码安全执行 [9] - 模型利用容器运行时加载的GitHub仓库等静态信息,未来可能结合RAG技术动态引用外部知识库 [15] 效率提升与行业影响 - Codex通过生成多版本代码并筛选最优解,改变传统"氛围编码"范式 [10] - 与良好软件工程实践结合后,开发效率提升显著,测试流程和代码结构优化成为关键 [17] - 未来10年愿景是实现软件需求到可运行版本的高效可靠转化 [18] 开发者生态策略 - Codex定位为辅助工具而非替代品,帮助初级开发者降低学习门槛 [19] - 计划面向Plus/Pro用户推出免费API积分以推广Codex CLI使用 [20] - 官方发布《Codex上手指南》,涵盖GitHub连接、任务提交及提示词技巧等实操内容 [24][25] 技术研究方法 - 采用强化学习提升模型编码能力、代码风格及报告准确性 [15][16] - 团队对强化学习在LLM和编码领域的应用前景持乐观态度 [16]
OpenAI首席科学家帕乔茨基:AI已开始具备原创性研究能力
36氪· 2025-05-16 10:14
AI技术发展现状与趋势 - 强化学习显著推动AI模型推理能力提升 赋予模型自主探索多样化思维路径的能力[3] - 预训练模型已掌握大量世界知识 但缺乏对自身学习过程的认知能力[3] - 证据显示AI模型能够生成新见解并具备某种形式的推理能力 尽管与人类逻辑推理方式存在差异[3] AI应用前景与突破 - AI助手角色将发生根本性改善 从需要持续指导转向更自主运作[2] - Deep Research类工具已在无人监督情况下运行10到20分钟并产出有价值内容 且计算资源消耗很少[2] - 未来AI将具备原创科学研究能力 在自动软件工程和硬件组件自主设计等领域取得重大进展[2] - 预计今年AI将能几乎自主开发有价值软件 虽暂无法解决重大科学难题但已接近该目标[6] AGI发展进程 - AGI正从理论走向现实 技术进展速度远超预期[1][6] - 图灵测试取得显著突破 数学和问题解决等核心能力持续进步[6] - 下一个重大里程碑是AI产生实际可衡量的经济影响 特别是原创研究能力[6] - 预计在本十年结束前在原创研究能力方面取得重大突破[6] 开源与安全平衡 - 开源模型对研究人员非常重要 需要理解其社会影响[4] - 发布具备开源权重的前沿模型面临安全风险挑战[4] - 公司目标是推出性能优于现有开源模型的版本 在保证安全性前提下推动研究生态发展[4]
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 04:39
核心观点 - 大模型(LLMs)的快速发展和工具集成爆炸式增长使AI智能助手功能大幅扩展,但工具多样化和复杂化导致意图识别面临新挑战,尤其是模型在新意图上的性能衰减问题 [1] - 腾讯PCG社交线研究团队采用强化学习(RL)结合分组相对策略优化(GRPO)算法和基于奖励的课程采样(RCS),显著提升模型在未知意图上的泛化能力 [2] - 该方法在跨语言、意图拆分/合并等实际场景中表现优于传统监督微调(SFT),推动大模型意图识别技术突破 [4][17] 技术方法 GRPO算法创新 - 通过强化学习训练的模型在未见意图识别准确率上比SFT平均提升7.5%(TODAssistant数据集从41.6%至89.1%)[17][18] - 引入"思考"(Thought)机制使MultiWOZ2.2数据集准确率从76.1%提升至93.3% [20][21] - 格式奖励($R_{format}$)和准确率奖励($R_{answer}$)双维度约束模型输出 [7][9][10] 基于奖励的课程采样 - 两阶段训练:第一阶段全数据训练至收敛,第二阶段筛选30%难样例专注训练 [11][12] - 难样例单独训练效果最佳,在MultiWOZ2.2数据集使准确率从93.3%提升至96.0% [19][20] - 离线难度评分公式:$Score_i = \sum(\lambda_{format}·R_{format}^{i,j} + \lambda_{answer}·R_{answer}^{i,j})$ [11] 实验验证 数据集与基准 - 使用TODAssistant(中文)和MultiWOZ2.2(英文)数据集,基座模型为Qwen2.5-7B-Instruct [16] - GRPO在跨语言测试中,英文训练后中文识别准确率达65.2%,远超SFT的14.8% [17][18] 关键结果 - 在MultiWOZ2.2的5类场景中,GRPO对缺失类别的平均识别准确率(91.8%)比SFT(76.9%)高14.9个百分点 [17] - Pretrain与Instruct模型经GRPO训练后性能差异小于1.5%,打破传统认知 [21][22] - RCS使酒店场景识别准确率从94.6%提升至96.4% [19][20] 应用前景 - 当前方案支持单意图场景,未来将扩展至多意图识别 [25] - 计划从意图识别延伸至更复杂的任务型对话系统 [26] - 拟开发在线数据筛选方法替代现有离线模式 [24]
机器人系列报告之二十七:控制器提供具身智能基座,数据飞轮驱动模型迭代
申万宏源证券· 2025-05-15 15:20
报告行业投资评级 - 看好 [3] 报告的核心观点 - 目前人形机器人硬件成熟度高于软件,软件是走向商业化的关键,研究相对空白 [3][5] - 算法是具身智能的核心,数据是算法学习的基础,控制系统是具身智能的基座 [3][5] - 软件是机器人下一步商业化落地的投入重心,相关产业链标的值得关注 [3][4] 根据相关目录分别进行总结 算法:具身智能的核心 - 算法框架分为上层“大脑”与下层“小脑”两大层级,上层聚焦任务级规划与决策,下层负责实时运动规划与关节控制 [3] - 下层控制算法从传统向现代算法渗透,未来需解决多模态集成等瓶颈 [3] - 上层控制重点讨论VLA架构,其具备端到端和泛化等特点,在自动驾驶场景广泛应用,但面临数据稀缺等挑战 [36][40][71] 数据:算法学习的基础 - 数据来源分为真实数据、合成数据及网络数据,真实数据是主要来源,合成数据可解决数据短缺问题 [3] - 真实数据采集方式包括遥操作、动作捕捉技术等,合成数据通过仿真平台生成 [3] 控制系统:具身智能的基座 - 产业界对人形机器人“大小脑”未形成统一共识,通常人为区分,大脑负责复杂任务,小脑负责运动控制 [110] - 硬件主要由SoC芯片构成,软件部分包括底层操作系统、中间件和上层软件,芯片是核心,多数公司采用英伟达方案 [3] - 未来产业格局走势有望类比于自动驾驶,出现产业分工趋势 [5] 结论和风险 - 相关产业链标的包括控制器环节、运控技术同源、芯片、数据采集装备等企业 [3][4]
锦秋基金臧天宇:2025年AI创投趋势
锦秋集· 2025-05-14 10:02
国内AI投资趋势观察 - 近60%的投资项目分布在应用层 得益于模型智能提升和调用成本下降 应用层迎来显著爆发期 [6] - 底层算力占比超10% 作为AI"能源"是推动模型训练和推理的基础要素 [6] - 具身智能(Physical AI)占比超10% 成为中美共同关注的热点领域 [6] - 2023年投资集中于大语言模型(LLM) 2024-2025年重心转向应用层 [6] 应用层投资细分方向 - Agent方向占比近40% 包括Coding Agent和Vertical Agent(营销/客服/法律/金融等) [8] - 创意工具占比20% 涵盖图像/视频/个性化商品等生成式AI应用 [8] - 内容与情绪消费占比20% 衍生出对话+剧情/游戏化等新内容形态 [8] 算力与具身智能布局 - 算力层关注存算一体/光计算等新架构 以提升推理效能 [9][23] - 具身智能重点投资软硬一体机器人产品 及上游关节/数据服务 [9] 中间层/工具链投资 - 大语言模型安全领域布局 防范提示词注入等新型风险 [10] - 强化学习基础设施投资 支持Vertical Agent持续优化 [10] AI投资核心变量 - 智能提升维度: 从预训练Scaling Law转向后训练优化 进入Test Time Scaling阶段 [14] - 成本下降维度: Token价格从5元/万Token降至0.8元/百万Token 降幅达10倍 [19][20] - 两大趋势叠加催生应用层机会 类比互联网/移动互联网变革 [26][27] 应用层机会框架 - 信息/内容/服务供给极大丰富: 编辑成本趋零/创作成本下降/新内容模态涌现 [30][31][32] - 分发模式进化: 从精准推荐到主动式服务 基于更细粒度用户建模 [34][36] Physical AI发展 - 通用机器人是终极目标 需解决真实数据获取与软硬件协同优化 [39][40] - 模型层进展显著: pi0.5模型验证数据重要性 DYNA-1实现单任务真机部署 [38]
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 08:09
研究背景与动机 - 视觉生成领域RLHF方案成熟度显著低于LLM领域,现有主流方案存在效果微弱或显存压力大的问题[4][5] - 当前强化学习优化生成模型的探索存在数据集小(<100 prompts)、仅支持文生图等局限性[5] - GRPO算法因R1工作成为2025年热门技术方向,促使团队在图像生成领域进行创新探索[2] 技术方案创新 - 首创DanceGRPO框架,实现单一强化学习算法覆盖两大生成范式(diffusion/rectified flow)、三项任务(文生图/文生视频/图生视频)[2][8] - 支持四种基础模型(SD/HunyuanVideo/FLUX/SkyReels-I2V)和五类奖励模型(美学/对齐/动态质量等)[2][10] - 采用GRPO策略优化但去除KL散度正则项,通过相同prompt噪声初始化防止reward hacking[9] 核心实验发现 - 训练策略:采样子集timesteps加速训练,多reward模型叠加时采用多advantage叠加方式[9] - 性能影响:强化学习会削弱生成多样性,训练时应避免开启cfg或限制单prompt梯度更新次数[9] - 视频任务:i2v任务需专注motion quality奖励,使用视觉美感奖励易导致模型发散[14] 实验结果数据 - HunyuanVideo训练后VQ指标提升45%(4.51→6.52),MQ指标激增181%(1.37→3.85)[12] - FLUX模型在HPS-v2.1&CLIP Score组合下GenEval得分达0.705,较基线提升7%[12] - Stable Diffusion结合双奖励模型时CLIP Score提升8.8%(0.363→0.395)[12] 技术实现细节 - 通过建模diffusion/rectified flow为stochastic interpolant实现SDE采样方程统一[9] - 创新提出二元奖励模型(阈值化处理美感&图文匹配结果)作为第五类评估维度[10] - 可视化验证显示FLUX训练过程中ODE solver能保持稳定输出[15]
自研算法是否将成为主机厂的必选项?——第三方算法厂商的“护城河”探讨
2025-05-13 15:19
纪要涉及的行业和公司 - **行业**:自动驾驶行业 - **公司**:华为、小鹏、理想、文远知行、小米、吉利、长安、长城、比亚迪、上汽、一汽、蒙塔、大疆、元戎启行、地平线、蔚来、德赛、智行科技、蘑菇车联、轻舟智航、小马智行、百度、博世、奇瑞新纪元 纪要提到的核心观点和论据 1. **主机厂自研算法难点**:技术能力上传统主机厂弱于新势力及头部第三方,与领军人物水平有关且多为集成适配而非自研;开发周期上新势力及头部第三方迭代快,传统主机厂慢;资金投入大,如头部企业人均薪酬超 50 万元,算力储备和租赁年投入数亿元;数据闭环能力方面,传统车企智能化渗透率低,数据积累不如新势力和第三方 [3] 2. **主机厂自研芯片难点**:技术能力上传统主机厂在车端芯片核心架构 IP 选择和自研能力建设等领域落后;开发周期上传统主机厂开发模式僵化,与新势力及第三方比有劣势;资金支持上自研芯片流片成本超 1.5 亿元,持续研发投入大;芯片与算法协同优化方面,传统车企算法方向不明,优化难度高 [4] 3. **主流主机厂梯队排名**:第一梯队华为、小鹏、理想、文远知行全栈自研且量产,有自研芯片计划;第二梯队小米、吉利、长安、长城、比亚迪自研加第三方联合开发,未来计划用自研替代第三方;第三梯队上汽、一汽及外资合资品牌完全依赖第三方 [5] 4. **中间梯队发展可能**:既有机会向上发展,需提升研发实力、加大资金投入、缩短开发周期、引入先进技术合作伙伴;也可能向下滑落,若不能应对挑战会依赖外部供应商失去竞争优势 [6] 5. **企业自研芯片条件**:能开发中等算力芯片,如 200 多 TOPS 或 80 多 TOPS;满足数据、算力和算法三要素,数据上需有量产乘用车数据闭环能力,累计销量超 100 万且含相关域控制器功能数据量,通常达 600 万以上,算力最低 3 亿 FLOPS,算法需有懂业务且具前端思考能力的领军人物和支持快速迭代开发的组织结构 [7] 6. **IP 收费模式**:包括一次性支付的授权费和年度维护费,还按芯片销量收取版税,如 BPU IP 授权费约 3000 万元,年维护费约 200 万元,版税按 5%比例提成 [8][9] 7. **第一二梯队算法厂商能力差异**:数据迭代速度与效率上第一梯队快于第二梯队;算法架构预判能力上第一梯队在端到端架构表现突出;工程量产能力上第一梯队保证车型一致性和适配新车型速度优于第二梯队 [12][13] 8. **数据稀缺性及影响**:数据稀缺性重要,地平线虽通过数百台车路测部署端到端能力,但因比亚迪和理想未开放数据反补渠道,数据获取有限,限制其优化和扩展潜力 [14] 9. **端到端技术路线**:业内共识向一段式发展,但有 VRAK 路线和纯端到端路线分歧,除特斯拉外大多采用两段式,传统主机厂有必要做规则算法,要追赶一梯队效果需投入端到端模型 [16] 10. **算法迁移难度**:跨平台迁移难度中等,需重构部分模型并适配工具链;同品类产品间算法迁移可能性高,可复用大量代码;从大算力平台向低算力平台迁移难度高 [17][18][19] 11. **工信部新规影响**:对头部智能驾驶企业影响不大,理想等一梯队企业数据积累丰富,迭代有优势,新规可能拉开二梯队差距,比拼车数量和内部测试、迭代发版投入成本 [20][21] 12. **解决 corner case 数据量少问题**:微调少量关键 corner case 数据在强化学习环境中学习,提高泛化能力,行业内强化学习刚起步,完善需时间 [22] 13. **端到端版本迭代周期**:工信部标准出台前一个月迭代两次并上车两个版本,新规出台后如比亚迪每月发版一次 [23] 14. **声称可做算法的公司类型**:车企自研、域控厂商(自家域控盒子)、传统第三方纯软件商(算法厂商) [24] 15. **主机厂和域控厂商分工**:主机厂分完全自研、尝试自研但集中低端方案、完全依赖第三方三类;域控供应商提供基于与芯片厂商合作的感知算法;纯软件算法供应商大多自主研发 [25][26] 16. **国内公司世界模型和强化学习表现**:世界模型方面国内无公司达特斯拉水平,理想、Momenta、华为、小鹏大致相同;强化学习方面 Momenta、大疆(卓玉)、小马智行表现不错;L4 级自动驾驶公司部分进入 L2 级市场 [26] 17. **自动驾驶算法供应商收费模式**:一般为一次性开发费加根据销量收取 license 费或仅收取 license 费,目前多数两种费用都收,主机厂渐倾向只付 license 费;城市 NOA 每辆车 license 费 2000 元以上,高者 3000 元左右,高速 NOA 每辆车约 600 - 800 元 [27] 18. **国内公司世界模型能力评价**:总体差异不大,以特斯拉 100 分标准,理想、文远知行、华为等在 60 - 70 分之间,评估看云端模型泛化能力及对车端表现影响 [28] 19. **世界模型及强化学习发展方向**:预计两年内取得显著成果,技术格局稳定后主机厂持续投入研发有机会追赶领先者,长期看自研能力强的主机厂能跟上或反超 [29] 20. **自动驾驶技术发展趋势**:未来两年经历优胜劣汰,竞争者包括世界模型和强化学习领先企业及部分主机厂,预计最终两家主机厂、五家以内供应商保持竞争力,技术路线进入新迭代阶段 [29] 21. **端到端大模型发展前景**:目前基于 2019 年 Transformer 架构,若 2026 年后出现更优新型基座模型如 Disformer 技术路线演进,否则传统架构两到三年迭代后达边际效益低点,主机厂有跟随新型架构创新和追赶现有方向上限两个机会 [30][31] 22. **学术界自动驾驶技术探讨方向**:利用强化学习生成模型并通过合成数据训练;探索新架构如 Mamba 架构;补充世界模型通过生成式 AI 更新 [32] 其他重要但可能被忽略的内容 - 蒙塔自研芯片为中算力约 270 TOPS,对标 Dow X,实现城市微循环点对点功能,NPU 自研,2025 年流片完成,预计 2026 年第一或二季度量产上车,已有具体客户合作 [10] - 地平线通过数百辆车跑半年时间收集通用数据训练可开发端到端系统,但效果不如 Momenta、华荣和华为等用专门采集车辆收集精华数据的公司 [15] - 数据收集需经许可,通过收集触发信息即关键案例数据进行迭代获取相关数据 [16]
特斯拉发布人形机器人擎天柱“跳舞”视频
快讯· 2025-05-13 10:53
核心事件 - 特斯拉官方发布人形机器人擎天柱跳舞视频 [1] - 公司通过优化仿真到现实训练代码实现机器人动作训练 [1] - 机器人采用强化学习方式完成行为训练 [1] 技术进展 - 人形机器人擎天柱展示复杂肢体协调能力 [1] - 仿真到现实训练代码优化提升机器人动作学习效率 [1] - 强化学习技术应用于机器人行为训练过程 [1] 产品动态 - 特斯拉通过官方微博渠道发布机器人演示视频 [1] - 人形机器人Optimus展示非结构化环境下的运动能力 [1] - 公司持续更新人形机器人项目进展 [1]
文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
量子位· 2025-05-13 04:45
技术突破 - 港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1 实现"先推理后生成"的双层级CoT框架 [2][8][27] - 提出Semantic-level CoT负责图像全局结构规划 Token-level CoT专注底层视觉细节生成 解决跨模态对齐与细粒度生成难题 [10][12][16] - 创新BiCoT-GRPO强化学习方法 在单一RL步骤中协同优化语义规划与像素生成 相比分阶段训练效率更高且计算成本更低 [8][21][23] 性能表现 - T2I-R1在T2I-CompBench和WISE基准测试中分别比基线模型提升13%和19%性能 在多个子任务超越FLUX.1等先进模型 [33] - 具体指标显示:颜色绑定能力达0.8130 形状绑定0.5852 纹理绑定0.7243 空间关系0.3378 综合复杂任务处理能力0.3993 [34] - 模型通过语义推理准确理解用户意图 例如将"阿姆斯特丹所在国家栽培的花"正确推理为郁金香并生成对应图像 [15][29][31] 行业意义 - 该技术突破证明CoT推理在图像生成领域的有效性 为多模态生成任务提供新范式 可拓展至视频生成与3D内容合成 [36] - 采用多视觉专家模型集成作为奖励机制 既保障多维度质量评估 又防止模型过拟合单一奖励标准 [25][32] - 首次实现无需额外模型的端到端推理生成架构 显著降低部署复杂度 为通用智能体发展提供技术路径 [9][18][36]
最先进的AI大模型,为什么都在挑战《宝可梦》?
虎嗅· 2025-05-12 06:57
AI在游戏领域的应用进展 - 游戏作为AI的天然试验场,从AlphaGo到Gemini 2.5 Pro,科技公司持续通过AI通关游戏展示技术突破[2][3][4] - 2023年英伟达开发出能玩《我的世界》的VOYAGER,2025年谷歌Gemini因独立通关初代《宝可梦》引发关注[2][4] - 莫拉维克悖论指出:对人类简单的任务(如游戏通关)对AI反而更困难,这凸显了AI在感知和行动力上的挑战[6][7] 技术实现差异 - 早期AI(如AlphaGo)采用强化学习,依赖预设规则和奖励函数[15] - 大语言模型(如Claude、Gemini)直接操作游戏,需从画面中自主理解规则,类似人类新手学习过程[16][17] - Claude 3.7通关失败(仅获3枚徽章),耗时1年迭代,早期版本甚至无法走出初始城镇[11][12] AI决策能力展示 - Claude能理解属性克制系统并调整策略,如电系技能对岩石系"效果一般"的快速应用[19] - AI决策过程透明化:Claude同步显示思考步骤(如选择技能"翅膀攻击"的分析)[22][23] - 拟人化行为:迷路时主动选择战败回城,或误认NPC后修正[26][28][29] 行业技术演进方向 - Gemini操作步数(10.6万次)比Claude(21.5万次)少50%,但测试条件不同,差异源于代理执行框架优化[30][33][35] - 目标从单一游戏专精(围棋)转向通用能力:感知环境、模糊目标理解和长线规划[37][38] - 《宝可梦》等游戏被选为训练载体,因其模拟现实世界的规则学习和复杂问题解决潜力[39]