Workflow
Reinforcement Learning (RL)
icon
搜索文档
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
具身智能之心· 2025-12-20 16:03
论文链接: https://arxiv.org/pdf/2512.10949 代码链接: https://github.com/Ivan-Tang-3D/3DGen-R1 强化学习是否能够用于Text-to-3D生成,以加强3D自回归模型的逐步推理与生成过程? 点击下方 卡片 ,关注" 具身智能之心 "公众号 编辑丨 量子位 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在大语言模型和文生图领域,强化学习 (RL) 已成为提升模型思维链与生成质量的关键方法。 但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会还管用吗? 近期,一项由 西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作 开展 的研究系统性探索了这一重要问 题。 在LLM推理和2D文生图中,RL已经证明可以显著提升CoT推理能力和生成质量。但 3D物体更长、更稠密、更具几何约束 。 因此相关方向研究常面临这几个问题: 1. 奖励如何同时刻画语义对齐、几何一致性和视觉质量? 2. 现有RL算法是否适合自回归式 ...
准确率腰斩,大模型视觉能力一出日常生活就「失灵」
36氪· 2025-12-09 06:59
研究核心观点 - 研究团队提出了首个跨领域第一人称视频问答基准EgoCross,旨在评估多模态大语言模型在手术、工业、极限运动及动物视角等专业场景下的泛化能力,揭示了现有模型在这些领域存在显著性能瓶颈[1][3][9] 基准数据集构建 - EgoCross基准覆盖手术、工业、极限运动、动物视角四个高价值专业领域,包含957个高质量问答对[3][9] - 数据集为每个问答对同时提供开放式和选择式两种评测格式,并设计了识别、定位、预测、计数四类共15种细粒度任务[9][12] 模型评估结果 - 团队全面测试了8款主流MLLM,包括GPT-4.1、Gemini 2.5 Pro等闭源模型及Qwen2.5-VL、VideoLLaMA3等开源模型[4][9] - 实验显示,即使在表现最好的模型中,跨域场景下的选择式问答准确率也低于55%,开放式问答准确率低于35%,远低于日常场景73.58%的准确率[9][13] - 工业和极限运动领域对模型挑战最大,动物视角相对容易;预测类任务比基础识别任务性能下降更严重[13] 性能改进方法 - 研究尝试了提示学习、监督微调和强化学习三种改进方法,其中强化学习带来的性能提升最显著[4][10][15] - 以Qwen2.5-VL-7B为基座,强化学习方法在四个领域上平均带来约22个百分点的选择式问答准确率提升,在动物视角领域准确率从43.40%提升至75.47%[15][16] - 监督微调在工业领域使性能相对基线提升接近20个百分点[16]
地平线RAD:基于3DGS 大规模强化学习的端到端驾驶策略
自动驾驶之心· 2025-11-29 02:06
文章核心观点 - 提出首个基于3D高斯溅射技术构建传感器级仿真环境并用于端到端强化学习自动驾驶策略的方法RAD [1] - 该方法采用三阶段训练流程:感知预训练、模仿学习预训练、强化学习与模仿学习混合微调 [3][5] - 与纯模仿学习方法相比碰撞率降低3倍动态碰撞率从0.24降至0.08静态碰撞率从0.03降至0.009 [25][29] 技术方案架构 - 状态空间包含BEV编码器学习实例级鸟瞰图特征地图头学习静态元素代理头学习动态交通参与者图像编码器学习规划特征规划头使用Transformer解码器整合场景表示 [7] - 动作空间横向动作范围-7.5米至7.5米纵向动作范围0米至15米均离散化为61个动作间隔0.25米动作执行周期0.5秒 [8] - 策略优化结合PPO算法与模仿学习通过自行车模型计算车辆位置更新 [11][12] 奖励函数与辅助任务 - 奖励函数按横纵向解耦设计包含动态碰撞静态碰撞位置偏差朝向偏差四项主要奖励 [16][17] - 辅助任务针对减速加速左转右转行为设计利用GAE计算损失权重例如动态碰撞辅助损失鼓励前方碰撞时减速后方碰撞时加速 [20][22] - 整体优化目标包含PPO损失与四项辅助损失加权和 [19][23] 训练流程与数据 - 第一阶段使用2000小时真实驾驶数据预训练感知模块 [28] - 第二阶段使用里程计数据监督训练规划模块 [28] - 第三阶段选取4305个关键场景其中3968个训练337个测试使用3DGS重建环境进行强化学习微调 [10][28] - 训练中强化学习与模仿学习数据比例4:1时效果最优 [28] 实验效果与对比 - 在碰撞率位置偏差率等关键指标上显著优于VADGenADVADv2等基线方法例如碰撞率从VAD的0.335降至0.089 [25][29] - 奖励函数与辅助任务消融实验证实所有组件均有效动态碰撞奖励对降低碰撞率作用显著 [25][27] - 方法在动态环境处理上展现闭环训练优势相比开环模仿学习更能适应分布外场景 [28][29]
Ilya Sutskever 重磅3万字访谈:AI告别规模化时代,回归“研究时代”的本质
创业邦· 2025-11-27 03:51
AI行业发展阶段 - 行业将AI发展划分为两个阶段:2012-2020年为"研究时代",2020-2025年为"规模化时代",当前正重新回归拥有超级算力的"研究时代"[4][37][38][39][40] - 规模化时代由GPT-3的出现主导,行业形成通过堆叠更多数据和算力即可使智能涌现的线性思维共识[7][38] - 预训练数据的红利终将耗尽,数据是有限的,单纯将规模扩大100倍后,量变可能不再带来质变,行业突破将依赖于寻找比单纯预训练更高效的新学习"配方"[7][39][40] 当前AI模型的局限性 - 当前模型类似于练习了一万小时竞赛题的学生,虽能解题但缺乏真正的专家直觉与"特质因素",泛化能力远不如人类[4][10][25] - 模型在基准测试中表现出色,但在解决现实世界复杂问题时(如修复代码错误)可能陷入"修复一个错误、引入另一个错误"的死循环,显示出评估性能与实际经济影响的脱节[10][19][20][22] - 当前强化学习训练使模型过于迎合评估标准,却未赋予其真正的推理和自我修正能力,其学习覆盖呈S形曲线,与预训练的幂律关系不同[10][21][50] 未来AI发展方向 - 未来AI应借鉴人类进化赋予的高效"先验知识"和"价值函数",人类情绪系统本质上是一个高效的价值函数,是智能高效运作的基石而非理性对立面[13][33][34][35] - 构建类似人类的内部价值函数机制是关键,使AI能在行动前预判路径优劣,实现更高效的学习,而非仅预测下一个token[13][14][34] - 未来AI应具备持续学习能力,而非静态成品,人类通过持续学习适应新工作,而非依赖预训练式的通用人工智能[44][45][61][62] SSI的战略与超级智能路径 - SSI筹集了30亿美元,但拒绝参与商业"老鼠赛跑",不发布任何中间产品,将所有算力集中于直接构建安全的超级智能这一单一目标[4][14][15][54][56][57] - 公司认为市场竞争迫使企业在研究资源和工程落地间妥协,其战略是隔绝商业干扰,专注于研究,待准备就绪后再出现[4][14][15][57] - 公司计划构建的超级智能需具备"关怀有感知生命"的底层属性,这种基于同理心的对齐可能比僵硬的规则更具鲁棒性,因AI本身最终也将成为有感知的存在[4][15][70][71] AI的经济影响与未来生态 - 一旦AI突破持续学习瓶颈,经济将迎来爆发式增长,广泛部署将产生强大经济驱动力,AI将渗透到整个经济体系[18][64][66] - 未来AI市场不会被单一巨头垄断,竞争将导致高度专业化的生态,出现无数占据不同生态位的AI公司,如同生物进化[4][16][64] - 人类角色可能通过"神经连接"与AI实现部分融合,以在超级智能时代保持平衡,实现理解的整体性传输[16][75] 研究哲学与算力需求 - 伟大的研究源于对大脑机制的正确直觉,追求简洁、优雅与美感,丑陋在研究中没有立足之地[4][16] - 研究时代仍需一定量计算资源,但远非绝对必要使用史上最大算力,AlexNet使用2块GPU,Transformer论文实验未超过64块GPU,相当于今天约2块GPU[52][53] - SSI用于研究的计算量相对充足,因公司资金专注于研究而非推理或产品工程,且若进行不同范式的研究,未必需要绝对最大规模来证明其可行性[54][55]
Ilya两万字最新访谈:人类的情感并非累赘,而是 AI 缺失的“终极算法”
36氪· 2025-11-26 04:26
当前AI模型的局限性 - 模型在评估测试中得分极高,但在实际应用中常犯低级错误,例如修复代码Bug时会引入新Bug,显示出评估性能与现实世界性能的脱节 [18] - 这种脱节源于强化学习被过度优化用于“刷榜”,导致模型像只会做题的竞赛选手,缺乏真正的判断力和泛化能力 [4][19] - 模型更像一个练习了10,000小时的竞技编程选手,精通解题套路,但泛化能力远不如只练习100小时却拥有“灵性”的学生 [21][22] 人工智能发展的范式转移 - 2012年至2020年是人工智能的研究时代,而2020年至2025年则是扩展时代,其特征是遵循预训练的扩展配方进行大规模投入 [33] - 当前单纯扩大模型规模的边际效应递减,行业需要从“扩展时代”回归到“研究时代”,寻找新的数据配方和训练方法 [33][34] - 预训练数据的有限性意味着依赖现有扩展配方将面临瓶颈,未来进展将更依赖于研究突破而非单纯算力堆砌 [33] 人类智能的关键优势与AI的缺失 - 人类通过极少数据(如10小时学会开车)就能掌握复杂技能,其核心优势在于强大的内部“价值函数”,即直觉和情感 [5][6] - 价值函数使人类能在没有明确外部奖励时进行自我纠正,而当前AI缺乏这种内在、鲁棒的价值评估机制 [6][28] - 人类在语言、数学等新领域的学习能力表明,其高效学习并非完全依赖进化先验,而是拥有更根本的、优越的机器学习算法 [40][41] 超级智能的定义与实现路径 - 真正的超级智能被定义为一个拥有极高样本效率的“超级学习者”,能够像人类一样通过少量接触就掌握任何工作 [3][57] - 实现路径可能并非构建一个知晓一切的静态系统,而是部署能够进行“持续学习”并掌握经济中所有工作的智能体实例 [57][60] - 广泛部署此类持续学习智能体可能导致快速的经济增长,其影响将被强烈感受到,但具体时间线和形态难以预测 [17][62] 安全超级智能(SSI)的战略与行业影响 - 公司战略从倾向于“直通超级智能”的秘密研发,转变为倾向于逐步发布,以展示AI的强大力量,促使公众、政府和竞争对手真正重视安全问题 [7][52] - 逐步发布有助于形成“安全军备竞赛”的良性合作,前沿公司预计将在安全合作中扮演重要角色,例如OpenAI和Anthropic已迈出合作步伐 [52][65] - 公司的技术方法专注于解决可靠的泛化问题,目标是构建稳健对齐、能“关爱有感知生命”的AI,这被视为一种可能的技术趋同方向 [66][78] 未来研究的方向与挑战 - 未来研究的关键在于提升模型的泛化能力和样本效率,这比单纯扩展算力更为根本 [35][36] - 价值函数被认为能让强化学习更高效,是未来可能的重要研究方向,但其具体实现和与情感的关联仍是待解之谜 [29][31] - 研究时代需要回归对想法的探索,而非单纯执行现有配方,算力是工具但并非唯一瓶颈,想法的质量将重新成为关键 [45][49] 超级智能的长期影响与均衡 - 超级智能的广泛部署可能带来快速的经济增长,但也是一个不稳定的情况,其力量需要受到某种限制或协议约束 [62][68] - 长期均衡的一种可能解决方案是人与AI通过脑机接口等方式深度融合,使人能完全理解并参与AI的决策过程 [72] - 行业最终对齐战略可能趋同于构建“关爱有感知生命”的AI,随着AI能力增强,公司和政府的行为模式将发生巨大改变 [70][78]
Z Event|NeurIPS 2025 活动专场:RL x Agent ,给 AGI 的 2026 写下最后预言
Z Potentials· 2025-11-25 03:28
行业技术趋势 - 大模型能力正从文本生成向“能做事”的决策执行方向演进,核心难点在于实现从理解到决策再到执行动作的完整闭环 [1] - 强化学习(RL)和智能体(Agents)成为实现模型决策与行动能力的关键技术方向,全球研究者重新关注真正意义上的通过与环境交互来增强模型的方法 [1][2] - 行业构建可执行Agents的关键生态拼图是行动层(Action Layer),该基础设施使模型能够真正执行任务 [2] 行业基础设施发展 - 类似Composio的平台正在构建下一代AI Agents的行动层,将数百个工具和API抽象为统一接口 [3] - Composio获得由Lightspeed领投的数千万美元融资,专注于AI Agents行动层基础设施建设 [3] 行业活动与生态 - NeurIPS 2025将举办RL x Agent主题交流活动,汇聚OpenAI、Anthropic、DeepMind、Meta FAIR、NVIDIA、ByteDance等机构的研究者与工程师 [1][7] - 活动采用闭门邀约制,旨在促进RL、Action、Decision、Tool-Use、规划等领域的非正式技术交流 [1][7] 社群与人才发展 - Z Potentials社群持续提供人工智能、机器人、全球化等领域的优质内容,并招募实习生与有创造力的00后创业者 [8][10][12] - 社群设有公开群与实名认证群,认证后可加入产品群、技术群和创业者群等专业交流圈子 [14]
从 AI 创业角度看 GEO:如何引流、效果评估,以及创业机会在哪里?
Founder Park· 2025-08-10 01:33
GEO概念与背景 - GEO是AI搜索和LLM时代的SEO,但与传统SEO在效果监控、内容策略等方面存在差异[2][3] - 行业对GEO的商业价值存在争议,部分观点认为其仅是SEO变体,但共识是需要投入布局[4][5] - LLM使搜索行为碎片化,查询平均长度增至23词(传统搜索4词),会话时长增至6分钟,响应呈现个性化多源特征[14] GEO技术原理 - 核心是从内容生产侧逆向优化RAG/LLM/Agent工作机制,实现"可检索+可引用+可概括"三位一体[10] - 与传统SEO差异体现在三方面:1) Ranking需应对LLM嵌入式引用结构 2) 优化方法不明确 3) 黑盒特性导致控制困难[9] - RAG工作流包含文档加载、分块(200-1000字)、向量化、检索、生成五个环节,需针对性优化chunk可读性和引用性[20] 内容优化策略 RAG优化 - 结构优化:使用H1/H2标题分级,段落控制在2-4句,避免上下文依赖叙述,采用项目符号/表格呈现数据[20] - 向量友好:明确主题词,降低冗余,通过近义词扩展覆盖用户query变体[26] - 引用曝光:嵌入品牌名、自引用语句(如"根据LangChain文档"),采用Schema.org标注结构化数据[27] Agent优化 - 任务导向设计:围绕"退货流程"、"附近店铺推荐"等具体场景结构化内容[33] - Action友好:定义清晰Tool Schema,采用语义对齐命名(如orderFood而非triggerService),编写prompt-friendly文档[34] 行业现状与数据 - 当前LLM推荐流量占比普遍低于5%,占网站总流量不足1%,但存在平台差异(Reddit达11%,Wikipedia达23%)[15][38] - 代表案例Ramp通过GEO优化实现:1) 月增300次AI引用 2) AI可见性从3.2%跃升至22.2% 3) 行业排名上升11位至第8名[63] 代表产品矩阵 - Athena:基于公司邮箱的竞品AI搜索分析工具[52] - ProSEO.ai:Shopify专属AI-commerce优化工具,强化商品描述可读性[53] - Profound:全栈AI可见性平台,提供实时曝光监控和Conversation Explorer功能,2025年获2000万美元A轮融资[57] - Byword:批量生成适配AI搜索的长文,自动部署至CMS系统[55] 未来演进方向 - 可能突破点:1) 构建GEO强化学习系统 2) 整合点击流数据优化反馈闭环 3) 开发统一测量标准[68][69] - 与SEO分散生态不同,GEO存在集中化机会,但需解决数据采集和实时分析的技术瓶颈[66][67]
中国人形机器人_ 人工智能大会要点_ 轮式机器人演示比双足更常见,应用更广泛-China Humanoid Robot_ WAIC 2025 takeaways_ Broader applications with wheel-based robot demo more common than bipedal
2025-07-29 02:31
涉及的行业和公司 - **行业**:人形机器人行业 - **公司**:Sanhua(三花智控,002050.SZ)、LeaderDrive(绿的谐波,688017.SS)、Moons' Electric(鸣志电器,603728.SS)、BEST(贝斯特,300580.SZ)、Luster(凌云光,688400.SS)、Baosight(宝信软件,600845.SS)、Supcon(中控技术,688777.SS);以及Noematrix、X Square Robotics、Beijing Humanoid Robot Innovation Center、Galbot、Spirit AI、Agibot、Kepler、Robotera、Ti5 Robot、TLIBOT、SYSMO、Unitree、Baosight、Fourier、Mech - Mind等 [1][21][22][23][25][26][27][28][31] 核心观点和论据 行业发展情况 - **行业进步明显**:2025世界人工智能大会规模较往年大幅提升,场地面积增加35%至70000平方米,门票价格上涨31%至168元/天,参展商达800家(同比增加60%),演讲者超1200人,展示的人形/具身机器人产品超60种(去年为25个静态原型),体现行业投资和政府支持增加 [1] - **应用场景探索更有针对性**:应用场景拓展至制造、仓储物流、消费零售、家庭养老等领域,不同公司聚焦不同场景,如Noematrix展示机器人做冰淇淋、按摩等服务应用,Beijing Humanoid Robot Innovation Center专注高风险工业场景 [2][7] - **产品改进显著**:人形机器人更多地从展示台走下来进行互动任务演示,相比2024年有明显进步,但互动任务成功率仍有提升空间 [2][8] - **向轮式底座收敛**:工作原型向AGV式轮式底座和功能性抓手发展,而非双足运动,这是向近期商业可行性的务实转变,对行星滚柱丝杠组件股票可能有负面影响 [2][9] - **成本曲线下降但不显著**:Unitree推出售价39990元起的新机型R1,多数全尺寸人形机器人ASP约40 - 50万元,小尺寸约10 - 30万元 [2][14][20] - **操作仍是核心挑战**:操作在具身AI核心任务中最难,在成功率、速度和准确性方面存在问题;Vision - Language - Action(VLA)模型被视为基础架构,强化学习(RL)被视为关键下一步,二者结合对具身AI商业化至关重要 [12] - **数据收集面临权衡**:人形公司面临真实世界数据和合成数据的权衡,多数公司采用10% - 50%的真实世界数据与合成数据混合训练 [13] 投资观点 |公司名称|评级|投资理由| | ---- | ---- | ---- | |Sanhua(002050.SZ)|Buy|在汽车/电动汽车热管理领域有增长潜力,HVAC方面EEV渗透率提升及ESS和海外热泵带来新机遇,预计GPM因原材料成本压力缓解和规模经济而改善,催化剂包括EV订单强劲、ESS业务扩张及人形机器人组件业务增长 [21]| |Zhejiang Supcon Technology Co.(688777.SS)|Buy|是中国过程自动化领先供应商,技术领先且有服务网络优势,预计自动化控制系统收入增长,有向工业软件拓展的清晰路径,估值有吸引力 [22]| |Best Precision(300580.SZ)|Neutral|有望成为人形机器人行星滚柱丝杠有竞争力的供应商,预计2027年起获得全球10%市场份额,机床组件商业化推进,但风险回报与覆盖范围相比公平 [23][25]| |Leader Harmonious Drive Systems Co.(688017.SS)|Neutral|是国内谐波减速器市场领导者,TAM扩张,有海外客户渗透进展,长期增长有潜力,但估值与覆盖范围相比合理 [26]| |Shanghai Baosight Software(600845.SS)|Neutral|是中国领先生产软件供应商,有政策支持和业务增长机会,但56%的收入来自关联交易,数据中心业务有压力,估值合理 [27]| |Moons' Electric(603728.SS)|Neutral|有望成为人形机器人无刷电机供应链关键参与者,但主业前景保守,考虑其在人形机器人和主业的潜力后,风险回报与覆盖范围相比公平 [28][30]| |Luster(688400.SS)|Sell|在机器视觉细分领域市场份额增长温和,2025年收入大部分未受益于有利终端市场,代理业务增长慢,估值过高 [31]| 价格目标与风险 |公司名称|12个月目标价格|关键风险| | ---- | ---- | ---- | |Sanhua(002050.SZ)|34.90元|EV热管理领域竞争加剧、特斯拉EV销售不及预期、中国房地产竣工不佳影响HVAC需求 [32]| |Zhejiang Supcon Technology Co.(688777.SS)|56.20元|国内资本支出不及预期、海外扩张缓慢、工业软件开发进度慢、应收账款天数可能延长 [33]| |Best Precision(300580.SZ)|27.10元|上行风险为传动部件开发更快、EV部件产能提升更快;下行风险为涡轮增压器渗透率增长缓慢、竞争或定价压力导致利润率低于预期 [34]| |Leader Harmonious Drive Systems Co.(688017.SS)|131.40元|上行风险为人形机器人量产和技术进步更快、渗透关键机器人客户更快;下行风险为国内工业/协作机器人需求不及预期、海外和本土品牌竞争压力增大 [35][36]| |Shanghai Baosight Software(600845.SS)|27.90元|上行风险为向非钢铁市场扩张更快、新产品商业化更快、设备升级需求更大;下行风险为宝武集团数字化进度慢、非一线城市数据中心需求弱、宝武集团行业整合进度慢 [37]| |Moons' Electric(603728.SS)|54.90元|上行风险为人形机器人进展更快、在人形机器人OEM中的市场份额高于预期;下行风险为终端市场需求不及预期、电机与驱动器市场份额增长进度慢 [38]| |Luster(688400.SS)|15.30元|上行风险为向新能源领域渗透进度更快、FPD行业增长好于预期、视觉软件开发更快 [39]| 其他重要但是可能被忽略的内容 - **各公司产品亮点**:如Agibot发布开源项目和数据集,Baosight的Turin机器人用于“3D”任务,Beijing Humanoid Robot Innovation Center展示多机器人协作系统,Fourier的GR - 3机器人用于医疗保健互动等 [17] - **投资相关概念说明**:包括GS Factor Profile(从增长、财务回报、估值和综合四个关键属性提供投资背景)、M&A Rank(对公司被收购概率进行排名)、Quantum(高盛专有数据库)等 [42][44][45] - **各种披露信息**:包括评级和定价信息、公司特定监管披露、美国及其他司法管辖区法律规定的额外披露、评级和覆盖范围相关定义、全球产品分发实体及一般披露等内容 [46][47][49][50][52][56]
MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer
Founder Park· 2025-07-18 18:24
MiniMax M1技术研讨会核心观点 - MiniMax举办全球M1技术研讨会 聚焦模型架构创新、RL训练、长上下文应用等前沿领域 邀请全球顶尖学者及企业嘉宾参与[1][2] - 会议探讨RL能力边界、预训练数据价值、视觉推理瓶颈等关键技术挑战 并展示混合注意力架构的实践突破[6][8][11][19] - 长上下文窗口被视为Agent领域的game-changer 可解锁法律合规分析、客户洞察等企业级应用场景[15][16][17] 强化学习(RL)能力边界 - RL在有限上下文长度下能赋予模型新能力 通过改变输出分布使原需10W token解决的问题压缩至10K token[6] - pass@k指标有效性取决于定义方式 无限次尝试通过率反映基础能力 特定次数通过率反映实用性能[7] - Reward建模是RL扩展核心瓶颈 非结果导向的奖励信号(如主观感受)缺乏有效建模方法[7][13] 预训练数据价值 - 预训练本质是RL特例 当前最大价值在于接触多样化数据分布 弥补RL训练数据分布狭窄缺陷[8] - 仅数学/代码RL训练会加剧幻觉 需构建WebInstruct-verified等通用数据集 已扩展至50万量级[10] - mid-training阶段引入RL成为新范式 通过检索预训练数据获取多样化RL数据[10] 视觉推理突破方向 - 现有视觉编码器处理高分辨率图像能力弱 需依赖zoom-in等增强感知的权宜方案[11] - 根本瓶颈在于像素编码与潜在空间推理 需发展latent reasoning技术应对空间思考需求[12] - 图像生成技术(如几何辅助线)代表更高级的"用图像思考"方式 但尚未有成功案例[11] RL前沿挑战领域 - 超越结果评估的Reward建模将极大扩展RL应用场景[13] - 多智能体系统受限于基础设施 需构建AI模型交互训练环境[13] - AI自动化研究(模型自我训练)与AGI发展密切相关[13] 长上下文应用价值 - 1M token窗口可一次性处理完整案件历史 解决法律行业分块处理遗漏关键细节问题[17] - 企业级应用集中在法律合规分析(合同审查)、客户研究洞察(问卷总结)、收入报告自动化三大场景[17][18] - 技术支持与知识管理领域需求显著 可提升工单处理、内容更新等流程效率[18] 混合注意力架构优势 - 混合架构结合线性注意力效率与Full Attention灵活性 成为主流设计方向[19] - MiniMax Text-01验证混合模型潜力 推理速度较传统模型提升一个量级(10万token请求响应从1分钟降至4-5秒)[20][22] - 需构建混合分配器、批处理重叠等技术解决GPU利用率不平衡问题[21][22] 混合架构实践洞察 - RL训练曾因线性注意力不稳定性停滞 修复后证明混合模型可通过适当算力匹配Full Attention性能[23] - 评估应基于固定计算预算下的性能 而非固定输出长度 更反映真实效率[24] - 工程挑战包括计算图优化部署困难 需开发统一抽象层支持缓存复用[21] System2推理本质 - 高级推理能力源于计算资源扩展 体现为自动化Prompt Engineering替代人工分步指令[25] - 写作等任务中模型自动拆解专业步骤 通过延长推理路径实现"专家式思考"[25] - 本质是计算预算高效利用与问题自动深化的结合[26]
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 12:41
2025年VLA领域RL算法发展综述 核心观点 - VLA领域RL算法在2025年5月迎来技术爆发,传统算法(PPO、GRPO、DPO)被迁移至VLA场景,并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式(监督预训练+在线RL微调),结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法,提出双阶段训练:监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务,消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制,轨迹级奖励设计包含三部分:成功奖励(1/0)、自我奖励(轨迹生成概率对数)、外部奖励(VLM+GPT-4o生成的动态cost函数) [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO(留一法优势估计)与PPO,解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新,多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程,设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化:GPU负载均衡矢量化环境、分布式训练框架(PyTorch FSDP)、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法,但需探索新算法适配VLA特性(如LOOP) [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]