强化学习

搜索文档
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 06:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 04:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
大模型发展情况综述
2025-07-28 01:42
纪要涉及的行业 人工智能行业 纪要提到的核心观点和论据 1. **发展阶段与趋势** - 2025 年是大模型技术从研发向应用落地转折的重要时期,参数化应用持续演进,呈现标准化和大众化趋势[1][2] - 大模型发展关键节点可追溯到 2017 年,2020 年后数据变为无标注、学习方法转为无监督,参数量和数据量大幅增长[4] 2. **全球与中国发展格局** - 全球格局上美国在算力方面领先,中国在效率方面领先,中美顶级 AI 模型能力差距从 2023 年的 20%缩小至 0.3%[1][5][18] - 美国 Cloud 4 商业成功且展示代码定义能力,中国企业通过 MOE 架构优化、低精度训练等实现高效开发[18] 3. **资本市场态度** - 资本市场对人工智能投资态度从 2023 - 2024 年的研发投入回调到 2025 年的确定性和稳定性增强[1][6] - 2025 年二季度海外供应链估值提升、EPS 持续兑现,对国产大模型预期悲观但有修正机会和收益[1][2][6] 4. **技术进展与影响** - 强化学习在后训练部分显著提升大模型推理能力,通过延长思考时间提高准确率,蒸馏技术让小模型有高准确率[7] - 推理时间计算对大模型性能影响大,推理时间越长准确率越高且进步快[8] - 2025 年上下文窗口长度显著增加,提升大模型处理长文本信息能力[9] - 原生多模态技术降低延迟、提升 AI 视频生成效果,国产 AI 视频有优势[10] - 从 GROCK2 到 GROCK4 预训练和强化学习算力需求有变化,人类对算力需求随技术演进增加[11] 5. **商业化潜力** - Agent 和群体智能发展迅速,距离商业化仅一步之遥,Agent 工作能力强,群体智能在金融领域有优势[12][15] - AI 应用收入增速快,AI 搜索和 AI 编程领域表现突出,付费意愿高、商业化潜力超传统应用[25][26] 6. **准确率提升因素** - 大模型准确率提升得益于实时数据集成和检索增强生成技术,合成数据作用日益重要[3][16][17] 7. **技术挑战与优化** - 低精度训练技术降低算力成本但面临挑战,新架构探索优化计算效率,AI 幻觉问题有改善但进展波动[3][19][20][24] 其他重要但是可能被忽略的内容 1. 中信建投人工智能研究报告约 500 页,全面覆盖行业细节和发展状况[2] 2. 第三代智能体采用端到端方式执行任务,有望从专用到通用,应用范围广泛[14] 3. 2025 年新架构探索中,Mamba 架构推理时可处理更长上下文但训练算力消耗大,部分方法降低计算复杂度[22] 4. 2025 年通过针对英伟达芯片底层优化和新型架构探索推动存算一体发展,预计两年内成主流[23] 5. 大模型无法实现无限上下文长度是因为注意力机制计算复杂度随长度增加呈指数级增长[21] 6. 从 2003 年至今,算力涨幅接近 500%,模型和应用涨幅为 150%,云业务盈利能力向上,下游应用企业增长快[27]
商汤科技20250727
2025-07-28 01:42
纪要涉及的行业和公司 - **行业**:人工智能行业,涵盖大模型技术、机器人、金融、教育、航空等多个领域 - **公司**:商汤科技、英伟达、质谱公司、小米、金山办公、华为升腾、值得买科技、第四范式、科大讯飞、银河通用、库帕斯科技 纪要提到的核心观点和论据 大模型技术发展 - **技术范式转变**:大模型技术从预训练为主、监督学习为辅的范式逐渐转移到强化学习范式,提升了推理能力,但也带来幻觉、冗长思考等挑战[22] - **未来发展方向**:一是扩展当前范式以接受自然语言反馈,实现测试时群体交互;二是向自主在线代理方向发展,实现真正意义上的自主智能体[25] - **架构创新**:传统Transformer架构在算法向RL迁移时遇到阻碍,未来可能重新考虑RN类架构设计[28] 数据问题 - **数据枯竭**:互联网数据逐渐枯竭,需寻找新的数据来源和方法,以实现人工智能尤其是AGI方向上的进一步突破[30] - **数据不足解决方法**:使用物理模拟生成模拟场景训练模型,但需建立反馈机制,结合真实世界的基准测试和验证[31] - **行业数据重要性**:行业内有大量未被利用的数据,可通过行业场景大模型进行预训练激发出来[33] 人工智能可持续发展 - **挑战**:数据中心能耗巨大,预计到2030年全球数据中心将占总用电量的8%,推理阶段能耗可能成为主要来源[2][8] - **能效提升方法**:从基础设施、云、大模型以及应用层多层面优化,通过软件、硬件和制造工艺创新提升能效,也可进行能源优化[9] - **赋能可持续发展**:人工智能能够显著减少重工业碳排放,帮助工厂节能减排,推动整体能源消耗平衡并最终减少碳排放[11] 行业应用与商业化 - **金融领域**:大规模人工智能技术落地面临数据质量、安全和资源利用等挑战,需优化资源配置和改进数据处理方法[38] - **商汤科技成果**:通过SenseNova大模型及研发体系,推动高效率、低成本、规模化的AI创新和落地,在多模态技术、机器人、自动驾驶等领域有诸多应用[41] - **生产力转化**:实现从生产力工具到实际生产力的转化需要多模态融合分析和自动化处理,小浣熊产品是典型例子[49] - **人机交互**:大语言模型的发展推动人机交互进入新范式,AI从辅助角色转变为主动执行任务,人类进行监督和指导[51] 国际合作与发展 - **中印合作**:中印两国在人工智能领域的合作涵盖政府、工业、大学等多个层面,有助于解决AI治理核心问题,促进本地创新[17] - **中国举措**:中国通过开源贡献、提出愿景方案、建设合作中心等举措,推动全球人工智能发展[81] 其他重要但是可能被忽略的内容 - **香港国际机场应用**:香港国际机场在2020 - 2025年期间逐步引入多种人工智能应用,如自动化行李分拣系统、自主巡逻车等,以应对运营效率、安全等挑战[72] - **智能体发展**:智能体已成为大模型应用的重要关注点,其产业链逐渐形成,在多个领域得到广泛应用[78] - **具身智能**:2025年具身智能发展取得进展,但进入各行各业和家庭还需解决数据问题,合成数据与真实数据结合是有效策略[82] - **AI发展影响**:AI发展对人类工作、生活及独特性提出挑战,科学家应提前思考,确保具身智能与人类关系安全[89]
阿里Qwen提出强化学习新算法GSPO
快讯· 2025-07-27 15:20
强化学习算法创新 - 提出Group Sequence Policy Optimization (GSPO)算法以拓展强化学习能力 [1] - GSPO在序列级别定义重要性比率并进行裁剪、奖励和优化 [1] - 该算法区别于传统RL算法的工作机制 [1]
中国互联网大会上,参展的众多AI应用企业不约而同选择这一发展模式,为什么?
每日经济新闻· 2025-07-26 16:19
中国互联网大会AI展区观察 - 中国互联网大会在北京举行 展区展出大量AI落地科技产品 值得注意的是多家AI应用企业选择开源发展模式[1] - 开源与闭源代表完全不同的技术路线和商业策略 体现发展模式与利益分配的差异[2] 机器人设备企业 - 某机电企业展示双足机器人 通过电机控制实现动态平衡 未嵌入视觉识别功能 主要面向学校和二次开发者提供全开放接口[3][5] - 该企业电机技术被波士顿动力等厂商采购 定位为人形机器人技术支持商 机器人外壳采用3D打印 每个关节配备独立电机[5] - 二次开发者可集成语音交互 AI算法 激光雷达等功能 案例显示北职大团队曾改造该机型参加亦庄半程马拉松[5] 小米开源生态 - 小米展出Vela操作系统 专为智能手表 家居设备设计的嵌入式系统 已全部开源代码[5][6] - 开源策略旨在加速研发效率 促进生态繁荣 实现更多终端与小米设备互联互通[6] - 同步展示AIoT实训箱教学系统 对合作院校开源教学平台代码 用于模拟安防系统搭建教学[9] 数字人技术应用 - 展区出现基于DeepSeek开源代码的全息数字人 使用者可免费调用IP进行全国推广 主要成本来自算力公司训练费用[9] - 参观者建议开放训练权限以定制更符合需求的数字人形象[9]
二段式端到端新SOTA!港科大FiM:从Planning的角度重新思考轨迹预测(ICCV'25)
自动驾驶之心· 2025-07-26 13:30
核心观点 - 提出"先推理,后预测"策略,从规划视角重构轨迹预测任务,通过行为意图推理提升预测准确性和置信度 [4][11] - 开发奖励驱动意图推理器,结合以查询为中心的逆强化学习框架(QIRL)和最大熵逆强化学习(MaxEnt IRL) [8][14] - 设计分层DETR-like解码器集成双向选择性状态空间模型(Bi-Mamba),增强序列依赖关系捕捉能力 [9][26] - 在Argoverse和nuScenes数据集上实现SOTA性能,minFDE6指标达0.528-0.551,Brier分数0.594-0.629 [33][36] 技术框架 意图推理模块 - 采用网格级图表示场景布局,定义基于网格的推理遍历(GRT)作为意图序列 [5][19] - QIRL框架将向量化场景特征聚合为网格token,通过MaxEnt IRL推导奖励分布 [8][24] - 策略rollout生成多模态GRT序列,提取意图先验指导轨迹预测 [24][25] - 辅助时空占用网格图(OGM)预测头建模参与者未来交互,提升特征融合效果 [9][24] 轨迹解码架构 - 分层结构包含无锚点提议生成和基于锚点的优化两阶段 [25][26] - Bi-Mamba模型双向处理轨迹token,通过双CLS token实现前向-后向特征融合 [26][28] - 模态自注意力模块增强多模态预测,最终输出轨迹偏移量和概率分布 [26][28] - 消融实验验证Bi-Mamba比MLP基准提升brier-minFDE6达11.3% [40][43] 实验验证 定量结果 - Argoverse 1测试集:单模型brier-minFDE6 1.602,集成模型达1.131 [33][35] - Argoverse 2验证集:GRT-L变体minFDE6 0.528,优于DeMo(0.543)和QCNet(0.551) [34][36] - nuScenes数据集:超越当前所有排行榜模型,验证框架鲁棒性 [36] 消融分析 - 移除推理分支导致brier-minFDE6上升79.6%,验证意图推理关键作用 [37][38] - OGM模块贡献brier-minFDE6下降4.1%,优化模块贡献11.0% [39][40] - 双CLS token设计比单向Mamba提升分类精度3.2% [43][47] 行业应用 - 向量化表示结合Transformer架构成为自动驾驶轨迹预测主流技术路线 [12][19] - 强化学习范式在驾驶行为建模中展现潜力,为行业提供新研究基线 [47][55] - 长期意图监督(GRT-L)显著提升预测置信度,对量产系统具有实用价值 [34][35]
开发者福利!一台机器搞定人形运控、强化学习、VLN/VLA
具身智能之心· 2025-07-25 07:11
产品概述 - TRON1是一款专为教育科研设计的一体化研究平台,支持验证人形运动控制、强化学习、VLN任务、VLA任务等多种功能[1] - 采用双足、双点足和双轮足"三合一"模块化设计,可快速切换、自由组合,一机支持多形态算法研发[1] - 一套产品可同步验证点足运动控制、双足人形运动控制和轮式运动控制,实现"买一得三"[1] 版本与功能 - 提供基础版本和EDU版本,EDU版本支持二次开发和外设加装[4] - 标准版不配置RGBD相机,EDU版配有RGBD相机并提供SDK和内置接口供二次开发[24] - 支持外设加装机械臂、深度相机、激光雷达等组件,扩展感知、操作和语音交互功能[6][11][13][18] 技术参数 硬件配置 - 感知拓展套件配备NVIDIA Ampere架构GPU,157 TOPS稀疏算力,16GB LPDDR5内存,256GB固态存储[16] - 语音交互套件搭载Jetson Orin NX模组,支持360°拾音,最大拾音距离4m,支持普通话和英语[19] - 机械参数:尺寸≤392mm x 420mm x 845mm,净重≤20kg,材质为铝合金+工程塑料[26] - 电气参数:48V供电,240Wh电池,续航≥2小时,支持快速换电[26] 性能指标 - 运动速度:点足/双足<1m/s,轮足最高速度≥5m/s[26] - 负载能力:约10kg(极限15kg),最大爬坡角度≥15°,最大落差高度15cm[26] - 关节参数:额定扭矩30Nm,峰值扭矩80Nm,峰值转速15rad/s[28] 开发支持 - 支持C++和Python两种开发语言,提供完善的SDK和开发文档[6][33] - 兼容NVIDIA Isaac、Mujoco、Gazebo等主流仿真平台,Sim2Real差距小[9] - 提供数据可视化工具、关节控制函数、仿真平台等开发者工具[28] - 配套丰富的使用教程,涵盖开箱、遥控、拓展开发、校准等全流程[29][37] 应用场景 - 仿人形步态开发、强化学习论证[6] - 移动操作任务(如VLA),支持"单臂+双足"或"单臂+轮足"模式[11] - 三维建图、重定位、导航及动态避障等感知任务[13] - 语音交互开发,适用于教育科普、导览解说等场景[18] - 复杂地形运动、移动操作+机械臂等测试场景[20][21]
NVIDIA最新!ThinkAct:复杂的具身任务中实现少样本适应、长时程规划
具身智能之心· 2025-07-24 09:53
核心观点 - ThinkAct提出了一种双系统框架,通过强化视觉潜在规划将高层推理与低层动作执行连接起来,显著提升了复杂具身AI任务中的少样本适应、长时程规划和ego修正能力 [4][9] - 该方法通过动作对齐视觉奖励(目标奖励和轨迹奖励)引导MLLM生成具身推理planning,并将其压缩为视觉planning潜变量,为下游动作模型提供条件 [14][17][18] - 在机器人操作和具身推理基准测试中,ThinkAct表现优于现有方法,如在SimplerEnv上比基准动作模型DiT-Policy最高提升16.9%,在LIBERO基准上以84.4%成功率位居榜首 [25][26] 方法架构 双系统设计 - 高层推理系统:MLLM生成具身推理planning,通过强化学习(GRPO)优化,奖励函数结合目标完成度(r_goal)和轨迹一致性(r_trail) [12][19][20] - 低层执行系统:基于Transformer的动作模型以视觉planning潜变量为条件,实现异步"慢思考-快控制"执行模式 [21][22] 关键技术 - 动作对齐视觉反馈:目标奖励(式1)评估起始/结束位置匹配度,轨迹奖励(式2)通过DTW距离规范轨迹分布 [17] - 强化微调:采用GRPO算法,从M组响应中选择最优解,KL散度约束防止模型偏离原始分布 [19] - 潜变量压缩:将文本推理抽象为紧凑的视觉planning潜变量,捕捉时空规划意图 [20][23] 性能表现 定量结果 - 机器人操作: - SimplerEnv-Google-VM任务中Pick Coke Can子任务达到92%成功率,比Magma提升8.3% [25] - LIBERO-Long任务成功率70.9%,显著优于CoT-VLA(69%)和DiT-Policy(57.6%) [25] - 具身推理: - EgoPlan-Bench2总体得分48.2%,超越GPT-4V(32.6%)和Qwen2.5-VL*(45.7%) [27] - RoboVQA的BLEU-4得分52.4%,比次优方法高4.4分 [27] 定性优势 - 长时程规划:将"拿起书放入后部隔间"分解为3个子任务,可视化轨迹显示gripper严格遵循推理planning [30] - Ego修正:在物体掉落场景中,通过视频context识别故障并生成重新抓取的修正planning [37] 创新价值 - 行业突破:首次实现强化学习驱动的视觉-语言-动作联合推理,解决端到端模型在长时程规划中的局限性 [6][7] - 技术复用性:潜变量设计兼容不同动作模型(如Diffusion Policy),支持跨平台部署 [21][23] - 数据效率:仅需10个演示样本即可在新环境(LIBERO-Spatial)实现9.5%的少样本性能提升 [35]
AI的未来,或许就藏在我们大脑的进化密码之中 | 红杉Library
红杉汇· 2025-07-24 06:29
人类大脑与AI的认知差异 - 人类大脑的认知能力如想象、计划、语言等至今仍是AI难以复制的超能力 [2] - AI之父杰弗里·辛顿认为实现类人智能需模仿大脑的计算方式 [2] - 当前AI已在部分领域(如语言处理)比肩人脑,但在心智理论、物理交互等方面仍落后 [10][14] 大脑进化的五次突破 - **第一次突破(5.5亿年前)**:原始大脑通过数百神经元实现条件反射、情感和利弊权衡 [8] - **第二次突破(脊椎动物)**:强化学习通过多巴胺量化目标可能性,赋予好奇心和复杂动作能力 [8] - **第三次突破(哺乳动物)**:新皮质带来想象力与慢思考能力,类似AI的推理模型(如OpenAI o1) [9] - **第四次突破(灵长类)**:心智理论使模仿学习和长期计划成为可能,AI目前在此领域不稳定 [9][10] - **第五次突破(人类语言)**:社会化语言系统推动文明,大语言模型已展现类似抽象理解能力 [11] AI的进化路径类比 - **K1-K2阶段**:从反射式清洁到强化学习(如试错优化家务动作) [13] - **K3阶段**:新皮质芯片实现数字孪生模拟(如预判儿童行动路径) [13] - **K4-K5阶段**:心智理论与语言能力使AI理解情感意图并沟通,但物理交互仍薄弱 [13][14] 历史突变对智能发展的启示 - 哺乳动物因恐龙灭绝获得发展契机,智能突破依赖历史偶然性 [6][15] - 蓝细菌光合作用等突变事件表明,颠覆性进步常源于冗余或非常规变化 [15][16] - 下一代AI突破可能来自非线性的能力跃迁,如因果推理或直觉感知 [18] 行业技术动态 - 强化学习提升AI格局,通过奖励过程(如围棋步骤评估)优化决策 [8] - 大语言模型已实现语言解码,但心智理论与物理动作仍是研发重点 [10][14] - 最新推理模型(如DeepSeek R1)采用系统2思维进行深度评估 [9]