强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow，用在线RL微调机器人流匹配策略

机器之心· 2025-10-20 09:15

研究背景与意义 - 流匹配技术是机器人学习领域的热门方向，作为扩散模型的变体，因其简单易用成为机器人底层操作策略的主流手段，并被广泛应用于先进的视觉语言动作模型中 [2] - 除了增加数据多样性，强化学习被视为一种高度有效的方法，可用于进一步增强开源视觉语言动作模型的能力 [2] ReinFlow算法核心原理 - ReinFlow是一个针对常微分方程策略的通用策略梯度算法，其理论基础是基于策略梯度理论推导，将确定性流转换为离散时间马尔可夫过程，从而直接优化整条流匹配链 [4][5][6] - 算法通过向流策略的确定性路径中注入少量可学习的噪声，将其转移过程改回一个随机的扩散过程，使得流匹配的联合概率可以被严格计算出来 [8][9] - 该方法虽然引入噪声改变了流匹配模型的轨迹，但通过将噪声控制到较小范围以减少与预训练策略的偏离，同时为噪声设置强度下限以鼓励适当的探索 [10] 算法性能与效率 - 在D4RL足式运动控制任务中，ReinFlow微调后的Rectified Flow策略取得了平均135.36%的净性能增长 [16] - 与当前的扩散强化学习微调方法DPPO相比，ReinFlow在保持类似性能的同时，可节省82.63%的墙钟时间 [16] - 在长程操作任务中，ReinFlow微调的Shortcut Model策略在4步甚至1步去噪的情况下，比预训练模型平均净增了40.34%的成功率，训练时间平均节省23.20% [18] 应用场景与兼容性 - ReinFlow是一个通用框架，理论上适用于所有常微分方程定义的策略，如Rectified Flow和Shortcut Models，并支持极少步数下的推理 [12] - 该框架成功应用于包含25种不同物品、十余种桌面设置和上百种初始化位姿的高度随机化场景，可大幅提高模型的抓取成功率 [20] - 更新公式可适用于几乎所有强化学习梯度算法，如PPO [12] 技术验证与消融研究 - 实验显示仅靠增加数据或推理步数较快达到性能瓶颈，而强化学习微调能进一步提升性能 [24] - ReinFlow对均匀、Logit-normal和Beta分布等多种时间采样方式都表现良好的性能 [24] - 同时以状态和时间为条件生成噪声，有助于产生更多样化的动作，噪声过小训练会陷入瓶颈，一定阈值后可探索新策略 [24] 开源资源与未来规划 - 项目已全面开源，包含完整代码库、模型检查点、WandB指标和详尽文档 [27] - 未来计划公布更多大型视觉语言模型微调结果，支持用在线强化学习微调Mean Flow，并研究将该方法用于仿真到真实世界的迁移和真机强化学习微调 [29]

AI撕碎了“伪工作”的遮羞布

虎嗅· 2025-10-20 08:21

AI技术发展现状与本质 - 当前大型语言模型（LLM）的本质是互联网数据的剪影压缩，被比喻为“网上所有文本的模糊JPEG”，仅是对智能的近似模仿，达到智能下限[1] - 模型在多分叉判断、灵感驱动关联定位等复杂任务中表现不佳，且步骤越多偏离越大[1] - 专家认为实现通用人工智能（AGI）至少需要10年以上时间，当前智能体仍缺少多个关键能力模块[1] AI应用场景与局限性 - 人机协同被证明是更有效的使用方式，需依赖具备专业知识的专家操作AI进行信息定位与处理[1] - 95%的企业AI投资未能产生回报，反映出技术在实际商业应用中的局限性[2] - AI可能胜任大量白领工作中重复性、低层次智能的任务，这些工作被描述为“毫无意义的工作”[2] 社会经济影响与历史参照 - AI替代低层次工作可能短期提升资本利润，但长期可能导致分配向资本倾斜，抑制总需求增长[4] - 参考2000年互联网泡沫，技术从爆发到真正开花结果需约10年周期，当前AI发展可能面临类似“阴暗峡谷”阶段[4] - 技术发展路线的不确定性（通向AGI或高级单词预测器）将直接影响行业估值逻辑与投入规模[2]

Andrej Karpathy ：AI 智能体的十年战争、强化学习的困境与“数字幽灵”的觉醒

锦秋集· 2025-10-20 07:00

智能体发展时间框架 - 当前业界普遍认为今年是"智能体元年"，但Andrej Karpathy判断这是"智能体的十年"，意味着智能体的成熟将是一个长达十年的渐进过程，而非短期内突然爆发[6][7] - 智能体要成为真正的"数字同事"尚需约十年时间，因其核心能力模块尚未整合完备[8][9] 智能体缺失的关键能力模块 - 实现真正可用的智能体还缺失四个关键模块：多模态感知、记忆系统、持续学习与行动接口[1] - 具体缺失的能力包括：多模态能力（理解图片、视频、操作界面）、计算机使用能力（用鼠标、键盘或API操作数字世界）、持续学习（记住历史信息而非每次从零开始）、更强的认知能力（规划、上下文管理、长期目标追踪）[15] AI发展史上的关键转折点 - AI领域过去十五年经历了三次范式转折：深度学习崛起（AlexNet时代代表的感知革命）、强化学习与游戏兴起（行动革命）、大语言模型出现（表征革命）[11][12][13][14] - 真正的技术"实用化"总是比"概念提出"晚五到十年，智能体的演化不会例外[11] 强化学习的根本缺陷与改进方向 - 强化学习在实践中存在信息稀疏问题，其本质是把监督信号吸进一根吸管里，从长行为序列中只获取最后一点反馈，导致高噪声、低效率、极难稳定[20] - 人类基本不用强化学习，而是依赖反思与推理过程，形成过程监督而非仅看最终结果[21] - 未来强化学习的改进方向包括：细粒度奖励（每个阶段提供反馈）、多维度打分（评估效率、优雅度、可解释性）、自我评估循环（模型能自己复盘、修正、再训练）[47][48][49] 从模仿学习到反思学习的演进 - AI学习模式的演进路径为：从模仿学习（模型模仿人类对话风格）到强化学习（RLHF，结合模仿与奖励），下一步是让模型学会自我反思[23][24] - 模型需要具备"反思与回顾"结构，甚至类似"睡眠"的机制，将临时经验蒸馏进权重，但目前这些还停留在论文级别实验，尚未在真正的大模型规模上跑通[24][25] AI编程的现状与瓶颈 - AI辅助编程工具（如Copilot或GPT）目前作用有限，在独创系统或研究型代码编写上几乎帮不上忙，其最实用模式是半自动补全（程序员控制结构，模型辅助局部实现）[31][35][36][39] - 模型在创新结构上几乎无能，它擅长复刻常见模板，但理解不了新结构，容易自以为懂并建议不必要的API，导致代码臃肿复杂[38] - 编程的进化可视为一个"自主滑杆"的缓慢推进，AI持续压缩低价值劳动空间，但真正的架构与理解仍靠人类，未来编程可能演化为一种"思维交互"[41][42][43] 人类学习与AI训练的根本差异 - 人类学习是开放系统，具备多层次学习机制（内置硬件、社会化学习、反思梦境和创造再训练），而AI模型是一次性训练形成的封闭系统，不会真正持续更新认知[51] - 人类通过遗忘保持创造力优势，而AI记忆力太好反而妨碍泛化，未来可能需要让模型"学会遗忘"[28] AI的未来角色与社会影响 - AI的角色是"认知合作者"，未来最现实的是一种共生关系：AI负责探索空间庞大、重复性高的任务，人类负责定义目标、做价值判断[52] - 未来社会分工会越来越像"混合认知体"，每个个体由一个人加一组AI代理组成，像拥有个人操作系统一样协同工作[53] - 下一个十年是从"召唤幽灵"到"驯化幽灵"的阶段，需要建立社会层面的规则、价值观、使用边界，确保AI安全、可靠、合作、可信[54][55]

Artificial Intelligence

Artificial Intelligence

MuJoCo教程来啦！从0基础到强化学习，再到sim2real

具身智能之心· 2025-10-20 00:03

具身智能行业趋势 - 行业正处于前所未有的转折点，从符号推理、深度学习到大语言模型，如今具身智能正在全面崛起 [1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等均在竞相布局具身智能领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等几乎所有行业 [1] MuJoCo技术核心价值 - MuJoCo是连接虚拟世界与现实世界的重要桥梁，为机器人学习提供高保真、高效率的训练环境 [4] - 仿真速度可比现实时间快数百倍，并能通过域随机化技术将仿真中训练的策略成功迁移到真实世界 [6] - MuJoCo采用先进的接触动力学算法，支持高度并行化计算，并提供丰富的传感器模型，已成为学术界和工业界的标准工具 [6][8] 技术能力培养体系 - 课程采用项目驱动的学习方式，包含六个层次递进的实战项目，从机械臂控制到Sim-to-Real迁移 [11][16][17] - 项目设计涵盖MuJoCo建模、物理仿真、强化学习、机器人控制、多智能体系统等完整技术栈 [17][20][22][24][26][28][29] - 学员将掌握现代AI开发工具链，包括Python生态、深度学习框架、版本控制等，培养独立解决复杂问题的能力 [13][32][33]

MuJoCo开发教程

MuJoCo开发教程

稳定训练、数据高效，清华大学提出「流策略」强化学习新方法SAC Flow

具身智能之心· 2025-10-20 00:03

文章核心观点 - 提出一种名为SAC Flow的新方案，使用高数据效率的强化学习算法SAC来端到端优化真实的流策略，无需采用替代目标或策略蒸馏 [1] - 核心创新在于将流策略的多步采样过程视为一个残差循环神经网络，并引入GRU门控和Transformer Decoder两套速度参数化方法来稳定训练 [1][8] - 该方法在MuJoCo、OGBench、Robomimic等多个基准测试中实现了极高的数据效率和显著的性能提升，达到SOTA水平 [1] 研究背景与问题 - 流策略因其建模多峰动作分布的表达能力及比扩散策略更简洁的优势，在机器人学习领域热门，并被广泛应用于先进的VLA模型如π_0、GR00T等 [4] - 使用数据高效的off-policy RL算法（如SAC）训练流策略时会出现训练崩溃，原因是流策略的K步采样推理导致反向传播深度等于采样步数K，引发梯度爆炸或消失 [4][7] - 现有工作通过使用替代目标或策略蒸馏来规避此问题，但牺牲了流策略本体的表达能力，未能真正端到端优化流策略 [5] 技术方法：SAC Flow - 将流策略的每一步中间动作视为隐状态，Euler积分过程等价于一个残差RNN的单步前向，从而将流策略的K步采样反传等价于对RNN网络的反传 [10] - 提出两种速度网络参数化方式：Flow-G（GRU门控结构）自适应决定保留当前动作或写入新动作以抑制梯度放大；Flow-T（Transformer Decoder）在全局状态语境下稳态细化动作 [16][17] - 通过添加高斯噪声和配套漂移修正，解决SAC熵正则化中确定性K步采样无法直接给出可积密度的问题，使SAC的损失函数可直接用流策略多步采样的对数似然表示 [14] - 支持两种训练范式：对于密集奖励任务可从头开始训练；对于稀疏奖励任务且拥有示例数据的场景，支持离线预训练后再进行在线微调 [18] 实验结果 - 在MuJoCo的Hopper、Walker2D、HalfCheetah、Ant、Humanoid、HumanoidStandup环境中，SAC Flow-T/Flow-G能够稳定快速地收敛，并取得更高的最终回报 [20] - 消融实验表明，SAC Flow-T和Flow-G能有效稳定梯度范数，防止训练崩溃，而直接使用SAC微调流策略则会出现梯度爆炸 [24][26] - 方法对采样步数K具有鲁棒性，在K=4/7/10的条件下均能稳定训练，其中Flow-T对采样深度的鲁棒性尤其强 [27] - 在OGBench的Cube-Triple/Quadruple等高难度任务中，SAC Flow-T收敛更快，整体成功率领先或持平现有off-policy基线（如FQL、QC-FQL） [30] - 相比扩散策略基线（如DIME、QSM），基于流策略的方法普遍收敛更快，而SAC Flow在此基础上性能进一步超越FlowRL [30]

对比学习视角，GRPO即DPO？

自动驾驶之心· 2025-10-18 16:03

文章核心观点 - 文章分享了作者在强化学习（RL）领域优化GRPO（Generalized Reinforcement Policy Optimization）算法的研究历程，重点描述了从最初尝试到最终发现2-GRPO有效性的过程 [2][3][4][5] - 研究揭示了在特定条件下，极简化的采样策略（如2-GRPO）可能与传统认知相悖但依然有效，并将GRPO与DPO（Direct Preference Optimization）联系起来 [4][5] 研究动机与初始尝试 - 研究动机源于对GRPO算法推理速度过慢的不满，旨在进行效率优化 [2] - 初始尝试方向为树状采样，希望借鉴TreePO的思路，通过预填充减少生成时间，但在Qwen2.5-7B-Math上的初步实验表明正确率高度依赖第一个句子，存在不平衡问题，因此放弃 [2][3] - 第二次尝试基于投机采样思想，即采到正确样本就停止，但工程实现中引入过多CPU操作可能导致气泡，未能实现时间优化 [3] 方案演进与关键发现 - 第三个方案利用历史信息估计题目正确率，并基于贝叶斯方法（Beta分布和Thompson采样）动态分配采样预算，实验结果显示在降低采样数量的同时保持了性能 [4] - 后续消融实验发现，在保持总采样量不变的情况下，将每个提示的采样次数从16降至8，性能几乎无差异 [4] - 进一步实验扩展到不同采样次数（32, 16, 8, 4）和模型规模（7B, 1.5B, deepseek-distill），均发现性能差异不大，挑战了常规认知 [4] - 受到与同行讨论启发，将GRPO与DPO及对比学习联系起来，提出了2-GRPO有效的理论依据，即其奖励归一化机制与对比学习原理相似 [5] 社区介绍 - 文章末尾部分介绍了“大模型之心Tech知识星球”，这是一个面向大模型技术的综合性社区 [7][8][9][10] - 社区聚焦于学术界和大模型应用一线，覆盖RAG、Agent、大模型微调、部署等多个子方向 [9] - 社区提供前沿技术文章、大佬交流、独家招聘信息、时效技术总结等内容 [10]

【红杉：AI至少是每年10万亿的机会】AI的五大趋势与人类的新分工

老徐抓AI趋势· 2025-10-18 13:24

AI市场定位与规模 - AI瞄准的是10万亿美元的全球劳动力市场而非6500亿美元的软件市场[2] - 当前AI自动化仅占服务业劳动力市场的0.2%若渗透率提升至10%-20%将创造数万亿美元新增市场[8] - SaaS市场规模从互联网初期的60亿美元增长至当前4000亿美元超越传统软件总规模软件整体市场达6500亿美元[5] AI对劳动力市场的颠覆性影响 - AI本质是替代人力生产力例如用年费5000美元的AI系统替代年薪4万美元的前台岗位[9] - AI工具能以600元年费实现人力效率5%的提升核心价值在于生产力替代而非软件工具属性[9] - 未来10人团队可支撑上市公司三五人可运营千万级收入业务公司规模因AI效率提升而缩减[12] AI革命的历史对标与发展阶段 - AI革命类比工业革命当前处于类似1760年蒸汽机阶段缺乏系统化生产流水线[10][12] - AI发展三阶段:1999年GPU为"蒸汽机"2016年DGX-1为"算力工厂"未来需"AI流水线工厂"实现规模化[11] - AI革命速度将远快于工业革命后者历时约150年而AI基础设施迭代显著加速[11] AI未来五大趋势 - 容忍AI不确定性以换取指数级效率提升核心是"错得起"而非完美[13] - 衡量标准从参数准确率转向直接商业结果如销售额提升与成本降低[13][17] - 强化学习使AI自主进化从依赖数据喂养转向实践学习[13] - AI从数字世界延伸至物理世界渗透制造业物流等实体产业重塑供应链[13] - 算力成为新生产力指标个人差距由调用的AI智能体规模决定[13] 算力需求与基础设施机遇 - 未来十年算力需求将增长1000至10000倍[14] - 芯片云计算数据中心等基础设施厂商将受益于算力爆发式增长[14] - 公司竞争维度从人力规模转向算力配置效率[13][14] AI落地挑战与协作模式 - 当前AI落地瓶颈在于缺乏标准化"流水线"系统化生产能力待突破[12] - 未来核心能力是人机协作效率管理者需转型为"AI CEO"或"AI CTO"[12] - 企业内部要求人力交付成果不得低于AI水平推动全面AI化转型[12]

卡帕西：强化学习很糟糕，但其他所有方法都更糟

量子位· 2025-10-18 09:30

AGI发展时间框架 - 通用人工智能至少还需要十年时间才能达到理想状态[5][6][10] - 当前智能体系统在智能水平、多模态能力和复杂任务操作方面存在明显局限[8] - 智能体需要具备持续学习能力并解决认知架构缺陷才能实现真正协作[9] 大语言模型技术局限 - 现有大语言模型存在认知缺陷，容易陷入编程范式思维定势[15] - 模型训练数据导致过度追求生产级标准代码，造成代码库膨胀和复杂度增加[15] - 业界对大语言模型能力存在过度夸大，实际仍需大量改进[16] 强化学习技术评估 - 强化学习方法存在严重缺陷，但其他替代方法表现更差[18] - 强化学习通过正确结果反向强化整个解题路径的做法充满噪声且不合理[20] - 当前系统缺乏人类式的复杂复盘机制，仅依赖正确错误二元判断[21][23] AGI经济影响预测 - AGI将延续现有2%的GDP增长趋势，不会产生突然的技术跳跃[5][29] - AGI替代人类工作将采用渐进式自动化模式，实现自主性滑块分配[26] - 智力爆炸已通过历史GDP指数增长体现，AGI只是自动化趋势的延续[28] 自动驾驶技术挑战 - 自动驾驶技术从演示到产品的差距极大，失败代价高昂[30][31] - 可靠性每增加一个9（如90%到99%）都需要大量工作[32] - 真实产品需要应对各种边缘情况，特斯拉五年仅达到两到三位9的可靠性[32] 教育领域应用前景 - 理想的教育系统应提供个性化导师体验，能够快速判断学生知识水平[36] - 优秀导师能提供适度挑战，既不太难也不太简单[36] - 当前大语言模型尚无法实现真正个性化教学，需要构建完整课程体系[36]

通用人工智能（AGI）

大语言模型（LLM）

通用人工智能（AGI）

大语言模型（LLM）

稳定训练、数据高效，清华大学提出「流策略」强化学习新方法SAC Flow

机器之心· 2025-10-18 05:44

研究背景与问题 - 流策略因其建模多峰动作分布的能力和比扩散策略更简洁的优势，在机器人学习领域被广泛应用，并集成于先进的VLA模型中[4] - 使用数据高效的离线策略强化学习（如SAC）训练流策略时会出现训练崩溃，其根本原因在于流策略的K步采样推理导致反向传播深度等于K，引发了类似经典RNN的梯度爆炸或梯度消失问题[4] - 现有解决方案通过使用替代目标或策略蒸馏来规避此问题，但牺牲了流策略原有的强大表达能力，并未真正端到端地优化流策略本身[5] 核心方法与技术创新 - 提出将流策略视为一个残差循环神经网络（Residual RNN），其K步采样过程等效于RNN的前向传播，从而将训练不稳定性问题转化为如何稳定训练RNN的问题[10][11] - 引入两种现代序列模型结构来参数化流策略的速度网络：Flow-G采用GRU风格的门控机制自适应调和“保留当前动作”与“写入新动作”，以抑制梯度放大；Flow-T采用Transformer解码器对“动作-时间token”进行仅基于状态的交叉注意力计算，在全局语境下细化动作，同时通过限制自注意力不跨时间混合以保持流模型的马尔可夫性质[17][18] - 通过添加高斯噪声并进行配套漂移修正的方法，解决了SAC熵正则化因确定性K步采样无法直接给出可积密度的问题，使得SAC的Actor/Critic损失可以直接用流策略多步采样的对数似然来表示[15] 性能表现与实验结果 - 在MuJoCo环境的From-scratch训练中，SAC Flow-G和Flow-T均达到了SOTA的性能水平，展现出极高的数据效率[22][24] - 消融实验证实，所提方法能有效稳定梯度，防止梯度爆炸；直接使用SAC微调流策略（Naive SAC Flow）的梯度范数呈现爆炸趋势，而Flow-G和Flow-T的梯度范数保持平稳，其对应性能也显著更优[27][29] - 方法对采样步数K具有鲁棒性，在K=4、7、10的条件下均能稳定训练，其中Flow-T对采样深度的鲁棒性尤为突出[30] - 在稀疏奖励的高难度任务（如OGBench-Cube-Double）中，From-scratch训练不足，凸显了Offline-to-online训练的必要性；在OGBench的Cube-Triple/Quadruple等任务中，SAC Flow-T收敛更快，成功率领先或持平现有离线策略基线[34] 与现有工作的比较优势 - 相较于FQL/QC-FQL等需要先将流策略蒸馏为单步模型再进行强化学习的方法，SAC Flow无需蒸馏，完整保留了流模型的建模能力[33] - 相比FlowRL等使用Wasserstein约束替代目标的方法，SAC Flow直接端到端优化标准SAC损失，避免了目标与模型之间的错位问题[35] - 基于流策略的方法普遍比扩散策略基线（如DIME、QSM）收敛更快，而SAC Flow在此基础上进一步超越了FlowRL[34]

Andrej Karpathy 开炮：智能体都在装样子，强化学习很糟糕，AGI 十年也出不来

机器之心· 2025-10-18 05:44

AGI发展时间框架与当前局限 - AGI的实现仍需约十年时间，当前AI代理存在认知缺陷，包括缺乏多模态能力、无法进行计算机操作、缺乏持续学习能力等[10][11] - AI行业存在过于乐观的预测，将当前阶段称为"智能体的十年"更为准确，而非"智能体之年"[10] - 实现真正可工作的AI代理需要解决智能程度不足、持续学习、记忆能力等关键技术瓶颈[11] LLM认知缺陷与技术挑战 - 大语言模型存在严重认知缺陷，无法胜任复杂编程任务，特别是在处理非模板化、智力密集型代码时表现不佳[35][36] - 当前编码模型在理解自定义实现和代码风格方面存在局限，经常误解开发者的编程意图[36][37] - 模型倾向于过度依赖训练数据中的常见模式，难以适应创新性的代码架构和实现方式[38] 强化学习范式的问题 - 强化学习存在根本性缺陷，其通过最终结果反向加权整个过程的机制效率低下[45][46] - 人类并不使用类似强化学习的方式解决问题，而是通过更复杂的反思和回顾过程[45][46] - 基于过程的监督比基于结果的奖励更合理，但实现自动化信用分配面临技术挑战[48][49] 人类学习与AI学习的差异 - 人类学习通过信息操纵和思考实现知识获取，而LLM仅通过预测下一个token学习，缺乏深度思考机制[56] - 人类记忆能力有限反而有利于泛化学习，而LLM过度记忆训练数据可能阻碍认知能力发展[62][63] - 模型崩溃问题源于合成数据训练的局限性，需要保持足够的熵值来维持输出多样性[57][64] AI对经济增长的影响 - AGI将逐步融入经济增长，预计每年带来约2%的GDP增量，但不会以爆发式方式实现[75][76] - AI自动化将首先应用于适合数字化的领域，如呼叫中心等结构化任务，而非复杂的知识工作[78][79] - 编程是AI应用的理想起点，因为代码本质上是结构化的文本，与LLM的技术特性高度匹配[82][83] 技术发展趋势预测 - Transformer架构可能继续演进，但梯度下降训练大型神经网络的基本范式将保持不变[29][30] - 未来技术进步需要算法、数据、硬件等多方面协同改进，而非单一领域的突破[30][74] - 认知核心参数规模可能优化至十亿级别，通过知识蒸馏去除过度记忆，保留核心推理能力[67][70] 实际应用部署路径 - AI部署将采用渐进式自动化策略，人类作为监督者管理多个AI代理，而非完全取代人工[79][80] - 当前AI在经济价值创造上主要集中在编程领域，其他知识工作的自动化进展相对缓慢[82][84] - 超级智能应被视为社会自动化的自然延伸，是计算趋势发展的结果，而非突变式突破[86]

特斯拉(US:TSLA)

AGI（通用人工智能）

上下文学习

AGI（通用人工智能）

上下文学习