强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

二段式SOTA！港科大FiM：从Planning的角度重新思考轨迹预测

自动驾驶之心· 2025-08-09 16:03

核心观点 - 提出"先推理，后预测"策略，从规划视角重构轨迹预测任务，显著提升预测置信度和准确性 [9][48] - 开发基于奖励驱动的意图推理器，结合QIRL框架实现可解释的行为意图推理 [6][9][24] - 引入Bi-Mamba增强的分层DETR-like解码器，有效捕捉轨迹序列依赖关系 [27][29][48] - 在Argoverse和nuScenes数据集上超越多个SOTA模型，minFDE6降低5-15% [34][36][38] 技术框架意图推理模块 - 采用网格级图表示场景布局，定义GRT作为离散决策序列 [5][17] - 基于MaxEnt IRL构建QIRL框架，学习参与者特定奖励分布 [6][14][23] - 通过策略rollout生成多模态GRT，提供意图先验指导 [24][26] - 辅助S-T OGM预测头建模未来交互，提升特征融合 [25][41] 轨迹解码架构 - 分层设计：首先生成无锚点轨迹提议，再进行基于锚点的优化 [26][27] - 双向Bi-Mamba结构处理轨迹序列，双向CLS token增强特征融合 [29][42] - 模态自注意力模块促进多模态交互，避免模态坍塌 [31][43] - 整体采用编码器-解码器结构，集成场景编码与轨迹生成 [18][20] 实验结果定量指标 - Argoverse1测试集：Brier score 0.5732（集成模型），优于HPNet(0.5912) [34][35] - Argoverse2验证集：minFDE6 0.528，长期监督版本(GRT-L)表现最佳 [36] - nuScenes数据集：minADE10 0.78，MR10 0.23，全面领先现有方法 [37][38] 消融研究 - 移除推理分支导致brier-minFDE6上升44%（2.879→1.602） [40] - Bi-Mamba比单向结构降低Brier score 1.5%（0.603→0.594） [42] - OGM模块贡献约6%的minFDE6提升（1.670→1.602） [40][41] 行业应用 - 验证了RL范式在驾驶行为建模的可行性，为VLA时代提供技术基线 [48][54] - 课程内容显示VLA算法工程师岗位薪资达40-70K，反映技术需求 [54][55] - 知识星球社区覆盖30+技术栈，4000+成员包含300+企业与机构 [59]

逆强化学习

FiM（Foresight in Motion）

逆强化学习

FiM（Foresight in Motion）

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

量子位· 2025-08-09 07:01

数据集发布与核心价值 - 上海创智学院与上海交通大学GAIR Lab联合发布MegaScience数据集，包含125万条跨学科问答对，覆盖生物学、化学、计算机科学等7大领域，旨在提升通用AI系统的科学推理能力[1] - 数据集采用大学教材作为核心数据源，通过12万本教材构建65万条问答对(TextbookReasoning子集)，确保答案权威性，最终混合形成125万条数据的MegaScience全集[14][15] - 发布一周内下载量突破4.6k次，登上HuggingFace Datasets Trending榜单第四位，显示学术界与工业界的强烈需求[7] 技术创新与解决方案 - 开发四阶段系统性方案：构建15个Benchmark的评估体系、大模型驱动的数据去污染、教科书级数据源采集、聊天模型优化的数据精炼流程[13] - 采用全自动化LLM流水线处理教材数据，包含OCR转换、双重问答抽取(高标准/低标准)、LSH去重、DeepSeek-V3精炼、Llama3.3污染检测等5大步骤[17][19][20][23][24][25] - 创新数据筛选策略：基于回答长度(保留最长回答)、问题难度(Qwen2.5模型评分1-10分过滤简单题)、随机采样三重方法优化数据集质量[30][31][32] 性能表现与模型验证 - 在Qwen2.5-7B模型上，MegaScience微调版相比官方Instruct模型提升2.21%平均性能，在SciBench等计算类任务中优势达5.78个百分点[42] - 模型规模扩展性显著：Qwen3-14B经MegaScience训练后性能超越官方Instruct模型2.82%，30B版本差距扩大至3.24%，显示大模型获益更明显[44][45] - 数学推理呈现能力门槛效应，仅Qwen2.5-7B及以上规模模型能有效吸收数据集中的高难度数学内容(大学本科级概念)[46] 开源生态与评估体系 - 完整开源体系包含：数据集本体(CC-BY-NC-SA 4.0协议)、数据构建代码、评估系统(Language Model Open Science Evaluation框架)、预训练模型[5][37][48] - 评估框架覆盖15个Benchmark，创新两阶段答案抽取技术解决传统\boxed{}格式局限，支持选择题/计算题/判断题/简答题全题型[38][39] - 提供跨模型验证结果：在Llama3.1-8B、Qwen全系列(1.5B-30B)上均观察到性能提升，最高达73.86平均分(Qwen3-30B)[43][44]

通用人工智能

TextbookReasoning

通用人工智能

TextbookReasoning

理想VLA含金量分析与关键迭代方向预测

理想TOP2· 2025-08-09 06:18

理想VLA的核心价值 - 理想VLA属于DeepSeek MoE级别的创新，虽非MLA级别的首创理念，但首次完整落地至汽车领域并取得显著成果，架构设计与执行高度原创 [2] - 公司在AI软件与硬件结合方面达到行业领先水平，克服了硬件迭代慢、AI软件与传统编程差异大的挑战 [3] - 创始人李想（44岁，高投票权）是VLA推进的核心灵魂人物，其资源调配、关键决策能力（如押注强化学习路线）对技术方向起决定性作用 [4][5] - 强化学习为核心的VLA架构长期将显著优于模仿学习主导的端到端路线，具备针对性解决bad case和持续迭代的优势 [6][9] 理想VLA的技术架构与迭代方向 - 技术内核为强化学习主导，通过仿真环境试错学习最优策略，区别于监督学习的标记数据依赖和端到端的单纯模仿 [9][10] - 当前车端部署4B参数模型（较小规模），未来需提升本地推理能力以支持更大参数量模型，同时确保时延达标 [12] - 关键迭代路径：1）优化仿真数据效率（低成本、高质量、快速生成）；2）挖掘现有芯片算力潜力或升级硬件；3）强化学习驱动的能力跃升 [8][12] - 长期若未实现L4，可能转向在线学习等新架构，允许模型权重动态更新，但需解决超级对齐等安全问题 [13] 行业技术对比与创新点 - 端到端方案依赖模仿学习，拟人性提升但缺乏思考能力，bad case改进效率低（类似炼丹）；理想VLA通过强化学习实现针对性优化 [9][10] - 仿真数据替代真实数据成为核心训练资源，解决强化学习对交互场景的高需求（如AlphaGo无人类棋谱训练案例） [10][11] - 公司展示的工程能力包括：仿真系统优化（如无保护左转的自我博弈训练）、芯片算力压榨、跨领域技术整合（如扩散模型生成轨迹） [12][2] 创始人角色与资源分配 - 李想直接参与AI学习与决策，确保资源高效投向VLA而非端到端，并推动双Orin平台兼容前沿模型（2022年车型支持2025年技术） [4] - 创始人深度介入避免团队陷入无效争论，保障技术路线执行力（对比技术灵魂人物离职导致资源中断的案例） [5][4]

对话千寻智能高阳：科学家创业不太“靠谱”，但创业就像一场游戏

36氪· 2025-08-08 01:49

公司战略与定位 - 千寻智能采用软硬一体模式，定位为具身智能领域的"苹果"而非"安卓"，强调技术初期必须整合硬件与软件能力[5][6] - 公司成立19个月累计融资超10亿人民币，资方包括华为哈勃、京东、宁德时代等头部机构[4] - 创始团队为学术与产业组合：高阳为AI科学家，韩峰涛为硬件专家，曾操盘数万台机器人量产[3][7] 技术路径与创新 - 核心VLA模型采用快慢系统技术，实现动作流畅性（如叠衣服甩动动作），4个月前完成开发[35][36] - 独创one two VLA架构，支持复杂任务自主分解（如"手机放抽屉"需3步骤）[31] - 95%训练数据来自互联网人类视频，提升跨品类泛化能力（如折叠机识别无需额外训练）[46][47] - 现阶段暂未大规模投入世界模型研发，认为强化学习环节成本过高[37] 行业竞争格局 - 判断市场难以容纳第二家软硬一体公司，头部企业倾向固守教育细分市场[9][11] - 反对大规模数采工厂模式，认为机器人形态未定型导致数据迁移价值打折[41][42] - 叠衣服成为行业标准测试场景，因其需应对千变万化的物体形态[44] 技术发展阶段 - 预测4年后进入Robot GPT3.5阶段，任务完成率达70%（如家庭场景取水）[32] - 当前VLA存在语言模块过载问题，需优化数据利用（人类视频预训练）与架构设计[33][34] - 泛化能力仍处初级阶段，但互联网数据可使新物体识别提升60%-80%[48] 人才与研发管理 - 招聘偏好顶尖院校硕士/博士，需发表过机器人领域论文但无需工作经验，因技术迭代过快[52] - 自动驾驶与机器人技术本质相似，差异在于本体成熟度与安全容错标准[53] 产品验证标准 - 提出机器人性能评估方法论：观察跨品类操作（衣物品类切换）、动作流畅度（卡顿检测）、抗干扰能力（衣物团扔测试）[3][25][29]

创业(US:VEMLY)

千寻智能的VLA模型

千寻智能的VLA模型

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

量子位· 2025-08-07 10:13

强化学习探索难题 - 传统RL框架下大语言模型存在探索与利用严重失衡问题，模型熵值迅速下降导致推理路径固化[1] - 过早收敛现象削弱了模型多样性生成能力并限制性能上限突破[2] FR3E框架设计原理 - 核心思想受OpenAI论文启发，采用"先返回，再探索"两阶段结构[2][4] - 通过识别高不确定性关键token作为锚点引导多样化展开，系统性重建探索机制[4] - 采用双难度混合数据策略：低难度数据稳定初期训练，高难度数据激发深层推理[23] 算法实现细节第一阶段：First Return - 对每条prompt进行多次rollout收集轨迹及奖励信号，采用拒绝采样过滤全正确样本[12] - 构建基准路径并计算token生成熵，筛选top-n高熵token划分partial rollout[13] 第二阶段：Entropy-Eliciting Explore - 在GRPO++基础上引入动态优势调制机制，公式化定义优势调制因子αj[16][17] - 调控后的Advantage A'根据价值边际改善动态缩放学习信号[18] - 正向影响时降低advantage保留探索空间，负向影响时放大信号突破瓶颈[20][22] 实验结果验证 - 在GSM8K等7个数学推理基准测试中，FR3E平均表现较GRPO++提升1.8%-3.1%[25] - Qwen2.5-32B模型在AIME24基准取得6.1%显著提升[25] - 训练动态显示FR3E熵值衰减更慢，响应长度更长，突破微调模型僵化困境[26] - 全正确轨迹数量显著增加，全错误轨迹比例大幅降低[27] 方法论价值 - 结构化探索范式有效解决LLM强化学习中探索不足的核心瓶颈[28] - "结构化反馈+自适应调节"思想具备良好可扩展性，为未来训练提供新范式参考[29]

大语言模型

大语言模型

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

量子位· 2025-08-07 10:13

强化学习框架MCP·RL - 科技公司OpenPipe推出全新开源强化学习框架MCP·RL，专注于LLM+RL结合[2] - 该框架只需提供MCP Server地址，agent即可自动发现工具、生成任务并通过强化学习闭环反馈优化策略[3] - 在2/3的基准测试中达到或超越SOTA性能[4] 传统MCP流程痛点 - 传统MCP需人工配置完整工作流（数据准备、工具注册、prompt编写）[8] - 需设置回退逻辑且功能增多时配置量呈指数级上升[9][10] - 用户需完全掌握任务拆分、工具调用及逻辑设计能力[11][12][13] MCP·RL技术突破 - 实现"做中学"模式：自动发现工具、生成任务、实战训练及策略优化[16][18] - 训练流程四步走：工具发现→任务生成→实战训练→测试泛化[18][25] - 无需人工标注数据，适配任意Server且开箱即用[23] 应用效果与案例 - ART框架对Qwen 2.5-14B强化训练后，在电子邮件检索任务中超越o3达到SOTA[26] - 网友评价其实现从"AI调用MCP工具"到"AI利用MCP"的范式转变[20][21] 技术背景与扩展 - 基于OpenPipe的ART系统（Agent Reinforcement Trainer），核心为LLM经验学习机制[24] - ART可集成GRPO至Python应用，通过RULER评估策略实现参数优化[24][25]

Artificial Intelligence

ART（Agent Reinforcement Trainer）

Artificial Intelligence

ART（Agent Reinforcement Trainer）

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

机器之心· 2025-08-07 09:42

大型语言模型训练技术演进 - 大型语言模型训练分为两个阶段：预训练阶段通过大规模文本数据集训练模型预测下一个词，后训练阶段旨在提升模型理解和执行人类指令的能力[1] - 后训练阶段采用强化学习技术，OpenAI首创基于人类反馈的强化学习（RLHF），依赖人工标注但成本高效率低[2] - DeepSeek创新性地用自动化RL技术替代人工评估，通过奖励信号自主学习，显著降低成本并提高效率[2] 强化学习算法对比 - OpenAI在ChatGPT中采用近端策略优化（PPO）算法[3] - DeepSeek提出组相对策略优化（GRPO）算法，通过组样本价值估计提升效率，成为DeepSeek-R1核心技术[3] - Qwen团队指出GRPO存在稳定性问题，提出组序列策略优化（GSPO）算法，在Qwen3系列模型中实现更稳定训练[10][22] GRPO的技术缺陷 - GRPO采用逐token重要性采样，导致长序列训练中方差累积和梯度不稳定[11][16] - 在MoE模型中问题加剧，10%的专家网络激活变化导致训练低效[25] - 实验显示GRPO在CodeForces任务中得分收敛于2000分以下，而GSPO持续提升展现更强可扩展性[20] GSPO的创新优势 - 将重要性采样提升至序列级别并通过长度归一化，显著降低方差[23] - 无需Routing Replay等辅助策略即可稳定训练MoE模型，保留架构潜力[27] - 在48层Qwen3-30B-A3B-Base模型训练中，消除10%专家网络激活差异问题[25] 行业技术发展趋势 - Qwen3系列模型通过GSPO在知识数学、编程等测评中超越Kimi-K2、Claude-Opus4等顶级模型[5] - 实验证明GSPO训练效率显著高于GRPO，可能成为后训练强化学习新标准[31] - 行业共识认为强化学习在后训练阶段对提升大语言模型推理能力至关重要[31]

重要性采样

专家混合模型（Mixture-of-Experts

Artificial Intelligence

重要性采样

专家混合模型（Mixture-of-Experts

Artificial Intelligence

具身智能之心技术交流群成立了！

具身智能之心· 2025-08-07 02:38

具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]

Diffusion Policy

多模态大模型

Diffusion Policy

多模态大模型

成功率提高57%，VLA+RL最新！CO-RFT：实现VLA模型的高效微调（北航&清华等）

具身智能之心· 2025-08-07 00:03

核心观点 - VLA模型在现实世界机器人控制中展现出巨大潜力但传统监督微调方法面临样本效率低和泛化能力差的问题[4] - 提出分块强化学习框架(Chunked RL)和CO-RFT算法通过结合动作分块的离线强化学习显著提升模型性能[8] - CO-RFT采用两阶段训练先通过模仿学习初始化网络再用离线RL优化策略在6个任务中平均成功率提升57% 周期时间减少22 3%[29][30] - 该方法展现出强大位置泛化能力在未见过的位置上达到44 3%成功率显著优于传统方法[30] 技术框架 - 分块强化学习框架扩展了时间差分学习采用自注意力和因果掩码设计仅需一个网络即可学习所有Q值[13][15] - CO-RFT算法第一阶段通过全参数微调进行模仿学习第二阶段实施带动作分块的离线RL优化[16] - 采用CalQL作为基础算法其保守正则化器可防止Q值高估并解决稀疏奖励问题[16][18] - 模型架构基于RoboVLMs 使用Kosmos2作为VLM主干并采用TD3算法生成确定性动作[18] 实验结果 - 在6个灵巧操作任务评估中 CO-RFT在4个任务达到近100%成功率显著优于SFT方法[29] - 抓取消毒剂和取回马克杯等困难任务中 CO-RFT分别实现36%和30%成功率展示处理复杂场景能力[29] - 数据多样性对性能影响显著随机初始化数据集训练的模型OOD性能仅下降10-15% 而固定初始化下降55 3%[32][33] - 奖励上采样策略有效缓解稀疏奖励问题提升价值学习效率[18] 应用价值 - 该方法使用30-60个样本即可有效微调大幅降低数据需求提升样本效率[4][29] - 在Realman单臂平台和Inspire灵巧手上验证展示实际机器人应用潜力[23] - 解决VLA模型在现实场景部署的关键挑战包括样本效率训练稳定性和泛化能力[8][30] - 为具身智能领域提供新思路结合离线RL和动作分块技术突破性能瓶颈[34]

分块强化学习

离线强化学习

分块强化学习

离线强化学习

具身智能之心招募科研辅导老师了！学术圈的大佬看过来~

具身智能之心· 2025-08-06 08:30

招募科研辅导老师 - 具身智能方向招募科研辅导老师旨在带动学术界发展 [1] - 研究方向包括VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型仿真运动控制目标导航等 [2] - 要求博士及以上学历包含在读需有2篇A会或一区以上期刊/会议有辅导经验者优先 [3] - 提供行业资源共享论文署名与现金激励 [4]

多模态大模型

多模态大模型