RL - 财报，业绩电话会，研报，新闻

搜索文档

自动驾驶之心· 2025-11-28 00:49

直播核心主题 - 探讨视觉语言动作模型算法与强化学习落地问题 [2][3][6] 讨论议题 - 视觉语言动作模型架构和模型存在的痛点 [6] - 提升机器人全身运动控制性能的方案进化空间 [6][15] - 视觉语言动作模型结合强化学习实际上机的策略、硬件选择及轻量化方法 [6][15] 参与嘉宾 - 隋伟地瓜机器人算法副总裁 [9] - 张妮北京人形机器人首席研究员、学术委员会主任 [11] - 汪天才原力灵机合伙人 [13] - 于超清华大学博士即将加入清华深研院任助理教授担任主持 [15]

具身智能

具身智能之心· 2025-11-24 10:02

招聘背景与需求 - 公司收到大量关于视觉语言动作与强化学习方向的咨询希望进行更深入的内容讲解[1] - 公司向全平台粉丝招募该方向课程和项目辅导老师共同输出高质量内容[1] 岗位要求 - 研究方向需聚焦视觉语言动作与强化学习领域[2] - 学术界应聘者需博士及以上学历拥有相关方向顶级会议成果[2] - 工业界应聘者需具备实战经验和真机调试经验[2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区聚集大量视觉语言动作与强化学习方向人才[3] - 公司将提供高于行业平均水平的薪酬待遇[4] - 公司将提供丰富的行业资源支持[4] 联系方式 - 详细招聘内容可通过指定微信账号进行咨询[5]

具身智能之心· 2025-11-21 00:04

招聘背景 - 公司收到大量关于视觉语言动作与强化学习方向的咨询希望进行更深入的内容讲解 [1] - 公司向全平台粉丝招募该方向的课程和项目辅导老师旨在共同输出高质量内容 [1] 职位要求 - 应聘者需专注于视觉语言动作与强化学习的研究方向 [2] - 学术界应聘者需为博士及以上学历拥有相关方向的顶级会议成果 [2] - 工业界应聘者需具备实战经验和真机调试经验 [2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区聚集了大量视觉语言动作与强化学习方向的学习者 [3] - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] 联系方式 - 详细内容可通过添加指定微信账号进行咨询 [5]

SFT的本质，其实是在优化RL目标的下界...

自动驾驶之心· 2025-10-22 00:03

核心观点 - 在稀疏奖励设定下，标准监督微调（SFT）的优化目标实际上是强化学习（RL）目标的一个（较松的）下界 [1][9] - 为收紧该下界并保持训练稳定，研究引入了一个桥梁分布q进行调节，最终得到一个重要性加权版本的SFT目标（iw SFT） [1][11] - 相比于标准SFT，iw SFT通过调整辅助分布q，能够收紧下界并隐式利用负样本信息，从而可能学习到更优的策略 [11][19][20] 理论推导：SFT与RL的联系 - RL策略梯度算法的目标是最大化期望累积奖励，即 $J(\theta)=\mathbb{E}_{p(\tau;\theta)}[R(\tau)]$ [4][5] - 通过重要性采样和对数不等式，将RL目标与参考分布π_ref联系起来，推导出在稀疏奖励（仅对优质样本奖励为1）下，SFT目标是RL目标的一个下界，即 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}[\log p(\tau;\theta)]$ [5][6][7][8] - 标准SFT的下界可能不够紧，且随着训练策略p_π与参考分布π_ref差异增大，下界会变松，影响性能 [9] 重要性加权SFT（iw SFT）的引入 - 为解决下界松弛问题，引入一个可自由设置的辅助分布q作为桥梁分布 [11] - 通过引入q，RL目标被重写，并再次应用不等式，得到重要性加权的SFT目标 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}\left[{\frac{q(\tau)}{\pi_{\mathrm{ref}}(\tau)}}\log p(\tau;\theta)\right]$ [11] - 该目标多了一个权重系数 $q(\tau)/\pi_{\mathrm{ref}}(\tau)$，通过调整q可以收紧下界 [11] 桥梁分布q的选择与约束 - 理想情况下，q应尽可能接近当前策略p_π以保证下界紧度，但又不能离参考分布π_ref太远以保证训练稳定性 [13] - 研究采用时间滞后的策略模型参数来定义q，即 $q(\tau)=p_{\pi}(\tau;\theta_{q})$，以保持与p_π接近 [13] - 为控制重要性权重方差，提出了两种约束方案：在token维度进行每步裁剪，或在轨迹维度进行平滑处理 [14][15] 示例说明与优势 - 通过一个多臂老虎机示例说明，标准SFT在均匀参考策略下学习到的策略（期望奖励5/6）并非最优（最优为1）[18][19] - 在该例中，iw SFT能自适应地为高奖励动作（拉右杆）分配更高权重，最终收敛到最优策略，隐式地恢复了负样本信息 [19][20] - iw SFT的优势在于其目标函数中包含了参考分布π_ref的信息，从而能更有效地利用数据 [20]

后训练的「分」与「合」，SFT&RL 大一统才是正解？

机器之心· 2025-09-14 01:30

后训练的「分」与「合」：SFT&RL 大一统趋势 - 后训练阶段需将大语言模型原始能力与人类价值观、偏好及意图对齐关键阶段包括监督微调（SFT）和强化学习（RL）[7][8] - 传统「先 SFT 后 RL」范式存在流程僵化、资源消耗巨大及 RL 阶段不稳定性等问题成为业界公认痛点[9] - SFT 作为模仿学习存在三大局限：灾难性遗忘导致预训练知识退化、过拟合与泛化能力不足、静态性质无法动态适应新信息[11][12] - RL 优势在于探索能力可生成训练数据中未出现的回答并通过奖励信号判断优劣在处理创造性或主观任务时泛化性能优于 SFT[13][14] - 「合」的思潮试图打破 SFT 与 RL 壁垒将其视为同一优化过程在不同假设下的体现目标均为最大化期望奖励同时约束模型偏离程度[10] - 混合范式通过 SFT 锚定基本行为范围并为 RL 提供高质量起点约束探索空间以提升训练效率[14][15] - RL 算法本身存在复杂性及超参数敏感性微小调整可能导致训练崩溃奖励模型与策略优化目标不一致性也是不稳定根源[16] AI 硬件生态竞争与形态创新 - Meta、OpenAI、苹果和谷歌等巨头积极布局 AI 硬件竞争焦点在于生态优势形成[2] - 无屏幕依赖摄像头和麦克风的便携 AI 设备可能成为新一代随身交互入口[2] - AI 能力将逐步从「外挂」式应用转变为每台设备的「隐形能力」用户感知差异成为关键[2] - 无感交互技术试图让用户「忘记手机」但需验证是否为技术噱头[2] - 行业探索奇形怪状的新硬件形态但需评估其实际生活渗透可行性[2] AI 对搜索行业的重塑作用 - 生成式 AI 可能成为搜索的「替代品」或推动查询量与用户意图扩张的「增长引擎」[3] - 多模态交互与对话式 AI 搜索正在重新定义用户完成任务的方式[3] - AI 驱动搜索增长同时提升广告流量和商业价值[3] - 谷歌选择逐步融入 AI 智能体能力而非等待技术成熟反映其产品与战略思路[3] 行业动态规模 - 本周 AI & Robotics 赛道共收录 29 项要事速递含技术方面 12 项国内方面 9 项国外方面 8 项[4] - 本期通讯总字数 26535 字免费试读比例 8%[5]

后训练大一统

SFT

Artificial Intelligence

AI 硬件

后训练大一统

SFT

Artificial Intelligence

AI 硬件

Diffusion/VAE/RL 数学原理

自动驾驶之心· 2025-07-29 00:52

Diffusion Model - 扩散模型通过高斯分布的均值(原图提供)和方差(噪声系数提供)进行图像生成 [3] - 模型推导中关键变量α_t与噪声ε_t的线性组合服从N(0,1-α_tα_{t-1})的正态分布 [5] - 网络训练目标是拟合去噪过程中两个高斯分布的均值和方差 [7] - 通过KL散度项拟合理论去噪值与网络预测值 [9] - 将不确定的x_0转化为可预测的噪声ε进行迭代 [15] - 最终模型将分布拟合问题转化为噪声预测问题 [17] VAE模型 - 变分自编码器假设潜在空间服从高斯分布 [19] - 普通自编码器不具备生成能力 [21] - 使用神经网络拟合编码器 [23] - 通过重建损失+KL约束损失避免潜在空间退化 [26] - 最小化KL损失等价于最大化ELBO [27] - 训练过程包含重建损失和KL损失的平衡 [30] 强化学习 - 马尔可夫决策过程描述为状态-动作序列(s1,a1,s2,a2...) [35] - 表征学习分为语义表征(趋近脉冲分布)和生成表征(趋近高斯分布) [36] - 时间差分方法利用后续更准确的结果更新前期估计 [40] - 策略梯度方法学习最优状态-动作转换策略 [42] 自动驾驶行业 - 行业社区规模达4000人，涵盖300+企业和科研机构 [42] - 技术栈覆盖30+方向包括感知/定位/规划控制等领域 [42] - 重点技术包含BEV感知、多传感器融合、轨迹预测等 [42] - 专业课程覆盖端到端自动驾驶、大模型应用等前沿方向 [42]

Diffusion Model

VAE

Gaussian distribution

Markov decision process

Diffusion Model

VAE

Gaussian distribution

Markov decision process

专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻

海外独角兽· 2025-06-08 04:51

多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻：多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战：语言对视觉控制能力弱图文对齐不精确数据质量有限生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效但缺乏scale up特性因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷：生成理解与人类对齐三者割裂难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷：更大模型在数学等推理任务上表现反降因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径需解决环境scaling和自然语言反馈利用问题 [78][80][82]

多模态推理

自主学习

next token prediction

next token prediction

o1 范式

思维链

Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经

42章经· 2025-04-27 14:10

Agent定义与核心特征 - Agent是基于环境反馈使用工具的程序采用Anthropic的定义[2] - 核心三要素包括状态(Context)、行动(Tool Use)、激励信号(RL反馈机制)[32][33] - 与RL强关联需理解强化学习才能设计优质Agent产品[31] Agent技术演进 - 2023年4月AutoGPT为代表的早期Agent更像玩具实际应用价值有限[4] - 当前Agent已能在工作生活场景中真正解决问题实现价值跃迁[5] - 进步源于：1)底层模型能力提升(如RL结合、长思维) 2)工程产品突破(Context构建)[6][7] Context工程创新 - Context是大模型执行任务所需信息总和不同产品Context构成不同[8] - 相比传统RAG Agent能自动化提炼Context 减少人工干预[10][11] - 优质Context需包含用户历史行为路径如APP打开瞬间即提供海量意图线索[48][49] Tool Use技术方案 - Function Call/MCP/A2A属于代码驱动派 Computer Use/Browser Use属于视觉模拟派[13] - MCP核心价值在于统一Tool Use标准降低工具调用门槛[12] - Browser Use存在纯视觉方案(如已倒闭的Adept)和API包装方案后者更成熟稳定[15] 产品设计方法论 - Chat是最佳交互入口保障用户自由度优于追求准确度[41] - 需解决双重信任问题：开发者信任模型能力用户信任执行过程[52][54] - 垂直领域Agent将长期主导通用Agent面临收敛困难[25][46] 行业竞争格局 - 当前Agent可分为：1)Coding Agent(交付代码) 2)调研Agent(交付报告) 3)表格Agent(定量分析)[61][64] - Sheet0实现100%准确率核心在于模块化工具复用与AI Coding验证[57][67] - AI Coding与Agent存在协同效应但直接编码执行任务成本过高[29][30] 发展关键变量 - 模型能力突破与Context工程进步是两大核心驱动因素[69][70] - 需构建完整评估体系(激励信号) 确保系统可收敛[35][71] - 产品需平衡通用性与准确性不同场景选择不同技术路径[59][60]