强化学习（RL） - 财报，业绩电话会，研报，新闻 - Reportify

强化学习（RL）

搜索文档

从“炫技”转向“干活”，轮子比双足更吃香......高盛总结了WAIC人形机器人最新趋势

硬AI· 2025-07-28 15:03

行业趋势 - 2025年WAIC上轮式机器人成为主流，因其更易快速部署，加速短期商业化 [1] - 行业从追求技术"完全拟人"转向优先考虑"近期商业可行性"，轮式方案在稳定性、成本和能耗上优势明显 [4] - 轮式趋势可能对行星滚柱丝杠等与双足步态强相关的零部件供应商构成利空 [4] 商业化进展 - 展会规模显著扩大：会场面积7万平方米（同比增长35%），参展商800家（增长60%），门票价格168元人民币（上涨31%） [4] - 展出机器人产品超过60款，远超去年的25款静态原型，大多数进行实时交互式任务演示 [4] - 应用场景明确化，机器人被设计用于解决特定问题，如工业、消费服务、医疗康复等领域 [6] 技术瓶颈 - 机器人手部精细操作仍是主要瓶颈，任务成功率、稳定性和操作速度距离取代人力仍有差距 [2] - 展会演示中操作失败频发，取货等简单任务需30-40秒，远慢于人类 [9] - 视觉-语言-行为（VLA）大模型与强化学习（RL）结合被视为商业化关键路径 [9] 成本与数据 - 宇树科技推出售价4万元人民币的入门级机型，但主流全尺寸机器人售价仍在40-50万元人民币区间 [11] - 高质量真实世界数据收集成本高昂，公司普遍采用10%-50%真实数据与合成数据混合的训练策略 [11] - 成本曲线下行但未现显著拐点，技术拐点临近但尚未到达强劲可见性阶段 [11] 应用场景案例 - 工业领域：电力巡检、钢铁厂"3D"环境作业（宝信软件Turin机器人） [6] - 消费服务：打冰淇淋、衣物整理、零售门店部署（盖博特系统获100家订单） [6] - 医疗康复：傅利叶智能GR-3机器人已在300家医疗机构部署 [7]

人形机器人商业化

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

轮式机器人

GR - 3机器人

人形机器人商业化

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

轮式机器人

GR - 3机器人

从“炫技”转向“干活”，轮子比双足更吃香......高盛总结了WAIC人形机器人最新趋势

华尔街见闻· 2025-07-28 10:02

行业商业化趋势 - 行业从技术"炫技"转向务实商业化阶段轮式底盘机器人成为主流设计加速短期落地[1] - 展会规模显著扩大会场面积7万平方米同比增长35% 参展商800家增长60% 门票价格168元/天上涨31%[2] - 机器人应用场景多元化超过60款产品亮相(去年仅25款静态原型) 覆盖制造业仓储物流消费零售和家庭养老等领域[1][2] 技术发展现状 - 移动能力取得进步实现自主导航和动态运动(如自主导航拳击热身演示) 但精细操作仍是核心瓶颈[1][5] - 任务成功率低且速度慢取物操作需30-40秒远低于人类水平即使远程遥控也存在动作复现困难[5] - 硬件创新聚焦灵巧手模型传统零部件公司6个月内推出人形机器人原型[3] 成本与数据情况 - 成本曲线下移但无显著拐点宇树科技推出4万元入门机型全尺寸机器人售价40-50万元小型机型10-30万元[1][6] - 数据收集采用混合策略真实世界数据占比10%-50%结合合成数据训练因高质量数据收集成本高昂[6] 应用场景落地 - 制造业应用针对性强电力巡检灯泡品控钢铁厂等"3D"(肮脏危险严苛)环境专用机器人[6] - 消费服务领域具体化冰淇淋制作衣物清洗房间整理纪念品制作等细分功能零售系统已获100家门店订单[6] - 医疗康复实现部署专用机器人提供医疗互动康复中心解决方案在300多家医疗机构落地[6]

机器人(SZ:300024)

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

人形机器人

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

人形机器人

90%被大模型吃掉，AI Agent的困局

投中网· 2025-07-25 08:33

通用Agent行业现状 - 通用Agent面临尴尬境地，90%的市场份额可能被大模型吞噬[3][4][8] - Manus等头部公司出现收入下滑和用户活跃度下降，Manus 6月访问量1781万次，较3月峰值2376万次下降25%[5][22] - Genspark发布45天即达3600万美元ARR，但6月MRR环比下跌13.58%至295万美元[20][22] 商业化与竞争格局 - 头部产品商业化表现分化：Manus 5月ARR达936万美元，但6月MRR环比暴跌51.79%至167万美元[20][21] - 国内大厂主导市场，百度、字节等通过免费策略挤压创业公司空间[26][27][29] - 收费模式对比：Manus Pro会员199美元/月限积分制（约10次/天），Claude Opus 4同价但支持不限量使用[9][11] 技术瓶颈与场景困境 - 大模型能力溢出直接冲击Agent价值，用户更倾向使用基础模型API[9][12] - 垂类Agent在企业端优势显著，可对接内部知识库实现精准输出[15][16] - 当前通用Agent核心场景局限在PPT生成、深度研究等办公功能，但存在信息错漏和低价值输出问题[24][32][34] 技术演进方向 - MiniMax采用线性注意力机制支持100万上下文输入，强化法律文书处理能力[35] - 强化学习(RL)成为突破关键，月之暗面Agent模型在HLE测试得分从8.6%提升至26.9%[36][38] - OpenAI最新Agent产品ChatGPT Agent在HLE测试创41.6%的SOTA成绩[38] 市场趋势 - 行业呈现"模型即Agent"趋势，大模型公司直接切入Agent赛道[28][29] - 开发者生态成竞争焦点，阿里、字节等通过平台推广和比赛吸引开发者[26] - 深度研究功能因成本较低成为主流方向，多模态能力成为标配[30][32]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

90%被大模型吃掉，AI Agent的困局

36氪· 2025-07-18 10:48

通用Agent市场现状 - 通用Agent面临增长放缓困境，Manus访问量从3月2376万次下跌至6月1781万次（跌幅25%），Genspark访问量下降8% [10] - 商业化表现波动明显：Manus 5月ARR达936万美元但6月MRR环比下跌超50%至254万美元，Genspark同期ARR 3600万美元但MRR下跌13.58%至295万美元 [9][11] - 核心问题在于缺乏杀手级应用场景，当前功能集中于PPT生成、多模态处理等办公场景，用户付费持续性不足 [2][11] 竞争格局变化 - 基础模型能力溢出侵蚀市场：Claude Opus 4等模型提供不限量服务（200美元/月），相较Manus Pro会员199美元/月但限制每日约10次任务更具性价比 [4][6] - 垂类Agent在企业端形成优势：Head AI等垂类产品能对接内部知识库，准确度显著高于通用Agent [7] - 大厂主导国内市场：百度、字节等通过免费策略挤压创业公司空间，MiniMax等采用积分制但难敌大厂资源 [12][13] 技术演进方向 - 强化学习（RL）成为突破重点：月之暗面Kimi-Researcher通过RL将HLE测试得分从8.6%提升至26.9%，OpenAI ChatGPT Agent最新达41.6% [18][20] - 长文本处理能力升级：MiniMax M1模型支持100万token上下文，优于Gemini 2.5 Pro的200K上限 [17][18] - 多模态集成趋势明显：MiniMax融入视频生成能力，百度心响整合原有对话系统 [15] 商业模式挑战 - 成本转嫁矛盾突出：Manus采用积分制导致高频用户成本高企，对比基础模型API无使用次数限制 [6] - B端落地障碍：企业需求与通用Agent"黑盒"特性存在冲突，需深度集成内部系统 [7] - 大厂生态战略：阿里、字节等侧重开发者平台建设，通过比赛推广而非直接产品竞争 [11]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

思维链开创者Jason Wei最新文章：大模型将攻克哪些领域？ | Jinqiu Select

锦秋集· 2025-07-16 07:58

大模型能力演进与验证者定律核心观点 - 大模型能力每3-6个月迭代一次，从文本生成、多模态理解扩展到复杂推理和工具调用，"模型即产品"趋势明显，模型能力边界决定产品边界 [1] - 验证者定律提出：AI解决任务的难易度与任务可验证性成正比，具备客观真实性、快速验证、可扩展验证、低噪声、连续奖励五大特征的任务将被优先攻克 [2][8][10] - 验证不对称性普遍存在（如数独验证易/解决难、数学问题验证对称、事实核查验证难），通过预研可改善不对称性 [4][6][7] 技术发展路径 - AlphaEvolve案例显示，符合验证者定律五大特性的问题（如几何优化）已被高效解决，未来所有满足条件的问题均可能被AI攻克 [13] - 可验证任务将形成"参差不齐的智能前沿"，AI在该领域表现显著优于人类，因梯度信号密集且迭代速度快 [12][14] 行业影响 - 创业者需紧密跟踪模型技术进步方向，技术敏锐度关乎生存，验证者定律为预判大模型发展提供框架 [1][2] - 科学创新领域出现范式转变：单个高价值问题的解决（train=test）优先级超过传统机器学习泛化能力 [13]

验证的不对称性

验证者定律

强化学习（RL）

验证的不对称性

验证者定律

强化学习（RL）

突发｜思维链开山作者Jason Wei被曝加入Meta，机器之心独家证实：Slack没了

机器之心· 2025-07-16 02:22

核心观点 - Meta持续从OpenAI挖走顶尖AI人才，最新目标是知名研究员Jason Wei和Hyung Won Chung [1][2] - 两位科学家在AI大模型领域贡献显著，Jason Wei是思维链（CoT）技术的主要作者，论文引用量超1.7万次 [4][6] - Hyung Won Chung是OpenAI o1系统的核心贡献者，参与多个重大项目研发 [4][29][38] 人才流动 - Jason Wei和Hyung Won Chung的Slack账号已被OpenAI停用，离职消息获多方证实 [2] - 两人均毕业于MIT，曾任职谷歌，2023年加入OpenAI后现可能同时转投Meta [6][18][27] - Jason Wei未直接回应跳槽传闻，但社交媒体评论普遍认为其将加入Meta [9][10] 技术贡献 - Jason Wei的CoT论文引用量超1.7万次，总论文引用量达77k，位列前两位的是CoT和GPT-4技术报告 [6][21] - Hyung Won Chung主导开发了OpenAI o1系列模型，强化了推理、搜索及RL策略能力 [29][38] - 两人参与OpenAI关键项目包括o1-preview、o1正式版、Deep Research及Codex mini模型训练 [18][29] 行业影响 - 人才流动反映Meta在AI领域的人才争夺策略，OpenAI面临核心团队持续流失压力 [1][41] - Jason Wei提出的RL"同策略"理念强调差异化研究路径，可能影响未来AI研发方法论 [11][12][13] - Hyung Won Chung的技术落地能力推动AI从理论到应用生态的闭环构建 [40]

思维链（CoT）

强化学习（RL）

Artificial Intelligence

思维链（CoT）

思维链（CoT）

强化学习（RL）

Artificial Intelligence

思维链（CoT）

斯坦福毕业，用RL做Agent，华人创业团队种子轮融资1200万美元

机器之心· 2025-07-09 00:50

公司概况 - Pokee AI 公开测试版正式上线，公司定位为开发交互式、个性化、高效的 AI Agent [1][4] - 公司完成 1200 万美元种子轮融资，由 Point72 Ventures 领投 [8] - 团队从 4 人核心组扩张至 7 人，计划在收入规模扩大前将团队控制在 10 人以内 [2][26] 技术架构 - 以强化学习（RL）为核心构建 AI Agent，LLM 仅作为人机交互的“UI层” [5][17] - RL 模型的动作空间直接调用工具，而非 LLM 的 Token 生成，提升任务执行泛化性 [17] - 目标是通过 No Code/Low Code 方式让第三方开发者快速搭建 AI Agent [16] 产品愿景 - 通用 Agent 的终极形态是仅需用户提供 prompt 即可自动调用工具解决问题，无需人工配置 [14][15] - 当前行业尚未完成“决策能力”第一步，后续需攻克个性化记忆（Memory）和对齐（Alignment） [19][21] - 公司认为 LLM 的进步将直接提升其 RL 架构的理解能力，两者非竞争关系 [22] 行业定位 - 创业初期 RL 方向被视为“天方夜谭”，现逐渐成为行业共识 [7][11] - 公司节奏比 Meta 快 4-5 倍，7 个月内完成产品公测和融资 [9] - AI 时代创业更轻量级，远程办公模式高效，无实体办公室 [27][28][30] 商业化路径 - 优先聚焦解决实际问题能力，再逐步优化意图理解 [22] - 商业化初期不追求完美对齐用户意图，而是通过迭代实现三步走战略 [19][21]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

量子位· 2025-07-07 06:13

数学能力与模型迁移性研究 - 核心观点：数学能力强的模型不一定能将技能迁移到其他领域，强化学习(RL)训练的模型展现出显著优于监督微调(SFT)的跨任务迁移能力[1][4][19] - 数学能力与通用智能的关系：传统认知认为数学能力强的模型更智能，但最新研究表明这并非绝对[2][3] - 研究方法：评估20+模型在数学推理、其他推理(医学推理、智能体规划)和非推理任务(常识对话、指令遵循)的表现[7] - 关键指标：提出迁移能力指标(TI)，量化数学能力提升对其他任务的迁移效果(TI>0为正迁移，TI<0为负迁移)[8][9] - 实验结果：RL微调模型在数学任务平均得分达53.8，较基线提升4.1，且在其他推理任务TI达+79.6，非推理任务TI+29.3；SFT模型在非推理任务出现显著负迁移(TI最低-250.2)[10][11] - 机制分析：RL模型PCA偏移最小，KL散度更低(平均降低24.0)，token排名偏移更小，说明其能保持原有知识同时增强特定领域能力[15][16][17][18] - 行业启示：强化学习是实现可迁移推理发展的关键技术路径，对AI产品开发具有重要指导意义[19]

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

Artificial Intelligence

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

Artificial Intelligence

图像目标导航的核心究竟是什么？

具身智能之心· 2025-07-04 12:07

研究背景与核心问题 - 图像目标导航需要两种关键能力：核心导航技能（如检测自由空间、障碍物）和通过比较视觉观察与目标图像计算方向信息 [2] - 当前主流方法依赖专门的图像匹配或预训练计算机视觉模块进行相对位姿估计 [2] - 研究聚焦于是否可以通过强化学习对完整智能体进行端到端训练来解决该任务 [2] 核心研究内容与方法 - 探讨了多种架构设计对任务性能的影响，核心在于如何支持图像间的隐式对应计算 [3] - 主要架构包括Late Fusion、ChannelCat、SpaceToDepth + ChannelCat、Cross-attention [4] - 实验设计使用Habitat模拟器和Gibson数据集，动作空间包括前进、左右转向和停止 [7] - 评估指标包括成功率（SR）和SPL（成功路径长度与最优路径长度的比值） [7] 主要发现 - 早期patch级融合（如ChannelCat、Cross-attention）比晚期融合（Late Fusion）更关键，能更好支持隐式对应计算 [8] - ChannelCat（ResNet9）在Sliding=True时SR达83.6%，远高于Late Fusion的13.8% [6] - Cross-attention（DEBiT-b）在Sliding=True时SR达90.5% [6] - 低容量架构（如ResNet9）在Sliding=False时SR从83.6%降至31.7%，而DEBiT受影响较小（从90.5%降至81.7%） [8][9] - 能力迁移性：将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后，SR从31.7%提升至38.5% [10][11] 导航与相对位姿估计的关联 - 导航性能与相对位姿估计性能存在相关性，DEBiT在两者上均表现最优 [12] - 导航成功率（SR）与相对位姿估计精度（误差<2m, 20°）呈正相关 [12] 结论 - 支持早期局部融合（如交叉注意力、ChannelCat）的结构对任务成功至关重要 [15] - 模拟器的Sliding设置显著影响性能，但通过迁移感知模块权重可部分迁移至真实环境 [15] - 导航性能与相对位姿估计能力相关，验证了方向信息提取的核心作用 [15] - 简单低容量架构仅通过RL训练难以成功解决图像目标导航，预训练仍不可或缺 [15]

图像目标导航

强化学习（RL）

相对位姿估计

交叉注意力（Cross-attention）

晚期融合（Late Fusion）

图像目标导航

强化学习（RL）

相对位姿估计

交叉注意力（Cross-attention）

晚期融合（Late Fusion）

ToMAP：赋予大模型「读心术」，打造更聪明的AI说服者

机器之心· 2025-06-24 14:07

大语言模型的说服能力研究 - 顶尖大模型能生成条理清晰的说服语段在Reddit等平台以假乱真但缺乏心智感知能力成为发展瓶颈 [3] - 成功说服需精准洞察对方立场和思维过程即心理学中的「心智理论」(ToM) 当前大模型在对话中缺乏心智感知导致两个缺陷：仅围绕核心论点讨论无法根据论点联系提出新角度仅重复己方观点无法因应对方态度变化调整策略 [4][6] ToMAP模型架构创新 - 引入两大心智模块：反驳预测器通过提示词激活模型预判反对观点的能力生成的反驳观点与真实被说服者语义高度相似态度预测器动态评估对方对反论点的态度倾向使用BGE-M3文本编码器与MLP分类器实现 [9] - 采用强化学习训练模型说服力得分衡量对方态度变化并引入格式奖励、重复惩罚等辅助信号优化生成质量 [11] 实验性能表现 - 基于Qwen-2 5-3B的ToMAP在CMV、Anthropic、args me数据集测试中平均说服效果达17 48 显著优于基线模型和无心智模块的RL版本超越GPT-4o与DeepSeek-R1等更大参数模型 [14] - ToMAP在10轮长对话中说服力保持稳定增长而基准模型和常规RL模型说服力随轮次增加趋于饱和或下降 [17] - 训练轨迹显示ToMAP重复度惩罚保持低位思考长度显著高于基线更倾向使用理性策略而非情绪煽动 [15][16] 技术突破与行业意义 - ToMAP首次在大模型说服任务中实现对手建模与策略灵活性通过心智模块使AI具备初步社会认知特征 [19][20] - 该框架证明小模型在适当训练和模块设计下可超越大参数模型为构建可信AI交流系统提供新思路 [14][21]

心智理论（ToM）

强化学习（RL）

反驳预测器

态度预测器

心智理论（ToM）

强化学习（RL）

反驳预测器

态度预测器