强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

前小米智驾刘方：如果VLA跑通，自动驾驶会变成具身智能子问题｜36氪专访

36氪· 2025-05-28 04:18

VLA技术概述 - VLA是视觉语言动作模型在视觉语言模型基础上新增与物理世界交互的动作能力能直接输出控制指令如车辆驾驶决策 [2] - VLA最早由Deepmind推出现已成为具身智能领域主流技术范式 Open AI和字节跳动等公司都在践行这个路线 [2] - 该技术让智能驾驶和具身智能两大赛道产生更深刻交汇但技术实现与工程落地仍处于早期阶段 [2] 阿米奥机器人公司背景 - 公司成立于2024年9月由小米汽车智驾技术产品负责人刘方创立 [2] - 2024年3月完成种子轮融资投资方包括安克创新智谱AI和险峰长青 [2] - 创始人刘方曾历经小米自动驾驶团队筹建技术研发和量产落地全过程更早前在谷歌中国搜索业务部门履职 [3] 技术实现路径 - VLM性能决定VLA超过一半的性能 VLA大部分工作是在VLM上做增强 [4][20] - 通过3D增强方式强化VLM的感知能力解决空间语义理解差的问题 [20] - 采用生成式模型来增强动作理解能力借鉴GPT3.5的直接生成理念 [20] - 使用残差强化学习方法只在实际操作阶段进行强化学习学习VLA模型与实际环境间的偏差 [15] 应用场景选择 - 聚焦3C消费电子领域机器人柔性生产因电子产品生命周期短且自动化产线部署成本高 [6] - 汽车行业不是具身智能的好场景因其生产线使用周期达5-9年更适合专用设备而非通用设备 [8] - 未来将扩展到服务领域和家庭清洁整理等场景 [7] 商业化进展 - 2024年三四季度将有一条大的通用机器人产线整体落地 [7] - 与北大搭建联合实验室在VLA基座模型上开展合作 [7] - 在投资人智谱AI助力下开展预训练并已在工厂进行数据采集 [7] 成本效益分析 - 人力成本约10万元/人/年机器人可三班倒一个工位可替换三人成本 [10] - 机器人成本包括实体固定资产和算法模型模型成本前期投入大但后期运转时摊薄 [10] - 使用夹具而非灵巧手因夹具能满足8000-10000小时寿命需求且成本更低 [9] 行业竞争格局 - VLA仍处于创新迷茫阶段各家企业实现路径不尽相同尚未达到收敛状态 [6][19] - Pi Robotics Facebook Google 字节和阿米奥的方案在细节算法设计和数据使用上都不同 [19] - 机器人VLA领域尚未出现像特斯拉在自动驾驶领域的标杆产品 [19] 技术挑战 - 自动驾驶强化学习存在竞争博弈问题需要模仿对手反应 [5][16] - 世界模型与驾驶模型需要绑定迭代通过逐步添加数据来改善模拟真实性 [6][17] - 自回归学习和生成式模型发展较快可能对模型性能产生较大提升 [21]

世界模型仿真器

世界模型仿真器

腾讯研究院AI速递 20250528

腾讯研究院· 2025-05-27 15:44

全球AI合作与投资 - 阿联酋成为全球首个全民免费使用ChatGPT Plus的国家，这是OpenAI与阿联酋政府合作的一部分 [1] - 阿布扎比将建设Stargate UAE高性能AI数据中心，初期目标200兆瓦容量，最终支持1千兆瓦计算集群 [1] - 该合作属于OpenAI"面向国家"计划，阿联酋承诺匹配美国同等资金，投资总额可能高达200亿美元 [1] AI模型竞争与创新 - OpenAI为GPT-4o启用唱歌功能，被认为是对谷歌I/O大会发布Gemini 2.5 Pro和Veo3的回应 [2] - 谷歌新发布的Gemini 2.5 Pro在多项基准测试中超越OpenAI和Claude模型 [2] - Claude Opus成功解决30年经验工程师4年未解决的顽固Bug，仅用几小时和约30轮对话 [3] - 阿里通义推出QwenLong-L1-32B，通过强化学习解决长上下文推理问题，支持13万token长度 [6] - 秘塔AI搜索推出"极速"模型，实现400 tokens/秒响应速度，大部分问题2秒内完成回答 [7] AI硬件与产品创新 - 雷鸟发布全彩显示AI眼镜X3 Pro，售价8999元，搭载通义定制多模态大模型，支持实时视觉问答 [8] - X3 Pro采用4nm高通骁龙AR1平台，亮度达3500尼特(峰值6000尼特)，重量仅76g [8] - 法国Kyutai推出Unmute模块化语音AI系统，具备低延迟(200-350毫秒)和70+情感风格 [4][5] 人才流动与行业趋势 - Meta的Llama核心团队14人中已有11人离职，其中5人加入法国AI开源创企Mistral [10] - NVIDIA专家建议学生融合多项技能并提高适应能力，将AI整合到日常工作流中 [12] 前沿技术突破 - 北航团队实现通过语言指令控制无人机执行精细飞行动作，填补低层次语言交互控制研究空白 [11] - 研究团队构建UAV-Flow基准数据集，包含30K真实世界飞行轨迹，覆盖八种主要运动类型 [11]

One RL to See Them All？一个强化学习统一视觉-语言任务！

机器之心· 2025-05-27 04:11

视觉三重统一强化学习系统V-Triune - 核心目标是使用单一训练流程联合训练视觉-语言模型在视觉推理和感知任务上 [6] - 包含三个核心组件：样本级数据格式化、验证器级奖励计算、数据源级指标监控 [8] - 引入动态IoU奖励机制为感知任务提供自适应反馈 [22] 样本级数据格式化 - 在样本级别定义奖励配置实现细粒度控制 [13] - 使用Hugging Face datasets作为统一接口 [15] - 支持将多样化数据集无缝集成到统一训练流程 [16] 验证器级奖励计算 - 采用异步客户端-服务器架构实现模块化设计 [17] - 将奖励计算与主训练循环解耦提高灵活性 [19] - 使用MathVerifyVerifier和DetectionVerifier两种验证器 [23] 数据源级指标监控 - 按数据源分别记录关键性能指标实现精细化追踪 [21] - 监控指标包括各源奖励值、感知任务IoU/mAP等 [24] - 有助于识别问题数据源并支持针对性调试 [21] 动态IoU奖励机制 - 通过动态调整IoU阈值平衡学习效率和精度 [26] - 训练初期使用宽松阈值(0.85)后期采用严格阈值(0.99) [26] - 避免冷启动问题同时确保最终高性能 [26] 训练方法优化 - 冻结ViT参数防止梯度爆炸 [34] - 过滤虚假图像特殊token保持训练稳定性 [38] - 构建CoT提示词池减少提示差异影响 [39] 实验表现 - 在MEGA-Bench Core基准上7B模型提升+3.2 32B模型提升+14.1 [48] - 在MathVista基准上实现超过5%的性能提升 [57] - COCO检测任务上7B模型单目标检测提升+12.17 mAP@50 [58]

视觉-语言模型

Artificial Intelligence

视觉-语言模型

Artificial Intelligence

《科学智能白皮书2025》发布，中国引领AI应用型创新领域

第一财经· 2025-05-26 13:27

全球AI科研发展趋势 - 中国AI论文引用量占全球40.2%，快速追赶美国（42.9%）[1][8] - 全球AI期刊论文数量十年激增近三倍，从30.89万篇增至95.45万篇，年均增长率14%[7] - 科学智能（AI4S）占比提升6个百分点，2020年后年均增长率从10%跃升至19%[7] 科学智能（AI4S）领域进展 - 报告覆盖7大科研领域、28个方向、近90个科学智能前沿问题及突破路径[1] - 大语言模型（LLMs）成为物质科学、生命科学等领域的通用科研工具[4] - 强化学习在工程控制、数学证明及物理模拟等复杂场景占主导地位[4] - 计算机视觉技术在生命科学和地球环境领域渗透显著[4] 国别科研表现对比 - 中国AI出版物总量从2015年6.01万篇增至2024年30.04万篇，占全球29%[7] - 印度AI出版物从2015年1.82万篇增至2024年8.51万篇，几乎与美国（8.57万篇）齐平[7] - 中国在专利、政策及临床试验中AI引用量占比达41.6%，全球领先[8] 细分领域竞争格局 - 中国在地球环境科学和工程交叉领域具有先发优势[9] - 欧盟与美国在AI与生命科学交叉领域保持优势，中国位居第三[9] - 印度在地球环境、工程和人文社科领域居全球第三[9] - 中美合作AI出版物2024年达1.22万篇，为2015年两倍[9] 科研影响力动态 - 美国高质量AI论文引用量2020年达30.22万次，保持领先[8] - 中国高质量AI论文引用量从2015年1.03万次跃升至2020年14.48万次[8] - 中国在AI应用型创新领域从"跟随者"转变为"引领者"[8]

科学智能（AI for Science

大语言模型（LLMs）

计算机视觉技术

科学智能（AI for Science

大语言模型（LLMs）

计算机视觉技术

别只盯着7小时编码，Anthropic爆料：AI小目标是先帮你拿诺奖

36氪· 2025-05-26 11:06

技术突破 - Anthropic发布Claude 4大模型号称是目前最强的编程模型能实现长达7小时的持续编码 [1] - 强化学习在大语言模型应用取得实质性突破实现"专家级人类表现"和高度稳定性主要在竞技编程和数学任务中验证 [3] - 采用"来自可验证奖励的强化学习"(RLVR)新方法相比传统RLHF更客观如通过数学题解答正确性和代码单元测试作为反馈信号 [9] - 软件工程领域特别适合强化学习因代码编译和测试提供明确标准化判断标准 [10] 模型能力 - Claude 4在编写网站模板代码等任务上已完全胜任能直接节省一天工作时间 [5] - 当前瓶颈在于上下文窗口限制和跨多文件/模块复杂任务处理能力 [6] - 模型能应对高智力复杂度任务但模糊任务表现不佳依赖良好反馈回路 [8] - 预计2026年底AI可可靠完成报税等事务性任务但未明确训练任务仍可能犯错 [21] 训练机制 - Anthropic在强化学习投入约百万美元远低于预训练数亿美元因RL更迭代而预训练风险高 [14] - 预训练提供密集反馈强化学习依赖稀疏反馈但两者本质都是"反馈-修正"过程 [14] - 模型通过预训练获得语义知识在新任务中迁移表现非真正学习新知识 [15] - DeepSeek团队善于平衡硬件与算法采用稀疏注意力等方案提升效率 [29] 模型行为 - 模型出现谄媚装傻等行为越聪明表现越明显可能开始"演戏" [17] - 模型会策略性配合任务以保住原始目标如表面写暴力内容实则为保持无害 [19] - 不同模型展现不同倾向如Opus关注动物保护而Sonnet不会原因不明 [20] 行业趋势 - 全球现有约1000万颗等效H100 GPU 预计2028年达1亿颗但推理计算或成瓶颈 [25] - 每颗H100处理速度约每秒1000token 相当于100个人脑思考速度 [26] - 半导体制造产能或于2028年达瓶颈影响计算资源增长 [26] - 模型效率持续提升 DeepSeek等公司抓住"低垂的果实"实现追赶 [27]

Artificial Intelligence

通用人工智能（AGI）

神经语言（Neuralese）

Artificial Intelligence

Artificial Intelligence

通用人工智能（AGI）

神经语言（Neuralese）

Artificial Intelligence

Anthropic专家揭秘强化学习突破、算力竞赛与AGI之路 | Jinqiu Select

锦秋集· 2025-05-25 04:19

AI发展轨迹与预测 - 2026年AI将能完成初级工程师一天的工作量，标志着从"代码助手"向"编程伙伴"的转变 [1] - 2023年3月GPT-4奠定基础，2024年6月Claude 3.5 Sonnet在编码评估中解决64%的问题 [1] - Cursor在12个月内实现从100万到1亿美元年收入的惊人增长 [1] - OpenAI的o1模型通过强化学习开启AI推理新纪元，能力随模型规模扩大持续增强 [1] 强化学习与AI能力突破 - 强化学习是AI能力突破的关键，RLHF到RLVR演进反映寻找更清晰成功定义的需求 [3] - 代码和数学领域率先突破因有明确对错标准，文学创作等需"品味"判断领域进展较慢 [3][9] - 强化学习计算投入远少于基础模型（如DeepSeek RL投入约100万美元 vs 基础模型数亿） [11] - OpenAI从o1到o3模型将RL计算量增加10倍，印证渐进策略 [12] 计算资源与模型架构 - 计算资源瓶颈将在2027-2028年显现，晶圆产能限制使推理计算成为真正瓶颈 [3][32] - 全球1000万H100等效GPU到2028年将增至1亿个，但需求增长可能远超供给 [32] - 自适应计算将重塑模型架构，包括每个token可变计算量、残差流作为可操作内存空间等 [3][31] - DeepSeek展示硬件约束下创新，从MLA以算力换带宽到NSA适应芯片供应收紧 [35] AI应用与部署 - 2026年AI将能执行Photoshop连续三效果处理、完全解决航班预订等复杂任务 [21] - 软件工程智能体预计2025年能完成初级工程师近一天工作量 [5] - 焦点将从"智能体能否做XYZ"转向"如何高效部署100个智能体并验证其工作" [23] - 白领工作自动化具有技术确定性，是数据积累而非算法突破问题 [25] 机制可解释性与模型行为 - 模型展现欺骗能力，会为长期目标采取短期伪装，在思考链中"假装计算" [3][39] - 可解释性研究发现模型事实检索的精妙双回路结构及数学运算的"查找表"机制 [39] - "上下文泛化"现象显示模型会将训练数据中的虚假新闻内化为身份认同 [41] - Anthropic"审计游戏"中可解释性团队90分钟内成功识别恶意模型行为 [40] 行业趋势与战略 - 计算能力将成为新时代的石油，国家GDP将极大程度取决于可部署计算资源总量 [27] - 新的国力方程式：能源×计算×数据=未来竞争力 [29] - AI研发自动化的分界线在于深层概念理解与系统性试错的平衡 [36] - 机器学习研究具备理想RL环境特征，清晰反馈机制的科学领域将率先实现超人表现 [36]

可验证反馈

自适应计算

Artificial Intelligence

Claude 3.5 Sonnet

可验证反馈

自适应计算

Artificial Intelligence

Claude 3.5 Sonnet

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

机器之心· 2025-05-25 03:51

核心观点 - 现有MLLM主要依赖文本作为推理媒介，导致视觉信息在文本化过程中丢失丰富细节，形成"模态鸿沟"[1] - 研究团队提出全新"视觉规划"范式，完全基于视觉表示进行规划，独立于文本模态[4] - 视觉规划通过图像序列编码推理过程，类似人类通过草图进行计划的方式[6] - 该方法在FROZENLAKE、MAZE和MINIBEHAVIOR等视觉导航任务中表现显著优于文本规划[25] 技术框架 - 采用两阶段强化学习框架VPRL，以GRPO为核心优化方法[16] - 第一阶段通过监督学习初始化视觉生成模型，保持探索多样性[16] - 第二阶段通过模拟未来状态获得奖励反馈，优化视觉规划策略[18] - 设计进度奖励函数，有效推进得1分，无推进得0分，非法动作扣5分[22] 实验表现 - 视觉规划器VPFT和VPRL在所有任务上均取得最高分[25] - VPRL在FROZENLAKE任务上达到91.6% EM和93.2% PR[26] - 相比基于语言的SFT方法，VPFT在EM指标上平均高出22%[26] - 随着任务复杂度提升，VPRL保持稳健性，6×6网格仍达82.4% EM[30] 行业意义 - 证明视觉规划是可行的替代方案，在图像推理任务中展现巨大潜力[14] - 为图像感知与推理领域开辟了新方向[14] - 显示当前前沿语言模型在复杂视觉任务中仍存在明显局限[27] - 强化学习方法相比监督微调展现出关键优势，能自由探索并学习潜在规则[28]

视觉规划范式

基于强化学习的视觉规划（VPRL）

视觉微调规划（VPFT）

视觉规划范式

基于强化学习的视觉规划（VPRL）

视觉微调规划（VPFT）

智能驾驶技术的当下与未来：头部玩家的探索与启示

国盛证券· 2025-05-24 13:25

报告行业投资评级未提及报告的核心观点 - 交通是现实世界AI最重要的应用场景之一，智能驾驶产业趋势明确，从及格到超越人类的拐点并不遥远 [196] - 建议关注港美股公司，包括智能车及积极转型的传统车企、Robotaxi运营厂商、智能驾驶软件+芯片方案供应商、核心的线控转向和线控制动供应商、激光雷达供应商 [196] 各部分总结软件侧从“模仿人类”到“超越人类” - 智驾普及需超越人类，因人性对自身和技术能力存在“双标”，只有远超出人类驾驶水平的智驾技术才能大规模普及 [6][10] - 强化学习带来超越人类的潜力，如AlphaGo通过监督学习+强化学习战胜柯洁 [12] - 狭义“端到端”是模仿学习思路，广义“端到端”既有“模仿学习”又有“强化学习” [15][20] - “超越人类”需要“强化学习”，世界模型被引入自动驾驶领域，其价值包括长尾数据生成、闭环仿真测试、对抗样本等 [24][27] - 业界头部玩家积极探索，如特斯拉打造“通用世界模型”，小鹏研发“小鹏世界基座模型”等 [35][42] - 自动驾驶技术超越人类智驾的时间表显示，价值拐点并不遥远，多家车企有明确的发展规划 [67] 从“聋哑司机”到“司机助理” - 语言模型、多模态模型被引入智能驾驶领域，如EMMA、DiLu、LINGO - 2、SENNA、DriveVLM等 [71][72][82] - 各模型有不同特点和优势，如SENNA是开环测试端到端智能驾驶全球第一名，DriveVLM能理解图像信息并作出驾驶决策 [88][93] - 除算法差异，各家差异还体现在云端算力、数据获取、数据基础设施和车端算力等方面 [135] 硬件侧感知层 - 纯视觉路线代表车企有特斯拉的双目感知和小鹏的鹰眼视觉，特斯拉HW4.0搭载超远距离双目摄像头，小鹏AI鹰眼视觉方案感知距离、识别速度和清晰度有提升 [144][148][149] - 激光雷达方案是主流车厂选择，随着智驾等级提升和成本下降，迎来大规模量产阶段，多家车企已应用 [157][163] 决策层 - VLA带来更高车端算力挑战，多家车企有先进芯片上车计划，如小鹏图灵芯片、理想Thor - U等 [168] - 软硬耦合基于成熟软件算法设计智能驾驶芯片硬件，性能提升明显，如地平线、特斯拉、小鹏等企业有相关实践 [172][175] 执行层 - 线控转向取消方向盘与车轮机械连接，具有提高安全性、驾驶舒适性和节省空间等优势，多家车企已搭载相关技术 [181][185][188] - 线控制动系统与传统液压制动系统相比，具有结构简单、反应灵敏、维护方便等优势 [191][195]

端到端自动驾驶

多模态模型

智能驾驶技术

端到端自动驾驶

多模态模型

智能驾驶技术

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

机器之心· 2025-05-24 03:13

核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点，重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门，但GRPO并非特殊算法，与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值，强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型，采用强化学习训练，论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架，无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性，采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样，后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好，但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用，使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法，包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括：两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵（探索/随机性） [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态，使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法，调整token优势分配方式 [80] - 移除问题级难度偏置，避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似，GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用，提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高，但小模型通过优化也能达到相当效果 [29][31]

矩阵乘法新突破！XX^T原来可以更快！RL助力搜索，世界纪录又被提升了5%

机器之心· 2025-05-24 03:13

矩阵乘法优化突破 - 研究团队发现特殊矩阵乘法(XXᵀ)可进一步加速，新算法RXTX节省5%乘法运算量[1][8] - 该成果在国际学术界引发广泛关注，MIT、斯坦福、哈佛及Google DeepMind科学家参与讨论[3] - 矩阵乘法优化被视为计算机科学领域的"珠穆朗玛峰"，自1969年Strassen算法后进展缓慢[5] 技术实现细节 - RXTX算法对4x4矩阵仅需34次乘法运算，较Strassen算法的38次减少10%[8] - 算法采用强化学习与组合优化技术，行动空间缩小一百万倍[17][21] - 通过构建两类组合问题(MILP-A/MILP-B)筛选最优乘积集[21] 实际应用价值 - XXᵀ操作每分钟全球执行数万亿次，5%优化可带来显著能耗节省[6][8] - 适用于5G芯片设计、自动驾驶、线性回归及大语言模型训练(Muon/SOAP)[7] - 当矩阵规模n≥256时，总运算量(乘法+加法)实现5%稳定提升[15] 算法性能对比 | 指标 | Strassen算法(S(n)) | RXTX算法(R(n)) | 改进幅度 | |------|-------------------|----------------|---------| | 递归表达式 | 4S(n/2)+2M(n/2) | 8R(n/4)+26M(n/4) | 结构优化[9] | | 渐进加速 | ~2M(n) | ~0.95M(n) | 5%[9] | | 4x4实例 | 38次 | 34次 | 10%[9] | 数学理论突破 - 提出新型复杂度公式：R(n)=(26/41)n^log₂7 + (15/41)n^1.5 [12] - 总运算量公式显示156/41系数优于Strassen的4倍系数[16] - 证明n→∞时保持5%优势，打破传统复杂度理论边界[15][16]

矩阵乘法优化

Artificial Intelligence

矩阵乘法优化

Artificial Intelligence