强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

AI的未来，或许就藏在我们大脑的进化密码之中 | 红杉Library

红杉汇· 2025-07-24 06:29

人类大脑与AI的认知差异 - 人类大脑的认知能力如想象、计划、语言等至今仍是AI难以复制的超能力 [2] - AI之父杰弗里·辛顿认为实现类人智能需模仿大脑的计算方式 [2] - 当前AI已在部分领域（如语言处理）比肩人脑，但在心智理论、物理交互等方面仍落后 [10][14] 大脑进化的五次突破 - **第一次突破（5.5亿年前）**：原始大脑通过数百神经元实现条件反射、情感和利弊权衡 [8] - **第二次突破（脊椎动物）**：强化学习通过多巴胺量化目标可能性，赋予好奇心和复杂动作能力 [8] - **第三次突破（哺乳动物）**：新皮质带来想象力与慢思考能力，类似AI的推理模型（如OpenAI o1） [9] - **第四次突破（灵长类）**：心智理论使模仿学习和长期计划成为可能，AI目前在此领域不稳定 [9][10] - **第五次突破（人类语言）**：社会化语言系统推动文明，大语言模型已展现类似抽象理解能力 [11] AI的进化路径类比 - **K1-K2阶段**：从反射式清洁到强化学习（如试错优化家务动作） [13] - **K3阶段**：新皮质芯片实现数字孪生模拟（如预判儿童行动路径） [13] - **K4-K5阶段**：心智理论与语言能力使AI理解情感意图并沟通，但物理交互仍薄弱 [13][14] 历史突变对智能发展的启示 - 哺乳动物因恐龙灭绝获得发展契机，智能突破依赖历史偶然性 [6][15] - 蓝细菌光合作用等突变事件表明，颠覆性进步常源于冗余或非常规变化 [15][16] - 下一代AI突破可能来自非线性的能力跃迁，如因果推理或直觉感知 [18] 行业技术动态 - 强化学习提升AI格局，通过奖励过程（如围棋步骤评估）优化决策 [8] - 大语言模型已实现语言解码，但心智理论与物理动作仍是研发重点 [10][14] - 最新推理模型（如DeepSeek R1）采用系统2思维进行深度评估 [9]

《智能简史》

《智能简史》

大模型模型取得国际奥数竞赛金牌级成绩

科技日报· 2025-07-24 00:07

AI模型在数学竞赛中的表现 - 谷歌旗下深度思维公司和OpenAI的AI模型在国际数学奥林匹克竞赛(IMO)中首次取得金牌级成绩 [1] - IMO被视为AI系统数学推理能力的试金石深度思维去年开发的"阿尔法证明"和"阿尔法几何"AI模型曾取得银牌级成绩 [1] - OpenAI新型AI系统在4.5小时内正确解答6道IMO题目中的5道深度思维的"双子座深度思考"系统也取得同样成绩 [1] 技术实现方式 - 与去年使用"精益"编程语言不同今年两大团队的模型均采用自然语言处理技术 [1] - 深度思维的"双子座深度思考"采用强化学习方法这是谷歌在"阿尔法零"等AI游戏上取得成功的关键技术 [1] - OpenAI仅透露运用了强化学习与"实验性方法" 技术细节尚未公开 [1] 专家评价 - 菲尔兹奖得主陶哲轩认为这一进展令人振奋但需要可复现的研究数据支撑 [2] - IMO金牌得主约瑟夫·梅耶指出自然语言证明虽具可读性优势但冗长论证可能带来验证困难 [2]

自然语言处理技术

双子座深度思考

阿尔法证明

自然语言处理技术

双子座深度思考

阿尔法证明

官方揭秘ChatGPT Agent背后原理！通过强化学习让模型自主探索最佳工具组合

量子位· 2025-07-23 10:36

ChatGPT Agent的技术原理 - 由Deep Research和Operator两个核心工具整合而成，并加入终端、图像生成等多项功能 [8][9] - 通过虚拟机环境整合所有工具，强化学习让模型自主探索最佳工具组合 [12] - 工具共享状态设计使模型能高效处理互联网、文件系统和代码交互任务 [12] 训练方法 - 模型被赋予所有可用工具并运行在同一虚拟机环境中，通过奖励机制学习高效完成任务 [12] - 训练后模型能自主切换工具，例如从文本浏览器转向GUI浏览器处理JavaScript元素 [13] - 训练规模较2017年World of Bits项目提升数十万倍，强化学习计算量大幅增加 [15] 团队与组织架构 - 团队由Deep Research（3-4人）和Operator（6-8人）合并而成，总规模20-35人 [17][19] - 应用工程师参与模型训练，研究人员参与部署，打破研究与应用的严格界限 [20] - 以用户场景为导向，跨职能合作加速迭代，数月内完成项目 [21][23] 性能与交互设计 - 专注端到端性能，从用户提示到任务完成全程优化 [15] - 训练中纳入多样化任务轨迹，支持用户实时干预和反馈调整 [15] - 补足Deep Research多轮对话短板，兼具视觉交互与研究能力 [11] 挑战与安全机制 - 最大挑战是训练稳定性，需同时运行成千上万虚拟机应对网络宕机或API限制 [24] - 实施多层次安全措施，包括实时监控、敏感操作确认、生物风险专项防护 [24][27] 未来发展方向 - 目标为通用超级智能体，无缝处理从简单查询到复杂工作流的任务 [25] - 探索通过强化学习提升泛化能力，减少对额外训练数据的依赖 [25] - 计划增强多轮对话记忆、主动服务能力及复杂任务（如数据分析）完成度 [28]

通用超级智能体

Artificial Intelligence

通用超级智能体

Artificial Intelligence

端到端自动驾驶万字长文总结

自动驾驶之心· 2025-07-23 09:56

端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程：感知→预测→规划，每个模块输入输出不同，存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点，避免了模块间误差传递，但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性，而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架，包括行为克隆和逆优化控制两种方法，但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环（固定场景）和闭环（动态交互）两种，因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架，明确设计感知/预测/规划三模块，创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征，考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹，代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向，包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能，通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征，基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性，计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量，与自车状态交互完成规划[33] - 引入三类约束条件：碰撞约束/边界距离约束/方向约束，通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹，解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token，通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模，训练时学习轨迹分布，推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习，增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性，对异常案例处理能力有待提升[53]

端到端自动驾驶

多模态规划

Autonomous Driving

端到端自动驾驶

多模态规划

Autonomous Driving

夸克健康大模型万字调研报告流出：国内首个！透视主任医师级「AI大脑」背后的深度工程化

机器之心· 2025-07-23 08:57

核心观点 - 夸克健康大模型通过中国12门核心学科主任医师笔试评测，成为国内首个完成此项专业考核的AI大模型[1] - 该模型采用自建整套流程化系统，明确模型学习路径，提高可解释度和信任度，直接支持搜索业务一线及智能体夸克健康助手等产品[3] - 通过两条平行数据产线（可验证与不可验证）和多阶段训练方法，构建具备高水平推理能力的医疗健康大模型[6][17] 技术路径数据架构 - 采用三元组形式（问题-思考过程-最终答案）构建"问思答"整组数据，要求过程合乎医学逻辑且可解释[8] - 问题(Question)需含健康医疗背景与结构化标签体系，基于千万日活搜索日志和百万级医学知识图谱构建[9][10] - 思考(CoT)引入"思考行动体系"拆解推理步骤，区分难度等级以提升模型能力[12] - 最终答案(Answer)分为可验证类（医学实体/判断）和不可验证类（医疗建议/科普），采用不同验证方式[14] 数据产线设计可验证数据产线 - 冷启动阶段由专业医生精准标注，避免早期污染，采用"空白"预训练模型保持多样性[19][20] - 强化学习阶段按病药术检五类任务划分，每题生成50个候选回答以拓展解空间[24][25] - 通过百万次探索筛选高难度数据，以数据质量提升逼近模型能力上限[26] 不可验证数据产线 - 通过SOTA模型数据蒸馏获取原始思考数据，保障表达多样性与推理复杂度均衡[29] - 采用多维度偏好奖励模型（正确性/有用性等）筛选长文本答案，解决标准答案不唯一问题[29][30] 质量评估体系 - 针对"多解多路径"问题设计三类相似度指标（路径/图结构/术语）验证医学一致性[33][34] - 构建X Clinical Judge奖励系统，覆盖有答案标签和无标签问题，输出正确性与全面性评分[35] - 过程奖励模型通过人工提炼思维模式训练，评估思考过程合理性[37][38] - 引入一致性验证器防止思维与结果逻辑断裂，GRPO算法优化推理链条生成[39] 工程实践 - 基础设施包括百万级医学知识图谱、ICD编码术语集和定制化数据产线[6] - 采用端到端强化学习，产线同步产出高质量数据与模型[6][17] - 多阶段训练方法：从冷启动微调→强化学习→数据蒸馏→偏好对齐，防止能力遗忘[46][47] - 对抗模型作弊手段（快答/重复/虚构疾病），通过人工标注负面案例迭代验证器[40][42]

夸克健康大模型

夸克健康大模型

刚刚，阿里最强编程模型开源，4800亿参数，Agent分数碾Kimi K2，训练细节公开

36氪· 2025-07-22 23:53

模型发布与性能 - 阿里巴巴Qwen团队开源最新旗舰编程模型Qwen3-Coder-480B-A35B-Instruct，拥有480B参数，激活参数35B，原生支持256K上下文并可扩展至100万上下文，最大输出6.5万token [1] - 该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use三类任务中获得开源SOTA，性能超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型，与Claude Sonnet 4相当 [1] - 模型参数量超过阿里旗舰模型Qwen3的235B，小于Kimi K2的1T，官方称可帮助新人程序员一天完成资深程序员一周的工作，生成品牌官网最快只需5分钟 [2] 技术细节与训练 - 预训练使用7.5万亿token数据，其中代码占比70%，保留通用和数学能力，原生支持256K上下文并通过YaRN扩展至1M，针对仓库规模和动态数据优化 [16] - 后训练阶段在20000个独立环境中进行大规模强化学习，自动扩展多样化编程任务的测试用例创建高质量训练实例，提高代码执行成功率 [18][20] - 引入长视距强化学习(智能体强化学习)，构建可扩展系统并行运行20000个独立环境，在SWE-Bench Verified中实现开源模型最佳性能且无需推理 [20] 产品化与商业化 - 模型已在阿里云百炼平台上线，API采用阶梯计费，256K～1M档输入价格6美元/百万token，输出60美元/百万token，高于Claude Sonnet 4同档价格 [4][5] - 提供多种部署方式：Qwen Chat网页版免费体验，480B版本在Hugging Face、魔搭等开源社区发布可供下载和本地部署 [6] - 同时开源智能体编程命令行工具Qwen Code，基于Gemini Code分叉而来，进行定制提示和函数调用协议适配以更好释放模型能力 [3][22] 应用案例与表现 - 实测案例显示模型在指令遵循、UI设计、动画方面能力突出，开发Wordle游戏、3D旋转立方体展示台等任务完成度高 [7][9][12] - 开发速度极快，如中英文术语库20多秒完成初步结果，但存在未完全遵循技术栈指令等问题，真实部署可扩展性需优化 [11] - 支持图像生成、视频生成等功能，可上传文档、图片、视频、音频等内容，可能通过工具调用实现 [12]

智能体编程

Qwen3-Coder-480B-A35B-Instruct

智能体编程

Qwen3-Coder-480B-A35B-Instruct

字节发布GR-3大模型，开启通用机器人“大脑”新纪元

经济观察报· 2025-07-22 07:23

GR-3模型技术特点 - 推出全新Vision-Language-Action Model（VLA）模型GR-3，具备强大泛化能力、抽象概念理解及柔性物体精细操作能力 [2] - 采用Mixture-of-Transformers（MoT）网络结构，整合视觉-语言模块与动作生成模块，形成40亿参数端到端模型 [3] - 通过三合一数据训练法（遥操作机器人数据、人类VR轨迹数据、公开图文数据）显著提升性能，VR数据收集效率比传统方法快近一倍 [3][4] GR-3模型应用表现 - 在未见过物品和环境的通用拾取放置任务中保持高指令遵循率与成功率 [6] - 长程餐桌清理任务中仅凭总指令即可自主完成全流程操作，平均完成度超过95% [6] - 柔性衣物操作任务中稳定完成挂衣动作，展现灵活性与鲁棒性 [6] ByteMini机器人设计 - 配备22个全身自由度及手腕球形设计，可像人类一样灵活操作狭小空间物品 [5] - 搭载全身运动控制系统，动作快速稳定且能自动调整抓取力度避免损坏易碎品 [5] - 配置多颗摄像头（手腕细节捕捉+头部全局观察）确保任务执行准确性 [5] 未来发展方向 - 计划扩大模型规模与训练数据量以提升对未知物体的泛化能力 [7] - 将引入强化学习（RL）突破模仿学习局限，实现机器人自主试错与策略优化 [7] - 目标将GR-3发展为通用机器人"大脑"，推动其成为日常生活助手 [7]

机器人(SZ:300024)

通用机器人

ByteMini机器人

通用机器人

ByteMini机器人

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

机器之心· 2025-07-22 04:25

大模型训练数据挑战 - 训练大模型难度随规模扩大和应用领域拓展而增加，需要海量数据[2] - 不同类型模型对数据需求差异显著：LLM依赖文本、VLM需图文结合、VLA要求真实机器人行动数据[3] - Agent训练需带行动标签的真实交互数据，成本远高于网页文本/图像采集[4] 替代数据方案探索 - 研究者尝试通过仿真、人类视频、手持夹爪设备等低成本方案替代真实数据[8][10][12][13] - 仿真方案通过人为设计训练环境并引入随机变化提升鲁棒性，但高度依赖预设条件[11] - 人类视频方案需建立人体-机器人动作映射，受限于动力学差异和预设策略[12] 替代数据局限性 - 所有替代方案本质是妥协，会削弱模型本应具备的泛化能力[14] - 模型能力越强，越容易识别替代数据与真实领域差异，导致有效策略空间缩小[19][23] - 信息隐藏手段（如限制观察空间）会损害模型整合复杂信息的关键优势[20][21] 真实数据不可替代性 - 替代数据仅在特定假设场景有效，无法像真实数据那样揭示世界运行机制[33][34] - 机器人基础模型要具备物理世界泛化能力，必须依赖真实世界数据[36] - 替代数据应定位为辅助知识来源，而非主要训练数据[37][38] 通用AI研发启示 - "叉勺"式方案（如混合系统、人工约束）虽能降低数据需求，但会成为性能瓶颈[41][43] - 人工设计的归纳偏置会限制自主学习系统的扩展潜力[42][44] - 当前替代数据方案使机器人学习人类解决方式，而非发展自主策略[26][27]

真实世界数据

通用人工智能（AGI）

叉勺（Sporks）

真实世界数据

通用人工智能（AGI）

叉勺（Sporks）

计算机行业点评报告：Kimi：Researcher、K2双线突破，强化学习革新与开源智能的双擎驱动

华鑫证券· 2025-07-21 13:34

报告行业投资评级 - 推荐（维持） [2] 报告的核心观点 - 聚焦AI与计算机行业龙头，把握技术迭代与生态整合机遇，关注具备核心创新能力的领军企业，布局长期结构性增长机会 [9] - 科技巨头在AI及云计算领域的行业地位有望助力其未来发展，可继续关注谷歌（GOOGL.0）和微软（MSFT.0） [9] 根据相关目录分别进行总结 Kimi - Researcher：端到端强化学习代理的突破性飞跃 - 2025年6月20日，Moonshot AI发布Kimi - Researcher，通过纯强化学习框架突破传统工作流/SFT限制，支持单轨迹70 +次搜索调用与50轮以上长程推理，动态适应工具波动与环境变化 [5] - 其性能在权威测试中全面领先，Humanity's Last Exam Pass@1达26.9%，创领域新高；xbench - DeepSearch Pass@1达69%，显著超越同期模型 [5] Kimi K2：代理智能普惠化进程的关键引擎 - 2025年7月11日，Moonshot AI发布Kimi K2模型，开源基础架构与指令调优版本，实现代理智能技术普惠化 [6] - 该模型采用MuonClip优化器突破训练稳定性瓶颈，支持16K上下文长度的复杂任务处理 [6] - 在关键基准测试中，SWE - bench Verified以65.8% Pass@1刷新开源模型记录，LiveCodeBench v6达53.7% Pass@1，显著提升工具协同与代码生成能力 [6] - 同步开放的API工具调用接口为开发者提供低门槛智能体开发支持，加速工业级AI代理落地进程 [6] kimi：技术创新与商业生态协同深化 - Moonshot AI通过Kimi系列技术持续突破，2025年6月Kimi - Researcher展现冲突信息自纠正能力，强化复杂环境下的推理鲁棒性 [7] - 7月Kimi K2的MuonClip优化器实现15.5T token训练零中断，攻克大模型稳定性瓶颈 [8] - 商业化端加速生态构建，API工具接口支持开发者快速集成多工具链，赋能工业级应用 [8] - Kimi K2在Tau2 retail任务以70.6% Pass@1在开源大模型中处于领先，AceBench达76.5%，验证多领域任务可靠性 [8] 市场表现 - 计算机（申万）近1个月表现为12.1，近3个月为10.3，近12个月为60.5；沪深300近1个月表现为5.5，近3个月为7.2，近12个月为14.7 [2]

Kimi-Researcher

Kimi-Researcher

为什么不推荐研究生搞强化学习研究？

自动驾驶之心· 2025-07-21 11:18

原文链接： https://www.zhihu.com/question/1900927726795334198 点击下方卡片，关注" 大模型之心Tech "公众号戳我-> 领取大模型巨卷干货 >> 点击进入→ 大模型没那么大Tech技术交流群本文只做学术分享，如有侵权，联系删文，自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询写在前面我已经很久没答学术上的问题了，因为最近审的申请书一半都是强化学习相关的？所以知乎老给我推强化学习的各种东西……我就来简单的谈一谈强化学习吧。强化学习如果说你要是读到硕士研究生为止，哪怕你读的是清华北大的，最重要的基本功就是调包，搞清楚什么时候该调什么包就可以了，其次就是怎么排列组合，怎么缩小解空间，对一些算法只需要有个基本的流程性了解就好了。如果你读的是博士，建议换个方向，我觉得在现在的强化学习上雕花就是浪费时间和生命，当然你要是以发很多papers，混个教职当然可以，就是你可能很久都做不出真正很好的工作来，混口饭吃也不注重这个。我对强化学习的感受就是古老且原始，感觉就好像现在我还拿着一 ...

概率图模型（PGMs）

概率图模型（PGMs）