Workflow
强化学习
icon
搜索文档
通往 AGI 之路的苦涩教训
AI科技大本营· 2025-06-26 11:10
核心观点 - Google DeepMind CEO Demis Hassabis预测未来5到10年内有50%概率实现通用人工智能(AGI)[1] - AI发展历程中最大的教训是过度依赖人类经验而非算力与数据规模[2][3] - 当前AGI探索面临技术路径的隐忧,包括强化学习的局限性、脑模拟的算力瓶颈以及NLP的认知边界问题[9][14] 技术路径分析 - **强化学习**:虽为早期突破性技术,但存在"短视"缺陷,需结合更宏观的智能框架[14] - **脑模拟**:受限于算力瓶颈与理论盲区,难以完全复现人类认知机制[14] - **自然语言处理(NLP)**:虽进展迅速,但语言能力不等同于认知能力,模型输出与真实思想存在本质差异[9][15] 行业趋势与反思 - **算力驱动**:历史表明AI突破的核心引擎是计算规模而非人类直觉[2][3] - **大模型争议**:Scaling Law下参数膨胀可能掩盖智能本质,引发"进化还是幻觉"的质疑[15] - **跨学科融合**:脑科学与AI交叉研究成为新方向,强调对世界理解与知识迁移的能力[7][13] 关键人物与事件 - **刘嘉教授**:从AI转向脑科学再回归,提出AGI需融合认知科学、心理学等多学科视角[7][13] - **AlphaGo事件**:标志性技术转折点,推动研究者重新审视智能的本质与构建路径[7] - **《苦涩的教训》**:Richard Sutton指出AI发展应放弃人类经验依赖,专注算力与数据扩展[2][3] 未来探讨方向 - AGI构建是否需突破语言模型的表层能力,实现真正的认知理解[9][15] - 技术路线选择如何平衡短期效果(如NLP)与长期智能本质(如脑模拟)[14] - 跨学科研究(脑科学+AI)对突破现有范式局限的潜在价值[7][13]
哈啰进军无人驾驶赛道!背靠蚂蚁+宁王,能否复刻两轮神话?
南方都市报· 2025-06-25 15:19
公司动态 - 哈啰出行与蚂蚁集团、宁德时代三方合资成立"上海造父智能科技有限公司",注册资金12.88亿元,首期合计出资超过30亿元,专攻L4级自动驾驶技术研发与商业化落地 [1] - 合资公司股东分别为上海云玚企业管理咨询有限公司(蚂蚁集团)、上海钧哈网络科技有限公司(哈啰)、宁波梅山保税港区问鼎投资有限公司(宁德时代) [1] - 三方曾于2019年合作推出小哈换电业务,为两轮电动车用户提供换电解决方案,此次合作积累了一定协同经验 [4] 合作优势 - 哈啰出行在出行场景积累深厚,已搭建AI大模型和自动驾驶研发团队,并计划吸引全球人才 [3] - 蚂蚁集团提供资金支持,其金融支付平台、数据资产及AI技术(大模型、强化学习)可助力无人车支付闭环、保险设计和信用体系搭建 [3] - 宁德时代在动力电池领域的技术优势可缓解电动出行的"里程焦虑",为自动驾驶提供核心能源支持 [3] 行业竞争格局 - 国内Robotaxi赛道竞争激烈:百度Apollo拥有海量测试数据,小马智行、文远知行已在多地开放无人驾驶收费运营,滴滴依托出行平台用户数据优势布局 [6] - 主机厂如广汽(如祺Robotaxi)、上汽(享道Robotaxi)、吉利(曹操智行)均已入场 [6] - 特斯拉Robotaxi服务于美国得克萨斯州奥斯汀市投入运营,加剧全球市场竞争 [6] 行业挑战 - 技术层面需解决复杂环境下的安全性和可靠性问题,尽管传感器、算法优化等领域已有突破 [6] - 前期研发投入巨大:Waymo年研发投入超20亿美元,百度萝卜快跑累计投入高昂 [7] - 运营成本高企:激光雷达等硬件价格居高不下,千台车队的年运维成本近亿元,多数企业仍处于亏损状态 [7][8] 发展前景 - 哈啰通过"场景+技术+能源"协同模式整合资源,有望在Robotaxi市场开辟独特路径 [8] - 行业需突破技术研发、成本控制、市场拓展等难题以实现可持续盈利 [8]
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 06:50
多模态大模型技术进展 - 当前多模态大模型在复杂文本提示生成高保真图像方面取得进展,但在处理精确空间关系、多对象属性及复杂组合指令时仍面临挑战[1] - 香港大学MMLab、香港中文大学MMLab和商汤科技团队推出GoT-R1框架,通过强化学习增强语义-空间推理能力,超越预定义模板限制[2][3] - GoT框架通过显式语言推理过程规划语义内容和空间布局,提升图像生成准确性和可控性,但依赖人工定义模板限制了自主推理潜力[4] GoT-R1技术创新 - GoT-R1创新性应用强化学习于视觉生成,赋予模型自主学习和优化推理路径能力[5] - 构建双阶段多维度奖励框架:推理过程评估奖励(RPR)、推理至图像对齐奖励(RRI)、语义对齐奖励(Rsem)、空间对齐奖励(Rspa)、文本提示至图像对齐奖励(RPI)[14][15][16][17] - 采用组相对策略优化(GRPO)强化学习算法,使模型主动探索更优质推理策略,突破训练数据固定模式限制[18] 性能评估与行业对比 - GoT-R1-7B在T2I-CompBench六个评估类别中五个(色彩、形状、纹理、非空间属性、复杂组合)取得最高分,确立新SOTA性能[22][23] - 相比监督微调基线模型(Janus-Pro-7B-GoT),GoT-R1-7B指标提升达15%,纹理和形状保真度显著进步[24] - GPT-4o评估显示GoT-R1在空间关系理解类别以84:16压倒性优势胜出,证明其从根本上优化了模型推理能力[25] 技术实现细节 - GoT依赖840万图像生成样本和92万图像编辑样本构建的大规模推理链图文对数据集,结合Qwen2.5-VL等多模态大模型[10] - 独创语义-空间指导模块(SSGM)增强扩散模型遵循推理链能力[10] - 空间对齐奖励创新性将文本坐标转换为可视化布局供MLLM评估,显著提升空间关系判断准确性[16]
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
量子位· 2025-06-24 13:36
核心观点 - Sakana AI推出新方法,要求教师模型像人类教师一样输出清晰的逐步解释,而非从头解决问题[1] - 新方法训练出的7B小模型在传授推理技能方面比671B的DeepSeek-R1更有效[2] - 新方法能训练比自己大3倍的学生模型[3] 方法对比 - 传统方法:教师模型通过昂贵的强化学习训练,需从头解决问题,依赖自身能力[5][6][8] - 新方法:教师模型根据已知解决方案输出逐步解释,奖励标准是对学生模型的帮助程度[9][11][12] 性能表现 - 7B的RLT教师模型训练出的RLT-7B学生模型在AIME 2024 MATH 500 GPQA Diamond Overall得分49.50,优于DeepSeek-R1训练的Bespoke-7B(46.60)[4][17] - 7B的RLT教师模型成功训练32B学生模型RLT-32B,得分73.23,优于DeepSeek-R1训练的Bespoke-32B(71.47)[4][17][18] 效率优势 - 新方法训练32B学生模型仅需单个计算节点一天时间,传统方法需数月[24] - 新方法可与传统RL方法联合使用,提升性能[22][23] 解释质量 - DeepSeek-R1输出依赖外部工具和误导性内容[26] - RLT提供简洁清晰的解释,增加逻辑步骤帮助学生[27][28]
0产品估值100亿美元!前OpenAI CTO的“明星创业项目”:要做“企业定制AI模型”
华尔街见闻· 2025-06-24 08:39
公司概况 - OpenAI前首席技术官Mira Murati创立的AI初创企业Thinking Machines Lab(TML)成立不到五个月已完成20亿美元融资,估值达到100亿美元 [1] - 公司目标是通过定制化AI模型助力企业实现收入增长 [1] 商业模式与技术 - TML聚焦于通过强化学习技术开发定制化AI模型,将AI模型与企业追踪的具体KPI挂钩,旨在帮助客户直接提升营收或利润 [2] - 公司采用"RL for businesses"策略,为企业提供更精准的解决方案,可能在客户支持、投资银行或零售等细分市场具备竞争优势 [2] - TML计划通过结合开源模型的特定层级缩短开发周期,采用"模型合并(model merging)"技术整合多个模型的优势,无需额外训练即可快速推出产品 [2] - 公司策略旨在更快进入市场,与现有闭源模型竞争,尽管开源模型性能稍逊,但能力已接近闭源模型 [2] 团队与潜在收购 - TML组建了一支由20多名顶尖研究人员和工程师组成的团队,成员来自OpenAI和Anthropic等领先AI公司,包括OpenAI联合创始人John Schulman等 [3] - 团队实力使TML成为大型科技公司的潜在收购目标,Meta首席执行官扎克伯格曾与Murati讨论投资或收购可能性,但谈判未取得实质进展 [3] - 谷歌云为TML提供英伟达驱动的服务器租赁服务,可能促使谷歌进一步投资,类似十多年前DeepMind被谷歌收购的模式 [3] 市场竞争与挑战 - 市场上已有其他AI初创企业(如Scale AI和Turing)涉足定制化AI咨询服务,为特定行业或企业开发专属模型 [4] - 咨询服务的规模化难度较大,利润率和增长速度可能受限,TML也在探索开发其他AI应用或软件以提供更高利润空间 [4] - 公司计划推出面向消费者的产品,具体形式尚未明确,曾考虑开发与OpenAI的ChatGPT竞争的聊天机器人 [5]
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
机器之心· 2025-06-24 06:46
研究团队与背景 - 第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解 [1] - Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille [2] - 第二作者马崟淞是约翰斯・霍普金斯大学博士生 [3] - 第三作者兰石懿是英伟达 Research Scientist [4] 核心发现 - 强化学习领域出现颠覆性发现:AI仅通过玩简单游戏(如贪吃蛇)就能显著提升数学推理能力,无需大量数学训练样本 [5] - 研究团队提出ViGaL (Visual Game Learning)方法,在多个主流视觉数学基准测试和MMMU系列基准测试中超越此前在数学等领域数据上训练的强化学习模型 [5] - 论文标题为"Play to Generalize: Learning to Reason Through Game Play",强调不用数学样本,游戏训练在数学基准取得突破 [6] 研究方法与结果 - 使用7B参数的Qwen2.5-VL模型进行训练,仅通过强化学习训练模型玩贪吃蛇和旋转游戏 [11] - 在数学推理基准上平均提升2.9%,在多学科推理基准上平均提升2.0%,超过专门在数学或多学科数据上训练的强化学习方法 [11] - ViGaL在MathVista等数学推理基准上平均提升2.9%,相比之下在高质量数学数据集上进行强化学习的方法仅提升2.4% [15] - 在MMMU系列多学科推理任务上,ViGaL超越在多学科数据上进行RL训练的R1-OneVision-7B模型5.4个百分点 [15] 游戏设计原理 - 贪吃蛇游戏:在10×10网格上训练路径规划、避障决策和空间导航能力,对应数学中的坐标几何和函数图像理解 [18] - 旋转游戏:自主设计的3D空间推理游戏,训练空间几何理解能力,对应角度和长度相关的数学推理问题 [19] - 两款游戏设计哲学互补:贪吃蛇提升2D坐标相关数学表现,旋转游戏更适合角度和长度推理,联合训练效果更佳 [20] 理论依据与意义 - 游戏训练符合认知科学规律,类似儿童通过搭积木、躲猫猫等游戏活动构建抽象思维基础 [16] - 认知科学研究证实游戏常被用作探索人类心智的实验平台,如"四子连珠"游戏研究规划能力 [17] - ViGaL揭示潜在新趋势:当高质量人类数据枯竭时,精心设计的游戏可能为多模态推理能力发展开辟新道路 [22] - 游戏化训练范式优势:成本极低、效果显著、拓展性强、通用性好 [25]
光大证券:L4纯视觉或再掀技术变革 持续关注智驾主题
智通财经· 2025-06-24 03:15
行业前景与渗透率 - 2025E国内城市智驾渗透率拐点显现 2026E及之后将进入高速增长阶段 [1] - L2+市场聚焦10-20万元平价智能化推进 L4市场聚焦Robotaxi商业化规模上量拐点突破 [1] - 2025E全球Robotaxi商业化落地加速 规模上量拐点临近 [1] 技术路径与方法论 - L4核心突破点在于处理长尾场景(系统自动处理vs L2+司机兜底) [2] - 强化学习+世界大模型或为实现L4的核心方法论(L2+以模仿学习为主) [2] - L4落地复杂难度依次为数据(构建世界大模型)、算法(信号机制)、算力+带宽 [2] - VLA+世界大模型为当前智驾行业主流趋势 但L2+与L4在安全冗余性和模型构建难度上存在本质区别 [4] 硬件方案与成本 - 激光雷达技术路径存在延迟性、多传感器融合矛盾、挤占车端算力等弊端 [3] - L4硬件成本增加 技术升级/降本决定商业化上量规模 [3] - 激光雷达vs纯视觉双路并行或从L2+延续至L4 [3] 重点公司推荐 - 推荐L4纯视觉Robotaxi商业化上量的特斯拉、线控转向供应商耐世特(01316) [1] - 推荐小鹏汽车-W(09868) 建议关注理想汽车-W(02015)、蔚来-SW(09866)、小马智行(PONYUS) [1]
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 04:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]
00后投身具身智能创业,剑指机器人界「Model 3」!已推出21个自由度灵巧手
量子位· 2025-06-22 04:46
产品技术 - 灵初智能推出自研灵巧手,每只手21个自由度,支持16主动自由度,具备高精度操作能力,远超常见的6自由度抓取器 [1][2] - 人类一只手27个自由度,特斯拉Optimus Gen-3灵巧手22个自由度,21个自由度意味着机械结构复杂,硬件制造难度高 [3] - 灵巧手在夹持、旋转、精准插拔等精细操作上能力突出,能完成转笔、翻书、调方向等高自由度操作 [1][10] - 公司采用分层端到端快慢脑架构技术路线,快脑S1专注操作,慢脑S2专注推理规划,通过Action Tokenizer隐式连接 [22] - 推出分层端到端VLA+强化学习算法模型Psi-R1,结合历史动作与环境状态,理解动作长期影响,避免误差积累 [22] 团队背景 - 首席科学家杨耀东是北京大学人工智能研究院助理教授,强化学习领域知名学者,曾带领团队获NeurIPS 2022具身灵巧操作冠军 [13] - 联合创始人陈源培师从李飞飞和Karen Liu,曾首次实现强化学习在真实世界同时控制双臂、双手多技能操作 [14] - 团队在机器人领域采用强化学习冷启动训练,解决高自由度训练难度大、开放场景长程任务误差累积、跨任务泛化能力差等挑战 [15][16][17][18][19][20][21] 商业模式 - 目标将机器人整机价格打到10000美元(约71885元)级别,对标特斯拉Model 3定价策略 [3][29] - 自研灵巧手不单卖,采用软硬件深度耦合策略,所有硬件为算法、模型服务,强调系统闭环与数据链条完整性 [26][27] - 整机采用轮式+双手设计,紫色外观,动作系统迭代至Psi-R1,数据逐步积累,任务交付以ToB为主,聚焦3C制造和仓储物流 [4][29][39] 行业对标 - 借鉴特斯拉Model 3产业破局之路,通过降低价格、提升体验推动出货量增长,Model 3累计销量超百万辆 [32][33][34] - 特斯拉硬件+FSD+数据生态一体化构建护城河,灵初智能同样强调可靠硬件平台、一体化软件体验与数据回传机制 [35][36] - 预计2030年硬件成本降至10万元人民币级,单场景出货量突破百万台将触发生态爆发 [37][38]
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心· 2025-06-22 04:26
强化学习技术发展 - 强化学习已成为LLM领域不可或缺的核心技术 覆盖大模型对齐、推理模型训练及智能体强化学习等方向 [1] - Unsloth团队发布强化学习教程 从吃豆人案例切入 系统讲解RLHF、PPO至GRPO的技术演进路径 其开源项目GitHub星数超4万 [2][5] - GRPO(组相对策略优化)由DeepSeek开发 通过移除价值模型、采用多轮采样统计替代传统PPO架构 显著降低显存消耗 [22][25][26] GRPO技术原理 - GRPO核心创新在于用采样答案的Z分数标准化替代价值模型 通过计算8-16次生成结果的平均奖励及标准差生成优势值A [27][28] - 技术优势体现在:支持自定义奖励函数 适用于数学验证/代码执行等场景 显存需求最低仅需5GB(1.5B参数模型) [30][44] - 训练机制采用多答案生成策略(每问题8-16变体) 通过奖励函数动态调整权重 需300-1000训练步数见效 [45][49] 应用场景与案例 - 适用领域包括数学推理(GSM8K数据集)、邮件自动化、法律医学等专业任务 准确率提升依赖可验证的阶段性奖励设计 [30][55][61] - Unsloth提供实战案例:在Qwen3基础模型上实现推理功能 通过邻近度评分、XML标签计数等定制化奖励函数优化输出质量 [62] - 典型奖励函数设计包含关键词匹配(+1)、格式合规性(-1)、答案接近度(梯度奖励)等多维度评估体系 [58][59][60] 实施要点与资源 - 硬件要求:17B参数模型需15GB显存 推荐使用QLoRA 4-bit量化技术降低资源消耗 [44][49] - 关键成功要素包括:500+行训练数据、12小时以上训练时长、基于指令微调的预训练模型(概率非零) [41][49][57] - 学习资源涵盖Nathan Lambert的RLHF专著、Yannic Kilcher视频解析及Unsloth提供的Colab实战笔记本 [63]