强化学习
搜索文档
具身智能之心近20个交流群来啦!欢迎加入
具身智能之心· 2025-09-23 04:00
文章核心观点 - 成立具身智能之心技术交流群,旨在聚集行业专业人士共同承担具身智能领域未来领导者的角色 [1] 技术交流群定位与目标 - 交流群覆盖近20个具身智能子技术方向 [1] - 目标是与成员共同承担该领域未来领导者的角色 [1] 目标成员与研究方向 - 欢迎从事人形机器人、四足机器人、机械臂等本体研究的专业人士加入 [1] - 研究方向包括视觉语言导航、大模型、视觉语言交互、强化学习、移动操作、多模态感知、仿真、数据采集等 [1] 加入方式 - 可通过添加指定微信账号并备注“加群+昵称+研究方向”的方式申请加入 [1]
灵巧手厂商困在夹缝里
投资界· 2025-09-23 02:32
行业核心观点 - 灵巧手行业技术远未成熟,但价格战已过早升级为一场鏖战 [6] - 行业面临上游零部件厂商和下游整机厂的两面夹击,纯粹的灵巧手初创公司生存空间受到挤压 [6][9][10] - 当前灵巧手的智能不足是最大痛点,自主完成任务的能力基本不存在,演示多为过拟合结果 [5][18] 市场竞争格局 - 灵巧手厂商可划分为三类:上游零部件厂商向下拓展、下游整机厂商向上布局、以及纯粹的灵巧手初创公司 [9][10] - 零部件厂商与整机厂往往不将灵巧手作为主要现金流产品,前者将其作为核心部件能力展示,后者则集成于本体甚少单卖 [10] - 投资者主要押注三个特征:最AI(智能化程度)、最像人手(如高自由度)、最早量产(工程化能力) [6][11] 技术路线争议:机械结构 - 关于“最像人手”存在争议,一味追求高自由度是伪命题,关键在于能否有效驱动每个自由度而非数量多少 [12][15] - 灵巧手技术路线远未达成共识,主要分歧点在于传动方案(腱绳驱动 vs 连杆驱动),两者在灵活性与可控性上难以调和 [16][17] - 电机是灵巧手机械结构中成本最高的部分,一只空心杯电机价格约为一两千元,仅电机成本动辄数万元 [27] 技术路线争议:智能化 - 没有智能化的灵巧手本质与夹爪无异,其重复定位精度(约±0.2毫米)远低于工业夹爪(±0.02毫米) [18] - 行业普遍认为软件提升潜力远大于硬件,软硬一体是必由之路,当前技术路线已收敛到强化学习 [18][19] - 灵巧手泛化不足的本质被认为是数据量匮乏,特别是视觉、精准行为数据和触觉数据严重欠缺 [19][20] 商业化与量产挑战 - 灵巧手的买家身份不明确,科研客户(高校、院所)仍占主流,商业和工厂仅有散单,需求零散 [22][25] - 应用场景存在争议,分为“商业派”(如商超场景)和“工业派”(中小批量柔性生产),但能体现其不可替代性的应用仍有待开发 [22][23][25] - 3C、汽车等产线客户对灵巧手表现出兴趣,因其高柔性特点能适应频繁调整产线的需求,灵巧手有望提供一劳永逸的解决方案 [24] 成本与价格战 - 降本是行业唯一共识,理想商业化飞轮“规模量产—数据涌现—技术迭代—成本下降”尚未有效启动 [6][29] - 国产替代和设计优化是主动降本的主要途径,例如触觉传感器价格已从7年前的4万元以上降至最低199元 [29] - 国内灵巧手价格出现断崖式下跌,从早年采购海外产品需100-200万元,降至目前普遍低于10万元,甚至有产品跌破万元(如慧灵科技eHand-6定价2999元) [30] - 价格战短期内打开了销路,但低价款与高价款在参数上差距甚远,千元级产品被部分业内人士视为不实用的玩具 [30]
放榜了!NeurIPS 2025论文汇总(自动驾驶/大模型/具身/RL等)
自动驾驶之心· 2025-09-22 23:34
自动驾驶 - FutureSightDrive提出时空思维链技术用于自动驾驶视觉思考[2] - AutoVLA开发端到端自动驾驶视觉-语言-动作模型 具备自适应推理和强化微调能力[4] - 阿里与西交联合研发FSDrive系统 论文编号2505.17685[6] - UCLA团队推出AutoVLA框架 论文编号2506.13757[7] - 清华AIR与北航等机构开发双边网格驾驶场景高斯泼溅技术[13] 视觉感知推理 - OmniSegmentor构建多模态语义分割灵活学习框架[16] - 水牛城大学与中科院研发YOLOv12注意力中心实时目标检测器 论文编号2506.05280[18] - 南开大学程明明团队提出DFormer模型 论文编号2509.15096[19] - PixFoundation 2.0研究视频多模态大模型在视觉定位中的运动使用机制 论文编号2509.02807[20][33] 视频理解 - DeepTraverse采用深度优先搜索网络实现算法化视觉理解 论文编号2506.10084[25] - 英伟达与台湾大学开发ThinkAct视觉-语言-动作强化推理系统 论文编号2507.16815[27] 图像视频生成 - Fast and Fluent Diffusion通过卷积解码和拒绝微调提升扩散语言模型效率 论文编号2509.15188[34][63] - AutoEdit实现图像编辑超参数自动调优[31] - OmniSync通过扩散变换器实现通用唇形同步 论文编号2505.21448[36][38] 具身智能 - DeepMind推出自改进具身基础模型 论文编号2509.15155[46][50] - 复旦与上交等机构开发ForceVLA力感知混合专家模型 用于接触式操作 论文编号2505.22159[48][51][64] 大模型训练 - Scaling Offline RL通过高效表达捷径模型扩展离线强化学习 论文编号2505.22866[40][44] - 研究发现在机械推理中LLM世界模型存在输出层脆弱性 论文编号2507.15521[40][62] 大模型微调 - 卷积解码和拒绝微调技术提升扩散语言模型性能 论文编号2509.15188[42][63] - 联邦学习框架实现自适应LoRA专家分配与选择 论文编号2509.15087[42][55] - 康奈尔大学开发差分隐私联邦低秩适配技术 论文编号2507.09990[44] 医疗诊断评估 - 构建3D肿瘤中心视觉问答医疗基准测试VLM诊断能力 论文编号2505.18915[39][44][57] - DeepTumorVQA项目评估视觉语言模型临床诊断准备度[39][44][57] 文档理解与安全 - STEM-POM评估语言模型在文档解析中的数学符号推理能力 论文编号2411.00387[55][65] - AgentMisalignment测量基于LLM智能体的行为错位倾向[55] - 概念级可解释性技术用于审计和引导LLM响应 论文编号2505.07610[54] 代码生成 - SBSC逐步编码方法提升数学奥林匹克竞赛性能 论文编号2502.16666[60] - 卷积解码和拒绝微调技术优化扩散语言模型代码生成 论文编号2509.15188[60][63] 强化学习 - 强化视觉潜在规划实现视觉-语言-动作推理 论文编号2507.16815[23][27][65] - 扩展离线强化学习通过高效表达捷径模型 论文编号2505.22866[40][44] 持续学习 - 持续学习技术改进多模态大语言模型 论文编号2410.19925[53][56] - 研究分布外泛化在ARC类任务中的挑战 论文编号2505.09716[66] 人机交互 - 实时直观AI绘图系统整合形式与上下文意图增强人类创造力 论文编号2508.19254[54] - 公平摘要技术平衡提取式摘要的质量与多样性 论文编号2411.07521[66]
理想智驾二级部门数量从3个调整为11个是次要矛盾
理想TOP2· 2025-09-22 16:56
核心观点 - 李想对理想汽车辅助驾驶发展的作用可高度类比马斯克对特斯拉辅助驾驶的影响 包括做大资源 保证资源持续投入 以及基于对AI底层原理的理解做出关键技术路线判断 [1][2][3] - 理想智驾发展取决于三大要素:全球AI产业发展阶段(天时) 理想各类生产要素匹配度(地利) 以及李想个人能力(人和) [2][5] - 理想智驾部门组织架构调整属于次要矛盾 未来1-12个月智驾系统将出现多次高质量快速迭代 [2][6] - 公司发展方向强调"合适萝卜坑"比以履历为锚点的人才更重要 前者面向未来 后者以过去为荣耀点 [2][11] 李想的关键作用 - 具备三个核心作用:做大资源 保证资源持续投入 在理解AI底层原理基础上对技术路线做出关键think different判断并执行 [2][3] - 44岁创始人拥有极高投票权和强驱动力 能保证未来10-15年对公司绝对控制权并推动组织架构变革 [3] - 亲自决策将资源核心投向基于强化学习的VLA(视觉语言行动)模型 减少对端到端投入 并判断双Orin平台可运行VLA模型 [4] - 创始人真懂技术且持续关注 既能获得更多资源又能提高资源利用效率 [3] 产业发展与生产要素 - 全球AI产业发展阶段是关键前提 具备齐全生产资料的只有中美 [5] - 中国公司需要高效组织生产要素 时机与创始人能力至关重要 深谙创始人梁文锋指出中国创新缺的是信心和高密度人才组织能力 [5] - 自动驾驶是物理AI子集 做好物理AI需要负责人持续下判断并能按产业特点改组公司 [6] - 理想和小米是生产要素相对匹配的公司 理想更擅长think different 小米更擅长吃第二波与价值传递 [6] 技术发展路径 - 理想智驾部门从3个二级部门调整为11个属于次要矛盾 [2] - 迭代方向明确 未来1-12个月VLA将出现多次高质量快速迭代 [2][6] - 具体迭代方向包括:提升仿真数据效率 压榨车端芯片潜力 通过强化学习提升模型能力 优化语音控车体验 以及VLA框架落地 [6][7] - 当前运行4B模型 未来将升级至7B 14B甚至100B模型 实现能力飞跃 [8] - 辅助驾驶比chatbot和机器人更适合强化学习 因奖励函数明确 易于收敛 [8] - 监督学习只能特定场景优化 模仿学习主导的端到端难以针对性解决问题 而强化学习主导的VLA可专门优化问题 [9] - 当前发展阶段类似GPT-1到GPT-3/3.5 大力出奇迹 [10] 人才观念 - 合适萝卜坑(岗位与人才匹配)比以履历为锚点的人才更重要 [2][11] - 英伟达应届生质量低于谷歌Facebook但不影响发展 因所做事情更重要 阿里巴巴十八罗汉也是类似道理 [11] - 理想整体环境具备做成物理AI的条件 使得萝卜坑比履历锚点人才重要得多 [11]
别克至境L7将于9月28日上市 起售价有望杀入20万
扬子晚报网· 2025-09-22 12:38
产品定位与核心配置 - 作为别克高端新能源子品牌“至境”旗下首款智能豪华轿车 [2] - 价格区间为20万-25万,起售价有望进入20万区间 [4] - 搭载顶级“真龙”增程系统,旨在破解行业痛点 [2] 智能化技术 - 率先搭载“逍遥智行”辅助驾驶系统,达到行业第一梯队水平 [2] - 全球首发上车基于端到端“强化学习”的Momenta R6飞轮大模型 [2] - 首发搭载高通最新一代SA8775P芯片 [2] 豪华舒适性配置 - 配备百万豪车同款四座悬浮座椅 [2] - 搭载27扬声器带四座头枕音响系统 [2] 市场表现与销售信息 - 自9月15日全国首秀开启盲订以来,已收获大量新能源用户关注与认可 [4] - 定位于新时代B级车新选择 [4] - 9月28日上市前通过官方渠道下订可享“早鸟权益” [4]
美团王兴,又开源一款大模型
36氪· 2025-09-22 10:53
模型发布与开源 - 美团开源首款自研推理模型LongCat-Flash-Thinking 距离其首款大语言模型开源仅24天 [1] - 模型已发布于GitHub和Hugging Face平台 并提供技术报告和在线体验链接 [3] - 实际体验中模型推理和回答长度可能超出体验链接限制 导致答案不完整 [3] 技术架构与训练效率 - 基于自研DORA强化学习基础设施训练 训练速度提升至原来3倍以上 增幅超过200% [1] - 采用课程学习方式构建能力 经历推理增强的中期训练和面向推理的有监督微调 [5] - 强化学习采用三管齐下方案:系统层面通过DORA框架支持异步训练与灵活调度 算法层面改良PPO方法 奖励机制引入生成式奖励模型GenRM [9][10] - 在数万张加速卡上 RL训练速度达传统同步方式3倍以上 FLOPs投入约为预训练阶段20% [9] 性能表现与基准测试 - 在通用问答、数学推理、通用推理测试中与GPT-5-Thinking、Gemini2.5-Pro等主流模型基本持平 [1] - 数学推理能力突出:MATH-500取得99.2%接近满分 HMMT-25达83.7% AIME-24达93.3% [12][13] - 逻辑推理方面:ARC-AGI达50.3% 超越OpenAI-o3与Gemini2.5-Pro ZebraLogic达95.5% [13] - 编程能力:LiveCodeBench达79.4% 紧追GPT-5 [14] - 工具增强推理:τ²-Bench-Airline实现67.5%最佳成绩 AIME-25基准测试平均token消耗减少64.5% [1][15] - 定理证明领域:MiniF2F测试达67.6% 比次优模型高出18% [18] - 安全性测试在有害内容、犯罪、虚假信息及隐私四类风险中均获最高分 [18] 应用场景与业务协同 - 重点优化形式推理和Agent推理任务 通过双路径推理框架筛选工具依赖型高质量问题 [7] - 技术提升针对性服务于工具使用、指令遵循和安全性 可能应用于美团消费者Agent产品和AI搜索业务 [19] - 分布式沙箱系统支持数百万次并发代码执行 覆盖20多种编程语言 [10]
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题
机器之心· 2025-09-22 02:05
研究背景与问题 - 在AI领域,后训练通常依赖带有标注的监督微调或通过可验证的程序化检查器提供奖励,但许多有价值的任务可能同时缺乏这两种资源,例如在临床、自由对话和创意写作等不可验证的场景中,可能存在多个有效答案,确定性规则检查难以实施[1] - 实践者在缺乏真实标注时,往往只能依赖繁琐的标注流程,或通过另一个LLM对自由形式输出进行粗略奖励[2] 核心方法与创新 - 来自牛津大学、Meta超级智能实验室等机构的研究者提出了一种名为CaT(Compute as Teacher)的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答案时,也能为大模型提供监督信号[3] - 该方法的核心优势在于无需人工标注或外部验证器,仅通过模型自身的推理过程就能生成高质量的监督信号,适用于数学推理、医疗咨询、创意写作等缺乏标准答案的任务[7] - 方法流程包括探索阶段、合成阶段和角色分离设计:当前策略生成一组并行推演结果;一个冻结的锚点模型整合这些推演结果,合成一个单一的估计参考答案;当前策略负责探索,锚点模型作为稳定的估计器[8] - 本文最大创新是将额外的推理计算转化为监督信号,在公式表达上,对于每个输入提示,当前策略生成一组并行推演结果,然后冻结的锚点策略通过整合所有推演结果中的信息,合成一个统一的参考响应,最后将估计的参考响应转化为奖励信号[9] - 此外,研究还通过提供奖励函数来优化模型,使其接近预估参考值,称之为CaT-RL[11] 实验结果与性能提升 - 推理时直接应用CaT显著提升了Gemma 3 4B、Qwen 3 4B和Llama 3.1 8B的性能,即使在不可验证领域(MATH-500最高提升27%;HealthBench提升12%)[3] - 结合强化学习的CaT(CaT-RL)可进一步获得增益(最高提升33%和30%),训练后的策略甚至能超越初始教师信号[3] - CaT-RL不仅超越了初始策略,其表现也优于CaT方法[15] - 自拟评分标准在不可验证领域可以作为有效奖励,其表现优于模型评判,并可与人类专家注释相媲美[16] - 基于自拟评分标准的强化学习(CaT-RL)优于监督微调(SFT),当奖励来自自拟评分标准时,RL效果更佳[20] - CaT比单样本和选择基线模型能产生更好的参考估计,在推理时间与其他方案比较中,CaT产生的参考估计最强且用途最广泛[20] - CaT会随着rollout数量G的增加而扩展,在MATH-500上扩展是单调的,而在HealthBench上,CaT在大约4次rollout后达到平台期[22] 研究团队与影响 - 论文作者全部都在Meta超级智能实验室做过研究,近期发文频率很快[4] - 这项研究引起了广泛讨论,被认为解决了RL中缺少监督的难题,是一种优雅的解决方案,对于在验证成本高昂或无法验证的领域来说,可能是重要的一步[5][6]
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-20 16:03
端到端自动驾驶技术现状 - 学术界端到端研究呈现方法远多于问题的状态,各种流派百花齐放,只要实现传感器输入到轨迹规划输出的模型串联即符合端到端范式 [1] - 工业界端到端研发更加务实,车载算力限制将许多热门模型排除在外,但工业界拥有海量驾驶数据优势 [4] - 工业界对端到端技术的研发进度可能已领先于学术界,行业已超越依靠演示和论文证明实力的阶段,转向以量产模型表现为衡量标准 [5] 数据集与技术迭代关系 - 大模型时代数据集迭代速度需与技术迭代同步,固定数据集会阻碍技术发展,摩尔定律在算力和计算机行业均有体现 [2] - 研究团队通过发布数据集维持长期的高影响力产出,互联网海量文本数据是NLP领域大模型成功的关键因素 [3][4] - 工业界数据量达天文数字,不存在数据阻碍技术迭代的问题,反而更容易辨别学术界方法的实用价值 [4] 强化学习在VLA中的应用 - 强化学习适用于无标准答案但能定义答案特征的问题,VLA应用场景符合此特点 [7] - 模仿学习基于最大似然估计,倾向于将示范结果视为最优,而强化学习通过奖励机制定义正向和负向行为特征 [8][9] - 强化学习以奖励最大化为目标,避免错误示范干扰,节省数据采集成本,例如车辆平稳抵达+10分,压实线-10分,闯红灯-20分 [9] 视觉语言大模型发展前景 - VLA短期成果情绪价值偏多,真实控车作用尚不明确,长期串联万物成为行业共识趋势 [10][11] - 量产参考需综合算法、数据、训练策略等多重因素,包括部署难度、数据替代性、复现难度等非单一测试指标 [12] - 行业主流厂商对Large Vision-Language Model的潜力均无质疑,焦点集中于实现时间预期 [11]
特斯拉Optimus再生动荡:AI团队负责人Ashish Kumar转投Meta
环球网资讯· 2025-09-20 04:20
核心人事变动 - 特斯拉Optimus人形机器人项目AI团队负责人阿希什·库马尔已正式辞去在特斯拉的职务 [1] - 该负责人将于近期加入Meta公司担任研究科学家一职 [1] 特斯拉Optimus项目技术进展 - 团队专注于通过人工智能技术突破人形机器人的实用化瓶颈 [2] - 团队全力推进可扩展方法,用强化学习取代传统技术栈,并通过视频学习来提升机器人的灵巧度 [2] - 强化学习技术允许机器人通过试错自主优化行为策略,而非依赖预设程序 [2] - 通过视频学习技术,机器人能够从人类操作视频中提取动作模式,显著缩短了技能训练周期 [2] - 已展示的Optimus原型机具备分拣电池、搬运物品等基础任务能力,其流畅的动作控制被视为强化学习技术落地的标杆案例 [2] - 团队证明了AI可以赋予机器人真正的通用性,而非局限于特定场景的专用工具 [2] 特斯拉Optimus项目未来计划 - 尽管发生核心人员变动,供应链消息显示Optimus量产计划仍按2025年目标推进 [2] - 团队正集中攻克手指触觉传感、动态平衡控制等难题 [2]
重磅!DeepSeek 梁文锋论文登上《自然》封面,正面回应蒸馏质疑
程序员的那些事· 2025-09-20 01:10
模型技术突破与行业地位 - DeepSeek-R1是全球首个经过同行评审的主流大语言模型,打破了主流大模型尚未经过独立同行评审的空白[4] - 模型采用强化学习进行训练,通过正确解答数学问题获得高分奖励、答错受惩罚的方式,学会了逐步解决问题的推理能力[5] - 该技术使模型能够自我验证和自我反思,在给出新问题答案前检查性能,从而提高了在编程和研究生水平科学问题上的表现[5] 学术认可与技术创新 - 研究成果获得《自然》封面推荐,被描述为在极少人工输入下训练出能进行推理的模型[5] - 模型训练方法解决了人工智能需要大量人工干预添加标签和注释的极大挑战[5] - 与今年1月发布的初版论文相比,本次论文披露了更多模型训练细节并回应了模型发布之初的蒸馏质疑[4]