Workflow
强化学习
icon
搜索文档
理想智驾二级部门数量从3个调整为11个是次要矛盾
理想TOP2· 2025-09-22 16:56
核心观点 - 李想对理想汽车辅助驾驶发展的作用可高度类比马斯克对特斯拉辅助驾驶的影响 包括做大资源 保证资源持续投入 以及基于对AI底层原理的理解做出关键技术路线判断 [1][2][3] - 理想智驾发展取决于三大要素:全球AI产业发展阶段(天时) 理想各类生产要素匹配度(地利) 以及李想个人能力(人和) [2][5] - 理想智驾部门组织架构调整属于次要矛盾 未来1-12个月智驾系统将出现多次高质量快速迭代 [2][6] - 公司发展方向强调"合适萝卜坑"比以履历为锚点的人才更重要 前者面向未来 后者以过去为荣耀点 [2][11] 李想的关键作用 - 具备三个核心作用:做大资源 保证资源持续投入 在理解AI底层原理基础上对技术路线做出关键think different判断并执行 [2][3] - 44岁创始人拥有极高投票权和强驱动力 能保证未来10-15年对公司绝对控制权并推动组织架构变革 [3] - 亲自决策将资源核心投向基于强化学习的VLA(视觉语言行动)模型 减少对端到端投入 并判断双Orin平台可运行VLA模型 [4] - 创始人真懂技术且持续关注 既能获得更多资源又能提高资源利用效率 [3] 产业发展与生产要素 - 全球AI产业发展阶段是关键前提 具备齐全生产资料的只有中美 [5] - 中国公司需要高效组织生产要素 时机与创始人能力至关重要 深谙创始人梁文锋指出中国创新缺的是信心和高密度人才组织能力 [5] - 自动驾驶是物理AI子集 做好物理AI需要负责人持续下判断并能按产业特点改组公司 [6] - 理想和小米是生产要素相对匹配的公司 理想更擅长think different 小米更擅长吃第二波与价值传递 [6] 技术发展路径 - 理想智驾部门从3个二级部门调整为11个属于次要矛盾 [2] - 迭代方向明确 未来1-12个月VLA将出现多次高质量快速迭代 [2][6] - 具体迭代方向包括:提升仿真数据效率 压榨车端芯片潜力 通过强化学习提升模型能力 优化语音控车体验 以及VLA框架落地 [6][7] - 当前运行4B模型 未来将升级至7B 14B甚至100B模型 实现能力飞跃 [8] - 辅助驾驶比chatbot和机器人更适合强化学习 因奖励函数明确 易于收敛 [8] - 监督学习只能特定场景优化 模仿学习主导的端到端难以针对性解决问题 而强化学习主导的VLA可专门优化问题 [9] - 当前发展阶段类似GPT-1到GPT-3/3.5 大力出奇迹 [10] 人才观念 - 合适萝卜坑(岗位与人才匹配)比以履历为锚点的人才更重要 [2][11] - 英伟达应届生质量低于谷歌Facebook但不影响发展 因所做事情更重要 阿里巴巴十八罗汉也是类似道理 [11] - 理想整体环境具备做成物理AI的条件 使得萝卜坑比履历锚点人才重要得多 [11]
别克至境L7将于9月28日上市 起售价有望杀入20万
扬子晚报网· 2025-09-22 12:38
新时代的B级车来了,别克至境L7将于9月28日上市并揭晓售价。 自9月15日全国首秀开启盲订以来,至境L7已收获大量新能源用户的关注与认可。据内部消息,别克至境L7的价格区间为20万-25万,起售价更有望杀入 20万,成为新时代B级车新选择。9月28日上市前,用户通过官方渠道下订还可享"早鸟权益",感兴趣的用户不妨抓紧时间。 作为别克高端新能源子品牌"至境"旗下首款智能豪华轿车,至境L7采用破解行业痛点的顶级"真龙"增程系统,率先搭载"逍遥智行"辅助驾驶系统,全球首 发上车基于端到端"强化学习"的Momenta R6飞轮大模型,带来行业第一梯队的辅助驾驶。此外,至境L7还首发搭载高通最新一代SA8775P芯片,百万豪 车同款四座悬浮座椅以及27扬声器带四座头枕音响,带来越级豪华舒适座舱体验。 ...
美团王兴,又开源一款大模型
36氪· 2025-09-22 10:53
模型发布与开源 - 美团开源首款自研推理模型LongCat-Flash-Thinking 距离其首款大语言模型开源仅24天 [1] - 模型已发布于GitHub和Hugging Face平台 并提供技术报告和在线体验链接 [3] - 实际体验中模型推理和回答长度可能超出体验链接限制 导致答案不完整 [3] 技术架构与训练效率 - 基于自研DORA强化学习基础设施训练 训练速度提升至原来3倍以上 增幅超过200% [1] - 采用课程学习方式构建能力 经历推理增强的中期训练和面向推理的有监督微调 [5] - 强化学习采用三管齐下方案:系统层面通过DORA框架支持异步训练与灵活调度 算法层面改良PPO方法 奖励机制引入生成式奖励模型GenRM [9][10] - 在数万张加速卡上 RL训练速度达传统同步方式3倍以上 FLOPs投入约为预训练阶段20% [9] 性能表现与基准测试 - 在通用问答、数学推理、通用推理测试中与GPT-5-Thinking、Gemini2.5-Pro等主流模型基本持平 [1] - 数学推理能力突出:MATH-500取得99.2%接近满分 HMMT-25达83.7% AIME-24达93.3% [12][13] - 逻辑推理方面:ARC-AGI达50.3% 超越OpenAI-o3与Gemini2.5-Pro ZebraLogic达95.5% [13] - 编程能力:LiveCodeBench达79.4% 紧追GPT-5 [14] - 工具增强推理:τ²-Bench-Airline实现67.5%最佳成绩 AIME-25基准测试平均token消耗减少64.5% [1][15] - 定理证明领域:MiniF2F测试达67.6% 比次优模型高出18% [18] - 安全性测试在有害内容、犯罪、虚假信息及隐私四类风险中均获最高分 [18] 应用场景与业务协同 - 重点优化形式推理和Agent推理任务 通过双路径推理框架筛选工具依赖型高质量问题 [7] - 技术提升针对性服务于工具使用、指令遵循和安全性 可能应用于美团消费者Agent产品和AI搜索业务 [19] - 分布式沙箱系统支持数百万次并发代码执行 覆盖20多种编程语言 [10]
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题
机器之心· 2025-09-22 02:05
机器之心报道 机器之心编辑部 在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。 这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。例如在不可验证的场景中(临床、自由对话和创意写作),可能存在多个有效答案,确定 性规则检查难以实施。 在这种情况下,实践者往往只能依赖(i)繁琐的标注流程,或(ii)通过另一个 LLM 对自由形式输出进行粗略奖励。 然而,当后训练缺乏真实标注时,学习信号从何而来? 为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想: 推理计算是否可以替代缺失的监督? 本文认为答案是肯定的,他们提出了一种名为 CaT(Compute as Teacher) 的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答 案时,也能为大模型提供监督信号。 结果显示,推理时直接应用 CaT显著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能,即使在不可验证领域(MATH-500 最高提升 27%;HealthBench 提升 ...
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-20 16:03
摩尔定律不仅体现在芯片算力上,也体现在整个计算机行业。一旦数据集固定下来,以现在的AI技术和庞大算 力,其测试指标的收敛速度也会越来越快。 这两天和星球大佬聊了下关于端到端和VLA的看法,感受颇深,分享给大家: 关于端到端的讨论 学术界的端到端现在是遍地开花的状态,什么流派都有,毕竟【端到端】只是一个范式,你只要实现用一个模型 把传感器输入和轨迹规划的输出串起来,这就是端到端。 所以做什么的都有。 但是,AI进入大模型时代后,相信大家都有一个共识,那就是数据集的迭代速度一定不能比技术迭代慢太多, 技术日新月异的时候,如果数据集反反复复还是那几个,那么毫无疑问数据集一定会阻碍技术的迭代。 所以才有一些研究团队在发论文的同时发布一个数据集,这样可以保持很长一段时间的高impact输出。 学术界的端到端现在处在方法远比问题多的状态。 工业界的端到端更加务实,车上的算力限制就能把相当一部分热门模型拒之门外。但是, 工业界最得天独厚的 优势就是有海量的数据,这给模型研发提供了无限可能。 要知道,chatgpt的成功很大程度上归功于互联网给了我们收集海量数据的机会。为什么超大规模transformer模型 率先在NLP领 ...
特斯拉Optimus再生动荡:AI团队负责人Ashish Kumar转投Meta
环球网资讯· 2025-09-20 04:20
据悉,在特斯拉任职期间,Ashish Kumar主导了Optimus AI团队的核心技术研发工作,其团队专注于通 过人工智能技术突破人形机器人的实用化瓶颈。他在社交平台发文中特别提到,团队"全力推进可扩展 方法——用强化学习取代传统技术栈,并通过视频学习来提升机器人的灵巧度"。 来源:环球网 强化学习作为人工智能领域的前沿技术,允许机器人通过试错自主优化行为策略,而非依赖预设程序。 Ashish Kumar团队此前展示的Optimus原型机已具备分拣电池、搬运物品等基础任务能力,其流畅的动 作控制被业界视为强化学习技术落地的标杆案例。此外,该团队通过视频学习技术,使机器人能够从人 类操作视频中提取动作模式,显著缩短了技能训练周期。 【环球网科技综合报道】9月20日消息,据多家外媒报道,特斯拉Optimus(擎天柱)人形机器人项目AI 团队负责人阿希什·库马尔(Ashish Kumar)已正式辞去在特斯拉的职务,并将于近期加入Meta(原 Facebook)公司担任研究科学家一职。当地时间9月19日,Ashish Kumar在个人社交平台发布长文,回 顾其在特斯拉的职业生涯,并透露了关于人形机器人技术发展的关键 ...
重磅!DeepSeek 梁文锋论文登上《自然》封面,正面回应蒸馏质疑
程序员的那些事· 2025-09-20 01:10
9 月 18 日,由 DeepSeek 团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1 推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。 与今年 1 月发布的 DeepSeek-R1 的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了模型发布之初的蒸馏质疑。 DeepSeek-R1 是全球首个经过同行评审的主流大语言模型。目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白"终于被 DeepSeek 打 破"。 在《自然》封面的推荐介绍中,是这样写的: "如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种『推理』与人类处理更复杂问题的方式类似,但这对人工 智能有极大挑战,需要人工干预来添加标签和注释。在本周的期刊中,DeepSeek 的研究人员揭示了他们如何能够在极少的人工输入下训练一个模型,并 使其进行推理。 DeepSeek-R1 模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。结果,它学会了推理——逐 步解决问题并揭示这些步骤——更有可能得出正确答案。这使得 DeepSeek ...
攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
机器之心· 2025-09-19 10:43
核心技术创新 - 蚂蚁百灵团队推出Ring-flash-2.0开源模型 采用MoE+长思维链+强化学习技术路线 总参数量100B 激活参数量6.1B [1] - 独创棒冰(icepop)算法实现双向截断和掩码修正 通过冻结训推精度差异过大的token梯度回传 解决强化学习训练稳定性问题 [6] - icepop算法相比GRPO训练方法能避免180-200步后的训练崩溃 并将训推精度差异控制在合理范围内 [8][9][10][12] - 采用两阶段强化学习方案:先通过Long-CoT SFT训练让模型学会思考 再通过RLVR强化推理能力 最后加入RLHF优化格式和安全 [14][16] 性能表现突破 - 模型在数学AIME25测试中获得86.98分 CodeForces elo分数达90.23 性能达到40B以内密集模型的SOTA水平 [1] - 支持128K长上下文处理 在4张H20显卡部署下实现200+ token/s的生成速度 相对加速比最高达7倍以上 [21] - 通过1/32专家激活比和MTP层架构优化 仅激活6.1B参数即可等效撬动40B密集模型性能 [21] - 在数学 代码和逻辑推理等多领域推理榜单取得显著突破 [1] 行业影响意义 - 模型突破2025年行业存在的"死亡曲线"问题 解决长思维链场景下MoE模型RL训练奖励崩溃的难题 [5] - 推动大模型竞争进入"高性价比"时代 核心指标从参数数量转向成本效益 [18][25] - 首次实现Long-CoT+RL技术的工程可落地 同步解决训练稳定性 推理成本和开源生态问题 [26] - 开启MoE长思考高性价比时代 为高并发场景提供低成本推理解决方案 [21][26]
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 00:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)
自动驾驶之心· 2025-09-18 23:33
自动驾驶VLA技术突破 - 提出AdaThinkDrive框架 通过双模式推理机制实现自适应思考 在简单场景采用快速回答模式 在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略 结合GRPO算法优化模型选择性应用CoT的行为 实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分 推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程:大规模驾驶数据预训练获取世界知识与驾驶常识 双模式SFT数据集微调 强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹 支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件 加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证 较"永不思考"基线PDMS提升2.0分 较"始终思考"基线提升1.4分 在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分 强化学习阶段进一步提升2.8分 自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习 分为简洁推理、动态早期终止和按需推理三类 需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型 训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]