EMMA
搜索文档
深扒了学术界和工业界的「空间智能」,更多的还停留在表层......
自动驾驶之心· 2025-12-28 03:30
文章核心观点 - 2025年是自动驾驶从“感知驱动”向“空间智能”全面转型的分水岭[3] - 空间智能是对空间信息进行感知、表征、推理、决策与交互的综合能力,是将三维物理空间信息转化为可计算模型的核心基础[3] - 当前空间智能技术更多停留在感知和表征层面,在深层次的推理决策和交互能力上仍有待突破,因此存在大量发展机会[3] 世界模型在重构物理世界的“预演能力” - **GAIA-2 (Wayve)**: 一种面向自动驾驶的多视图生成式世界模型,通过潜在扩散技术,以自车动力学、道路语义及多智能体交互为控制条件,生成符合物理规律且时空一致的驾驶视频,为破解长尾效应提供数据闭环方案[5] - **GAIA-3 (Wayve)**: 模型规模较GAIA-2提升5倍,旨在通过捕获细粒度时空上下文来表征现实世界的物理因果结构[9] - **GAIA系列空间突破**: 通过潜在扩散模型和超高空间压缩比,实现了多相机视角下的时空一致性,构建了具备物理常识的“沙盒”,解决了空间扭曲问题[10] - **ReSim**: 通过将真实世界专家轨迹与模拟器生成的非专家/危险行为数据进行异构融合,利用扩散Transformer架构实现了对极端与罕见驾驶行为的高保真、强可控模拟[11] - **ReSim空间突破**: 解决了AI对极端空间状态的认知缺失,让AI学会“撞车瞬间的空间演变”,实现了对高风险物理交互的高保真模拟[12] 多模态推理实现从“语义描述”到“几何推理” - **SIG**: 提出“空间智能网格”结构化图谱方案,通过将场景布局、物体关系及物理先验显式编码为网格语义,替代传统纯文本提示,并建立SIGBench基准,旨在解决多模态大模型依赖语言捷径、缺乏真实几何推理能力的难题[16] - **OmniDrive**: 通过引入“反事实推理”生成大规模3D问答数据集,并配合Omni-L/Q代理模型,实现了视觉语言模型从2D认知向3D空间理解与规划的深度对齐[19] - **OmniDrive空间突破**: 引入“反事实推理”,弥补了语言逻辑与物理轨迹之间的鸿沟,让VLM能够真正理解三维环境下的风险评估[19] - **SimLingo**: 一款基于通用视觉语言模型且仅依赖摄像头的闭环自动驾驶系统,通过引入“动作梦境”任务解决了言行不一的难题,实现了驾驶行为与语义指令的高度对齐[21] - **SimLingo空间突破**: 提出“动作梦境”任务,AI必须预测出精确的物理执行信号,证明了通用大模型在理解复杂城市空间后的实时决策潜力[24] 三维物理实体的“实时数字孪生” - **DrivingRecon**: 一款通用型4D高斯重建大模型,通过直接从环视视频中预测4D高斯参数,并结合创新的PD-Block空间优化与动静解耦技术,实现了高效、高保真的自动驾驶场景动态重建与多任务仿真[26] - **DrivingRecon空间突破**: 实现了端到端4D高斯重建,通过“动静解耦”技术精准捕捉路面背景与动态障碍物的几何特征,提供了近乎实时的物理环境数字孪生[26] - **VR-Drive**: 通过引入“前馈3D高斯泼溅”作为辅助任务,实现了无需逐场景优化的在线新视角合成,显著增强了智驾系统在不同相机配置和视角偏差下的鲁棒性[29] - **VR-Drive空间突破**: 解决了硬件适配痛点,即使相机安装角度偏了5度,AI也能通过空间想象力补齐偏差,确保感知与规划在不同物理配置下的稳定性[29] 具身融合——打破“车”与“人”的空间隔阂 - **MiMo-Embodied (小米)**: 全球首个开源跨具身通用大模型,通过多阶段学习、思维链及强化学习微调,首次实现了自动驾驶与具身智能两大领域的深度融合[31] - **MiMo-Embodied空间突破**: 实验证明车辆对宏观交通流的空间感知可增强机器人导航,而机器人对微观物体交互的理解能反哺车辆决策,标志着自动驾驶被纳入“具身智能”版图[32] - **DriveGPT4-V2**: 一款基于多模态大语言模型的闭环端到端自动驾驶框架,通过多视角视觉标记器融合环视图像与车辆状态,并引入专家LLM进行在线模仿学习,实现了能够直接输出底层控制信号的高性能、可解释驾驶决策系统[36] - **DriveGPT4-V2空间突破**: 从“看图说话”进化到“闭环控制”,AI在环视视野中保持高局部空间细节,直接输出转向、加速等底层物理指令,实现了端到端空间智能的闭环落地[37] 工业界架构演进与共识 - **行业共识**: 2025年工业界在自动驾驶架构设计上达成高度共识,即从传统的模块化架构向端到端的VLA架构演进,旨在利用大语言模型的常识推理能力辅助驾驶决策[40] - **Waymo的EMMA与通用基础模型**: Waymo展示了其端到端多模态模型EMMA,该模型构建在Gemini等大规模预训练模型之上,直接将原始摄像头传感器数据映射为驾驶轨迹、感知对象和道路图元素,其核心理念是将所有非传感器输入和输出均表示为自然语言文本[41] - **Waymo的快速与慢速思考架构**: 提出“快速思考与慢速思考”架构,传感器融合编码器负责快速反应性动作,驾驶VLM负责处理复杂的语义推理,例如能通过语义分析命令车辆绕行路面起火等罕见场景[41] - **DeepRoute.ai与可解释的VLA**: 元戎启行推出的DeepRoute IO 2.0架构核心优势在于引入思维链推理,有效解决了端到端模型的“黑盒”问题[43] - **DeepRoute IO 2.0能力**: 系统不仅能执行驾驶动作,还能通过语言模型解释其决策路径,具备强大的空间意识和光学字符识别能力,能实时解读复杂路牌和临时交通指令[44] - **统一具身智能趋势**: MiMo-Embodied的出现标志着自动驾驶与具身机器人在空间智能层面的合流,该模型在12项自动驾驶基准测试及17项机器人基准测试中均创造了新记录[45] - **理想汽车的MindVLA**: 引入了空间智能概念,主要体现在3D Feature上,视觉和Lidar经由3D Encoder得到时序融合后的特征,再经由3D projector传递到下游的MindGPT中[45]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-30 00:02
具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据(图像/机器人/导航数据)实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练(零样本迁移至现实)[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性,推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练(DAgger-DPO算法)[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码(无需真实数据)[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型(支持40+动作生成)[22] - 在Household领域成功求解48项复杂规划任务 [23]
寻找下一个泡泡玛特 东莞石排镇掀起潮玩淘金热
证券时报· 2025-07-29 22:15
行业概况 - 东莞石排镇拥有国内顶尖玩具制造产业链 潮玩产业正在重塑东莞玩具产业[1] - 东莞玩具制造产业起步于改革开放初期 产量最高时占全球30% 占广东50%[11] - 东莞目前有玩具工人30万人 超过4000家玩具企业 其中规模以上企业426家 上下游配套企业超过1500家[11] - 中国近85%的潮玩来自东莞 石排镇集聚超400家潮玩和玩具生产企业[11] - 2024年石排镇潮玩产业集群总产值132.18亿元 同比增长12.3%[11] - 石排镇是东莞产值最大 潮玩企业及自主品牌最多的镇街 潮玩产业产值约占东莞潮玩产业产值30%[11] 产业集群建设 - 石排镇投入约1亿元建成建筑面积约6万平方米的"中国潮玩之都·潮玩中心"[11] - 潮玩中心设有潮玩展厅 选品中心 培训基地 电商直播空间 共享办公空间等载体[11] - 截至目前累计引进企业33家 入驻面积约1.53万平方米[11] - 入驻企业类型涵盖潮玩IP孵化 品牌运营 设计研发 电商销售等生产性服务业[11] 企业案例:衍创文化 - 公司从广州搬迁至石排镇 看重产业集中度和集群效应[2] - 2019年推出自有潮玩品牌 是最早做自有IP的公司之一[2] - 旗下拥有麻酱工作室和尤弥工作室两个设计师团队[3] - 孵化了EMMA MISYA等知名原创潮玩IP[3] - EMMA秘境森林以北欧宫廷风格为设计原型[3] - 2020年仅推出两代盲盒 销售额从第一年2000万元增长到2022年1亿元[3] - 原为手办代工企业 后因合作方结账问题转向潮玩转型[3] 企业案例:大漂亮潮玩 - 抓住毛绒玩具爆火红利 去年销售额大增[4] - 通过电商直播走红后进入上游领域设计自有产品[5] - "娃三岁"系列毛绒玩偶在东南亚积累近400万粉丝 全球出货量突破2000万只[5] - 2024年5月推出首款自创产品"娃三岁"盲盒 很快打开市场[6] - 产品种类从角色模型拓展到T恤 填充玩具 钥匙扣 手机壳等多种品类[6] - 新品AI潮玩内置对话系统 售价399元[6] 企业案例:文博工艺/漫博潮玩 - 成立于2009年 是本地生产型企业转型升级的产物[7] - 拥有Hello Kitty 史努比 加菲猫 周杰伦等知名IP授权[8] - 部分产品授权费高达上百万元 需要做到3000万元销售额才能保本[8] - 参与巴西奥运会 俄罗斯世界杯吉祥物设计制作[7] - 是北京冬奥会吉祥物特许经销商 参与制造杭州亚运会 成都大运会和巴黎奥运会衍生品[7] - 2021年成立自主潮玩品牌漫博潮玩 组建东莞和上海4个设计研发团队[8] 产品特点与行业趋势 - 潮玩相比传统玩具利润空间更大[9] - 潮玩设计更精美 与消费者有更强情感牵绊 分系列销售带动持续购买[10] - LABUBU火爆带火毛绒搪胶玩具品类[10] - PVC玩具开模价格高(15万至20万元) 而毛绒搪胶玩具工艺简单 大幅降低开模成本[10] - 行业门槛下降导致毛绒搪胶玩具竞争加剧[10] - 最近两年不断有行业外人士加入潮玩行业 但很多因产品滞销留下库存[10]
寻找下一个泡泡玛特东莞石排镇掀起潮玩淘金热
证券时报· 2025-07-29 18:31
行业概况 - 东莞石排镇拥有国内顶尖的玩具制造产业链,潮玩产业成为热门,正在重塑东莞玩具产业 [1] - 东莞玩具制造产业起步于改革开放初期,产量曾占全球30%、广东50%,目前有30万玩具工人、超4000家玩具企业,中国近85%潮玩来自东莞 [11] - 石排镇集聚超400家潮玩和玩具生产企业,2024年潮玩产业集群总产值132.18亿元,同比增长12.3%,占东莞潮玩产业产值的30% [11] 公司案例 衍创文化 - 公司从广州搬迁至石排镇,因产业集中和集群效应,拥有自主潮玩品牌EMMA和MISYA,2020年销售额从2000万元增长至2022年1亿元 [2][3] - 旗下拥有麻酱工作室和尤弥工作室两个设计师团队,EMMA秘境森林系列以北欧宫廷风格为原型,第一代盲盒"茶会系列"获市场好评 [3] - 原为手办代工企业,因合作方结账问题转型潮玩 [3] 大漂亮潮玩 - 抓住毛绒玩具爆火红利,2023年销售额大增,因泡泡玛特出海带动海外商家寻找中国货源,其产品价格优势明显 [4] - "娃三岁"系列毛绒玩偶在东南亚积累400万粉丝,全球出货量突破2000万只,成为现象级原创IP [5] - 创始人章霆通过直播带货积累市场嗅觉,设计首款自主产品"娃三岁"盲盒,2024年5月推出后迅速打开越南等市场 [6] - 产品种类拓展至T恤、填充玩具、钥匙扣等衍生品,新品AI对话毛绒玩具售价399元 [6] 文博工艺/漫博潮玩 - 成立于2009年,曾参与巴西奥运会、俄罗斯世界杯吉祥物设计制作,是冰墩墩特许经销商及巴黎奥运会衍生品制造商 [7] - 拥有Hello Kitty、史努比等知名IP授权,但授权费高达百万元,需3000万元销售额保本,因此成立自主品牌漫博潮玩 [8] - 转型升级措施包括对授权IP再创作、组建4个设计研发团队,并引入自动点胶机等先进设备提升产能 [7][8] 产品与市场特点 - 潮玩与传统玩具差异显著:潮玩依赖外形设计而非故事IP,消费者因情感牵绊重复购买系列产品,购买动机更强 [9][10] - LABUBU火爆带动毛绒搪胶玩具品类,其开模成本(15万-20万元)低于PVC玩具,但行业门槛下降导致竞争加剧 [10] - 石排镇政府投入约1亿元建成"中国潮玩之都·潮玩中心",引进33家企业,涵盖IP孵化、设计研发等生产性服务业 [11]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 14:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]