世界模型

搜索文档
最新综述:从物理模拟器和世界模型中学习具身智能
具身智能之心· 2025-07-04 09:48
具身智能与机器人研究前沿 - 具身智能的核心在于物理模拟器与世界模型的整合,物理模拟器提供高保真训练环境,世界模型赋予机器人环境内部表征能力[4] - 智能机器人能力分级模型包含五个渐进级别(IR-L0到IR-L4),涵盖自主性、任务处理能力等关键维度[6][7] - IR-L0为完全非智能程序驱动级别,IR-L1具备有限基于规则的反应能力,IR-L2引入初步环境意识与自主能力[12][13][14] 机器人技术支撑体系 - 机器人运动控制技术包括模型预测控制(MPC)、全身控制(WBC)、强化学习(RL)和模仿学习(IL)等方法[22] - 视觉-语言-动作模型(VLA)通过预训练实现自然语言指令到机器人动作的映射,但存在未见过任务处理挑战[22] - 机器人操作技术从基于夹具操作发展到灵巧手操作,DexGraspVLA实现零样本高成功率抓取[24] 物理模拟器技术 - 主流模拟器包括Webots、Gazebo、MuJoCo、PyBullet、Isaac系列等,各具特点如MuJoCo专为关节系统设计,Isaac系列支持GPU加速[29] - 模拟器物理特性对比涵盖物理引擎、特殊物理效果支持和可微物理能力等维度[30] - 高端模拟器如Isaac Sim在多物理场支持上更全面,传统模拟器在复杂物理交互上存在局限[33] 世界模型技术 - 世界模型从早期基于循环网络的潜态建模发展到结合Transformer和扩散模型的高保真生成式模拟[40] - 代表性架构包括循环状态空间模型(RSSM)、联合嵌入预测架构(JEPA)、Transformer-based模型等[41][42][44] - 扩散生成模型如Sora可预测物体物理交互,被称为"世界模拟器"[46] 行业应用与挑战 - 自动驾驶领域应用世界模型三大技术范式:神经模拟器、动态模型和奖励模型[56][57][58] - 铰接式机器人领域世界模型通过模拟物体动态与环境反馈提升操作泛化能力[60][61] - 核心挑战包括高维感知、因果推理缺失和实时性问题,未来方向聚焦3D结构化建模和多模态融合[64][65][66]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 13:36
职位概述 - 公司正在招聘研究员/科学家加入前沿探索团队 专注于构建下一代自动驾驶与机器人的"大脑" 研究方向为具身基座模型(Embodied Foundation Model) 深度融合视觉-语言-行动(VLA)能力并具备卓越空间感知与推理能力 [1] 核心职责 - 前沿算法研究:设计实现领先的具身多模态大模型 突破现有VLA框架 构建能理解复杂三维世界并进行长时序多步骤任务规划的世界模型(World Model) [2] - 核心模型能力攻关:主导多模态场景理解(融合视觉/语言/雷达信息) 复杂语义推理与决策(解析抽象指令生成可解释行动序列) 学习与适应机制(强化学习/模仿学习/自监督学习) [3] - 技术路线规划:构建可泛化高效率的具身智能基座模型 支撑未来1-3年技术演进 探索自动驾驶与通用机器人领域的统一应用潜力 [3] - 学术影响力建设:与全球顶尖高校合作研究表征学习/因果推理/世界模型等长期议题 在CVPR/NeurIPS/ICLR等顶级会议发表论文 [3] 任职要求 - 教育背景:需计算机科学/人工智能/机器人学/自动驾驶领域博士学位或同等深度研究经验 [4] - 研究经验:需满足以下至少一个方向——多模态大模型(VLM/VLA构建经验) 自动驾驶具身智能(熟悉Emma/Gemini Robotics等基座模型) 强化学习(精通PPO/SAC算法及RLHF应用) [5] - 三维视觉能力:需掌握3D计算机视觉/几何学/空间推理 熟悉NeRF/3D Gaussian Splatting等场景表示技术 [6] - 学术能力:需在NeurIPS/CVPR/ICCV等顶会以主要作者发表论文 或相关竞赛获奖 具备跨学科整合能力 [7] 加分项 - 技术基础:精通Python/PyTorch框架 具备大规模数据处理与高效模型训练能力 [10] - 专项经验:有World Model理论研究 亿级参数大模型预训练(含分布式训练) 真实机器人平台(Isaac Sim/MuJoCo/CARLA)算法部署经验 [11] - 社区贡献:在相关开源项目有广受认可的贡献 [11] 工作安排 - 工作地点以北京为主 少量上海职位 [9]
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 08:01
核心观点 - 阿里巴巴达摩院提出WorldVLA模型,首次将世界模型和动作模型融合到一个全自回归模型中,实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制,既提升动作生成的准确性,也增强图像预测的质量 [7] - 在LIBERO基准测试中,WorldVLA抓取成功率提升4%,视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据,不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示,学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解,提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略,解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下,WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中,256*256版本平均成功率79.1%,512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后,动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]
中国汽车的“爷爷”长啥样?70年变迁,竟然只在一瞬间!
电动车公社· 2025-07-02 15:59
中国汽车发展史与文化 - 北京汽车博物馆展示了中国汽车工业从手工制造到全球产销第一大国的发展历程[1] - 博物馆藏品呈现了技术井喷阶段及中国汽车技术对全球品牌的反哺影响[1] - 通过历史车型探讨中国汽车文化根源及新能源发展方向[1] 新能源汽车技术内容 - 近期上市的小鹏G7车型技术特点被重点分析[3] - 电池新国标修订内容通过视频形式进行专业解读[3] - 世界模型概念及AI与智能驾驶底层逻辑被系统讲解[3] 汽车行业内容传播形式 - 采用第一视角沉浸式体验形式呈现汽车博物馆内容[1][2] - 视频号作为主要载体发布文字难以直观表达的技术解析内容[2][3] - 视频内容涵盖新车评测、技术标准解读、前沿概念科普等多元主题[3]
RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 10:18
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[4] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在计算复杂、建模范围有限等问题[4] - 核心问题是如何在统一、高效的框架中整合物理知识[4] 核心方法 - 聚焦机器人操作场景,学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[5] - 设计了四步处理流程构建含物理先验的多模态具身数据集[6] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[8] - 物理属性标注:生成深度图序列并进行关键点轨迹追踪,提取时间深度一致性和关键点运动轨迹[8] - 视频切片:结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[8] - 片段过滤:用FlowNet过滤运动模糊或模式混乱的片段,确保训练数据有效性[8] - 片段分类:按动作难度和场景分类,支持课程学习策略[8] 时间深度预测 - 增加时间深度预测分支,采用双分支协同自回归Transformer(DCT)[10] - 通过跨分支交互,将深度分支的中间特征与RGB特征融合,使RGB生成保持精确几何结构[10] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[11] - 通过损失强制采样关键点视觉令牌的时间一致性,并引入关键点引导的注意力机制[12] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[16] - 对比4种先进模型,RoboScape在外观保真度、几何一致性、动作可控性上均优于基线[15] - 消融实验显示,时间深度学习和关键点动态学习对性能至关重要[17] 下游应用验证 - 在Robomimic Lift任务中,仅用生成数据训练的Diffusion Policy性能接近真实数据训练结果[19] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[20] - 作为政策评估器时,与真实模拟器的Pearson相关系数达0.953[22] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[23] - 未来计划将生成式世界模型与真实机器人结合,验证在实际场景中的表现[24]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 12:07
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,致力于构建下一代自动驾驶与机器人的"大脑",重点研究具身基座模型 (Embodied Foundation Model) [1] - 该模型将深度融合视觉-语言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力 [1] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 (World Model) [2] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [3] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并探索其在自动驾驶和通用机器人领域的统一应用潜力 [3] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [3] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备同等深度的研究经验 [4] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习等领域有深入的研究和实践经验 [5] - 三维视觉与空间智能:具备扎实的3D计算机视觉、几何学和空间推理能力,熟悉NeRF, 3D Gaussian Splatting等技术 [6] - 理论与编程能力:在顶级会议上发表过高质量论文,具备跨学科视野,能够融会贯通大模型、自然语言处理、计算机视觉、强化学习与机器人学知识 [7] 加分项 - 拥有坚实的机器学习和深度学习理论基础,精通Python及主流深度学习框架 [10] - 具备世界模型研究经验、大规模预训练经验、机器人平台经验或开源社区贡献 [11] 工作地点 - 工作地点以北京为主,少量上海职位 [9] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [9]
“三年实现商业化”,哈啰如何跑通Robotaxi?
21世纪经济报道· 2025-07-01 10:03
行业趋势与竞争格局 - L4级Robotaxi被视为自动驾驶领域的"皇冠上的明珠",行业从技术研发转向规模化和商业化竞争阶段 [1] - 行业形成"黄金三角"格局:传统车企、自动驾驶技术公司、运营平台三方协同 [1] - 技术路径日益清晰,新能源和智能化产业链成熟为后发者提供产业红利 [3] 公司战略与商业模式 - 采取轻资产平台模式,不涉足整车制造,专注打造可接入的运营平台 [3][4] - 差异化竞争策略:构建多层次运营平台,整合不同车企和技术合作伙伴的运力 [4] - 通过共享运维体系(充换电/清洁维护/停车场等)和底层地图数据降低合作伙伴成本 [4] - 计划三年内实现商业化落地,短期聚焦国内市场,远期拓展海外业务 [9][15] 技术路线与研发投入 - 首期获得蚂蚁集团、宁德时代等30亿元融资用于L4技术研发 [2][6] - 采用"双轮驱动"技术路线:结合多传感器冗余系统与AI数据驱动 [13] - 重点攻克端到端大模型应用和世界模型技术,解决长尾数据稀缺问题 [9] - 利用两轮车运营积累的高精度定位和系统调度经验迁移至四轮车领域 [7][8] 运营优势与数据积累 - 依托母公司共享单车业务积累的用户数据和本地化运营经验 [2] - 专注解决长尾数据问题,针对性获取和训练未解决的场景数据 [5] - 借鉴共享单车资产运营经验,通过系统化调度降低Robotaxi持有成本 [12] 商业化路径与成本结构 - 国内网约车单价约为海外1/3(海外约1美元/分钟),促使公司布局全球化 [15] - 中国车辆进入海外市场具有成本优势,预估海外运营成本是国内2-3倍 [15] - 通过前装量产和普惠策略降低单车成本,加速UE(单位经济效益)打平 [3][8]
AI下半场,大模型要少说话,多做事
虎嗅· 2025-07-01 01:33
大模型性能与竞争格局 - DeepSeek模型性能快速提升 2024年4月排名靠后 8月进入TOP10 12月成为基础能力第一的开源模型[1] - 基础模型TOP10中中国占6个 美国占4个 包括通义千问 豆包 混元 文心等[3] - 模型排名轮动加速 GPT-4o曾保持200天第一 现在十几天就会变化[7] - 训练成本高企 每次至少几百万美元 保鲜期短导致玩家减少[8] 模型训练技术趋势 - 预训练与后训练并存 预训练提升基础能力 强化学习从实战中学习潜力大[14] - 下游企业减少参与训练 转向提示词工程 检索增强 工作流等工程化方法[9] - 智谱AI坚持预训练路线 技术团队实力和资源储备是关键[12] Agent发展与应用 - Agent成为运行在大模型上的软件 自主规划能力显著提升[21] - 提示词仍重要 精心设计的系统提示词可充分激发模型能力[22] - Agent可能不是单一产品 而是多功能集合 开发平台将成关键[29] - 未来或形成个位数基座模型+垂直行业应用平台的格局[30] 基准测试体系价值 - "方升"测试体系包含700万条数据 聚焦产业实战应用[1][44] - 测试方法标准化 题目非开源 每次抽取1-2万题后作废[47][48] - 基准测试是指挥棒 定义方向 中美差距缩小因目标一致[51] 技术路线与产业方向 - 谷歌DeepMind强化学习路线被低估 在生物 材料等领域价值巨大[34][37] - 当前模型缺乏世界模型能力 需突破空间关系 物理定律等[38] - AI下半场需减少信息过载 增强意图理解 任务规划等能力[52]
头部Robotaxi专家小范围交流
2025-07-01 00:40
纪要涉及的行业和公司 - **行业**:自动驾驶行业 - **公司**:特斯拉、vivo、百度、小马智行、文远知行、Pony、小鹏、理想 纪要提到的核心观点和论据 1. **自动驾驶主流方案**:当前主流采用局部端到端两阶段模型,前端感知和预测利用 CNN 结合 LLM 增强环境理解,规划控制侧重基于规则的方法保障安全,旨在平衡复杂度与可靠性[1][2] 2. **特斯拉技术路径优劣势** - **优势**:响应速度快,车载系统响应及时;处理复杂场景能力强,一段式操作解决多模块联合问题表现出色[3] - **劣势**:训练过程复杂,监督难以构造;数据采集与标注困难,训练时比局部端到端方法面临更大挑战[3] 3. **国内 L4 级别自动驾驶系统优势**:在驾驶舒适性、复杂路况安全性及急弯场景路径规划方面优于特斯拉,国内公司通过多传感器融合提升感知能力,更适应国内复杂交通环境[1][6] 4. **L4 级别自动驾驶系统硬件需求** - **激光雷达**:是刚需,在夜间和恶劣天气下能有效识别物体形状,避免纯视觉方案的感知缺陷,但数据量庞大,对算力需求较高[1][9] - **芯片**:实现 L4 功能对芯片算力要求高,英伟达芯片性能和稳定性优异,国产芯片在尖峰性能、平均性能和生态支持上与英伟达有差距,但美国制裁推动国产替代,可显著降低成本,如地平线芯片可节省 80%成本[1][12] 5. **限制车队规模扩大的因素**:单车成本高(目前约 80 万,大规模量产需降至 30 万以内)、监管限制(只能部署在特定区域)、人力成本和基础设施建设不足(缺乏专业云控驾驶员及后台服务器支持)[16] 6. **政府相关政策和要求** - **Robotaxi 运营**:需先在特定区域测试收集数据,提供给政府获批准后开放区域运行[17] - **自动驾驶牌照发放**:政府每年限定牌照数量,申请者提交公用指标数据初步筛选,通过仿真软件模拟场景监控自动驾驶能力,结合两者结果决定发放对象,牌照数量逐渐递增[18] 7. **世界模型**:在自动驾驶中发挥重要作用,不同车企之间存在差异,整体框架包括动态障碍物重建和静态环境重建,但细节差距大,如小鹏、理想等采用 3D 高斯等高精度方法,其他企业可能采用游戏引擎方式模拟[20] 8. **L4 级别公司解决问题的方法**:通过大量测试和仿真技术解决常见问题,利用数据孪生构建仿真环境,发现并解决问题,更新算法并积累数据,降低人力成本,提高效率[2][14] 其他重要但是可能被忽略的内容 1. **PNC 未用更多模型驱动的原因**:训练和推理过程中的数据问题,自回归会使未见过的数据偏差累积,未见过的数据可能导致危险行为[4][5] 2. **政府仿真软件及评价指标**:以北京交管局为例,使用基于国外的通用平台软件添加各种随机场景评估,评价体系不复杂,国内厂家能做类似软件[19] 3. **生成数据与大语言模型的关系**:生成数据基于已训练好的大语言模型框架,可提供优质数据,减少对真实数据的依赖[23] 4. **人员招聘来源**:从百度、美国公司、Vivo 等企业挖掘高端人才,应届生主要来自清华、北航、北邮、中科大、中科院和浙大等高校[25] 5. **国内与海外引进人才对比**:国内人才数学基础扎实,项目执行和攻坚能力强;海外引进人才眼界高,有新奇想法,工作规范[26][27] 6. **自动驾驶领域未来技术迭代**:短期无太大技术变革,重点是将大语言模型融入自动驾驶系统,若实现将带来巨大飞跃[28]
AI专家给奥特曼泼凉水:纯LLM从未真正理解世界,以此构建AGI没希望
36氪· 2025-06-30 09:29
通用人工智能发展现状 - OpenAI首席执行官认为通用人工智能即将实现[2] - 认知科学家马库斯指出生成式AI缺乏稳健世界模型是致命缺陷[2][3] - 苹果公司研究揭示大语言模型在逻辑推理和数学计算中频繁出错[3][4] 大语言模型的结构性缺陷 - 大语言模型依赖语料统计而非世界建模 无法跟踪事件进展或理解因果关系[7][9] - 模型缺乏动态更新的内部数据结构 如事件变量和角色状态[9][10] - 在象棋等规则明确任务中频繁违规 如棋子横向移动或跳马吃子[4][10][14] 世界模型的核心价值 - 世界模型是智能系统感知和追踪现实的核心框架 人类和动物均具备该能力[5][8] - 传统AI设计以世界模型为基础 如图灵1949年象棋程序包含动态棋盘模型[6][9] - 当前大语言模型放弃世界建模 仅依靠语言统计模拟思维过程[9][11] 缺陷导致的系统性风险 - 生成内容存在"知识错觉" 如虚构书籍标题或错误计算8.8-8.11=-0.31[13][17] - 图像生成违反常识 如绘制五条腿的狗或倒挂姿势错误[17][21] - 视频理解遗漏关键行为 如忽略猴子抢包的核心事件[21][22] 商业应用中的具体问题 - Anthropic实验显示AI经营商店时持续亏损并做出反逻辑决策[23] - 模型无法理解商业基本概念 如顾客结构或定价策略[23] - 在井字棋测试中 替换符号即导致模型丧失胜负判断能力[23] 安全与责任隐患 - 系统提示限制易被绕过 如详细生成化学武器制作指南[25] - 生成危险建议时缺乏生死概念 如论证被车撞有益健康[25] - 医疗法律等关键领域出现虚构案例或错误建议[24][26] 行业技术路径争议 - 主流模型依赖参数规模和数据量 忽视结构化世界理解[11][15] - 统计拟合无法替代模型驱动的设计路径[15][16] - 智能系统必须构建可更新的世界模型而非依赖语言统计[11][28]