Workflow
多模态世界模型
icon
搜索文档
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
量子位· 2025-12-10 04:26
研究突破与核心框架 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了名为UNeMo的视觉-语言导航新框架,该论文已入选AAAI2026 [1][5] - 该框架旨在解决现有基于大语言模型的导航方法面临的两大瓶颈:推理模态单一(仅依赖语言,缺乏视觉预判)以及优化目标冲突(推理与导航策略分开训练,适配性差)[9] - 其核心突破在于构建了“多模态世界模型”与“分层预测反馈导航器”的双向协同架构,将视觉状态推理与导航决策深度绑定,形成“预判+决策”闭环 [10][11][19] 技术架构与工作原理 - 多模态世界模型基于条件变分自编码器构建,能接收当前视觉特征、语言指令与候选动作,通过跨注意力机制融合信息,预测未来视觉状态,无需额外标注数据即可通过导航结果反馈持续优化 [12][13][14] - 分层预测反馈导航器采用两阶段机制:首先生成粗粒度候选动作锁定方向,再融合预测的未来视觉状态优化出细粒度动作以修正偏差,提升复杂场景下的导航稳健性 [17] - 该架构实现了推理与决策的动态闭环赋能,MWM的视觉预判提升决策精准度,导航执行结果实时反馈优化MWM预测准确性,两者双向促进持续迭代 [20][21] 性能与效率表现 - 在核心数据集R2R的测试中,UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30% [24] - 资源消耗大幅优化:训练时GPU显存占用从27GB降至12GB,减少56%;推理速度从每步1.1秒提升至0.7秒,效率提升40% [24] - 在模型未见过的测试环境中,导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点;路径效率(SPL)从60%提升至61.3% [26][27] 复杂场景与长路径导航优势 - UNeMo在长轨迹导航中表现突出,在未见过的环境中导航成功率可达72.5% [4] - 具体在长路径(长度≥7)导航中,成功率大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径(长度<7)的4.7倍,有效缓解了长距离导航的累积误差 [29][30] 架构通用性与可拓展性 - 团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证 [31] - 实验结果显示,其在未见场景的导航成功率与远程目标定位成功率指标上均有提升,表明该协同训练架构能灵活适配不同类型的导航系统,具备强可拓展性 [32][33] 总结与意义 - UNeMo通过其协同架构,解决了传统VLN方法推理与决策脱节、资源消耗高的问题 [34] - 该框架具备轻量化配置、高性能、长路径导航稳健以及跨场景适配性强的优势,为视觉-语言导航提供了高效可行方案,有助于服务机器人等实际场景的落地 [34]
奥特曼否认OpenAI明年上市;中国移动0元划转4198万股
21世纪经济报道· 2025-11-04 03:27
巨头风向标 - OpenAI CEO否认公司计划明年上市,并透露其年收入远超传闻中的130亿美元 [2] - 中国移动集团将其持有的4198.1348万股A股股份无偿划转给中国石油集团,划转后中国移动集团持股比例从69.05%降至68.85%,中国石油集团持股0.19% [3] - 微软CEO表示公司可能在未来一年内重启招聘,前提是现有员工掌握与AI协作的新工作模式,公司现有员工21.9万人 [4] - OpenAI与亚马逊云科技达成380亿美元算力采购协议,将使用数十万块英伟达GPU,同时承诺继续向微软采购2500亿美元服务 [5] - 小鹏汽车CEO何小鹏官宣团队正全力冲刺2026年实现机器人量产,并展望未来5-10年机器人将走入更多家庭 [6] - 埃隆·马斯克宣布将推出一款全新的加密通信平台XChat,主打无广告和高隐私保护 [7] - 波音公司以105.5亿美元完成其数字航空解决方案业务部分资产的出售,交易为全现金,旨在优化资本结构并专注于核心业务 [8] 政策与标准 - 国家数据局表示在数据领域标准研制中企业占比达78%,并明确将优先支持创新能力强、掌握核心技术的民营企业牵头标准研制 [9] 芯片与半导体 - 马斯克称已与团队审核特斯拉智能辅助驾驶芯片AI 5的进度,并表示AI 6、AI 7将紧随其后推出 [10] - 高通与联发科加速布局台积电N2P工艺,台积电A16制程最快明年3月试产,苹果将于A20系列芯片中引入WMCM先进封装技术 [11] 融资与资本 - 武汉蔚能电池资产有限公司完成6.7亿元C轮股权融资,公司运营电池资产规模已突破30GWh,服务用户超40万人,并已申请专利超160项 [12] 产品与技术 - 智源研究院发布悟界Emu3.5多模态世界大模型,其参数量从8B上升至34B,视频数据训练量时长从15年跃升至790年,并通过新技术将每张图片的推理速度提升近20倍 [13]
智源研究院发布“悟界”系列大模型:让AI看见并理解物理世界
经济观察网· 2025-06-07 02:55
智源研究院最新动态 - 北京智源大会开幕,吸引图灵奖得主约书亚·本吉奥、强化学习之父理查德·萨顿及谷歌、Meta、华为等全球知名AI机构学者参与[2] - 公司发布"悟界"系列四大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0及全原子微观生命模型OpenComplex2[2][3] - 院长王仲远提出大语言模型面临增长天花板,AI下一阶段需突破多模态世界模型以理解物理世界[2][4] 悟界系列模型技术细节 - Emu3采用视觉Tokenizer技术,实现文字/图像/视频的统一表征和生成[3] - Brainμ整合超100万单位神经信号数据,与清华、北大等机构合作验证脑疾病诊断等应用潜力[3] - RoboOS 2.0性能提升30%,全链路响应时延缩短至毫秒级;RoboBrain 2.0增强多机协同规划能力[3] - OpenComplex2实现原子级分子运动模拟,弥补AI静态结构预测短板[3] 战略方向与行业趋势 - 公司提出从语言模型转向世界模型,通过多模态技术让AI模拟物理世界运行与交互[4] - 具身智能短期面临商业化挑战,包括数据采集成本、伦理问题及适配成本[5] - 与香港投资管理有限公司达成战略合作,聚焦全球人才汇聚与技术全球化[6] 国际化与开源进展 - 坚持开源路线,累计开源200个模型,全球下载量达6.4亿次[7] - 通过新加坡"青源会"连接全球青年AI人才,加强欧洲合作并评估中东市场机会[6] - 历史模型"悟道"系列曾创1.75万亿参数纪录,2023年悟道3.0实现多模态突破并全面开源[6]