世界模型
搜索文档
白宇利等3人离场,蔚来智驾架构大调整背后,一年出走6位高管
国际金融报· 2025-10-10 13:45
高管离职事件概述 - 蔚来智驾团队在2024年年底至10月9日期间,共有6名核心高管离职,覆盖技术基建、算法研发、战略规划等关键领域 [1][2] - 近期离职的三位高管包括人工智能平台负责人白宇利、世界模型负责人马宁宁、智驾产品负责人黄鑫,三人均为智能驾驶研发的核心骨干 [1][2] - 理想汽车在2025年上半年也有多位智驾核心高管离职,包括端到端模型负责人夏中谱、世界模型负责人贾鹏等 [6] - 小鹏汽车近期北美智驾负责人林一树离职,自动驾驶中心负责人李力耘卸任 [7] 蔚来组织架构与战略调整 - 公司将高管密集离职界定为“主动适应通用人工智能发展的组织架构调整”,核心是构建“预研、量产、平台复制、车型复制”的“4×100接力棒”模式 [3] - 架构调整旨在强化对通用人工智能最新技术的吸收,高效实现智能驾驶体验交付,最终目标是全力冲刺世界模型2.0版本的开发与交付 [3] - 近一年来公司进行多次架构调整,2024年6月撤销感知、规控等传统部门推进端到端路线,同年12月自动驾驶副总裁任少卿接管大模型部 [4] 技术研发进展与挑战 - 公司计划从2025年底至2026年一季度,在多个平台陆续推出世界模型2.0迭代版本,核心升级包括加入语言模块、构建Open-set智能引擎、增强长时序处理能力 [3] - 原定2024年9月交付的端到端方案延期至2025年一季度,且城区NOA覆盖率仅60%,落后于华为ADS 3.0(全国无图)与小鹏XNGP(90%城区覆盖) [4] - 2024年公司用于智能驾驶、电池技术、换电技术等核心领域的研发投入累计达到130.37亿元 [4] 市场与投资者反应 - 事件发酵后,蔚来港股股价为57.8港元/股,较前一日下跌5.09% [5] - 投资者互动平台上,“智驾团队稳定性”与“世界模型研发进度”两类提问占比超60%,较前一日激增3倍 [5] - 蔚来车主社群“蔚来APP”中,“智驾高管离职”相关讨论帖24小时内突破千条,有车主表达对功能迭代延迟的担忧 [6] 人才流失的连锁影响 - 公司智驾人才流失呈现“高管带团队”的特征,例如原部署架构与方案部负责人秦海龙离职时带走3名核心工程师 [6] - 人工智能平台负责人白宇利离任后,其主导的云端算力调度项目组已有2名骨干成员提交辞呈 [6] - 猎头公司数据显示,蔚来智驾岗位的简历投递量较去年同期下降40%,候选人普遍担忧组织架构频繁调整导致职业发展不稳定 [6] 行业竞争格局演变 - 新势力密集的人事变动标志着智驾竞争已从“功能比拼”进入“AI大模型对决”的深水区 [7] - 理想汽车重押“VLA(视觉—语言—动作)”模型,其端到端方案已于2024年10月向MAX版本用户全量推送 [6] - 小鹏汽车由世界基座模型负责人刘先明接替李力耘,主导推动小鹏智驾向AI战略转型,2025年6月已在CVPR大会展示自动驾驶基座模型进展 [7]
ETF日报:贵金属和有色金属等板块多因素利好共振,可关注黄金股票ETF、矿业ETF、有色60ETF
新浪基金· 2025-10-09 12:30
市场表现 - 节后首个交易日A股市场迎开门红,沪指高开高走突破3900点整数大关,刷新2015年8月以来新高,收盘涨1.32%,深成指涨1.47%,创业板指涨0.73%,沪深两市成交额2.65万亿元,较上一交易日放量4718亿元 [1] - 黄金股票ETF领涨市场,收涨9.47%,矿业ETF和有色60ETF分别收涨8.58%和8.44% [1] - 国产算力板块冲高回落,科创芯片ETF、芯片ETF、集成电路ETF和半导体设备ETF分别收涨2.98%、2.96%、2.78%和2.62% [8] 贵金属与黄金 - 黄金价格在国庆期间持续上涨,10月8日一度冲破4059美元/盎司,创下历史新高 [4] - 美元信用走弱是黄金的长期支撑逻辑,美联储在9月货币政策会议上宣布降息25个基点至4.00%-4.25%区间 [2] - 美联储官员在降息幅度上存在分歧,9月会议投票结果为11比1,唯一反对的理事主张降息0.5个百分点,关于未来降息,略多于一半的官员预计2025年将至少再降息两次 [2] 全球政经事件 - 美国联邦政府因预算问题自10月1日起停摆已持续一周,参议院7天内进行5次投票均未能通过拨款法案 [3] - 法国总理勒科尔尼在任27天后宣布辞职,成为法兰西第五共和国任期最短的总理,其辞职导火索为新政府成员名单引发巨大分歧,马克龙总统面临严重政治危机 [3] - 日本自民党选举高市早苗为新总裁,高市被视为“安倍经济学”继承人,主张扩张性财政政策,目标使日本经济规模在10年内翻倍 [3] 有色金属与铜 - 全球第二大铜精矿印尼Grasberg矿山因事故停产,2024年产量为81.65万吨,约占全球3.5%,预计2025年第四季度产量较原指引减少约20万吨,2026年减少约27万吨 [6] - 智利国家铜业公司El Teniente铜矿发生矿难并受地震影响,调查预计耗时数月 [6] - 国际能源署报告指出,即使在高产量情景下,到2035年铜供应缺口仍将达到20%,标普全球分析师预计精炼铜从2027年开始出现显著短缺,到2032年铜精矿短缺量可能达220万吨 [8] 人工智能与半导体 - OpenAI发布Sora2模型,在理解物理世界、生成一致性、可控性及音视频合成方面取得显著进步,被视为AI视频的“GPT-3.5时刻” [10][12][15] - OpenAI开启大规模算力采购,与甲骨文签署价值3000亿美元算力合同,与英伟达达成至多1000亿美元投资意向,与AMD达成6吉瓦算力协议并获认股权证,若完全行权可购入相当于AMD总股本约10%的股票 [17][18] - 美国众议院中国问题特别委员会报告指出,由于美日荷规定存在差异,ASML、东京电子等设备商仍向中国销售半导体设备,该委员会呼吁扩大对华芯片制造设备出口禁令 [9] 存储市场 - 韩国和美国DRAM厂商已暂停对企业客户报价,预计第四季度DRAM报价可能上涨30%以上,部分规格涨幅或突破50%,未来三季度内DDR4内存供应缺口预计达10-15% [20] - 视频生成模型的普及可能倍增推理端存储需求,加剧供需不平衡,产业人士表示四季度才是存储严重缺货的开始 [20] - AI芯片所需的HBM带来更高盈利,导致海外龙头厂商将先进产能转向HBM和DDR5,旧代产品产能退出过快,引发供需错配 [21] 行业配置与ETF - 通信ETF中光模块占比49.27%,服务器占比21.51%,光纤和铜连接合计占比近10%,整体海外算力相关成分合计占比接近79% [21][22] - 集成电路ETF的存储成分占比超16%,GPU含量超19%,更偏重芯片设计,半导体设备ETF的PETTM为91.14倍,位于上市以来76.08%分位 [22] - 半导体芯片类ETF行业分布各有侧重,数字芯片设计中GPU和存储是重要细分领域,半导体设备ETF在设备和材料领域集中度较高 [23]
抬高AI权重 小鹏物理AI领域重大突破有望亮相
证券时报网· 2025-10-09 08:30
公司技术进展 - 公司有望在AI科技日宣布在物理AI领域取得重大突破 特别是在世界基座模型对世界进行推演的能力上取得关键进展 [1] - 公司AI团队已投入物理世界AI基座模型研发一年多 从底层AI Infra开始重构方法论 正在研发的基座模型使用了有史以来最大的模型数据量 是国内最领先的物理AI大模型 [1] - 公司在行业首次明确验证了规模法则在自动驾驶VLA模型上持续生效 该成果已在今年年中有过分享 [2] 核心产品与技术规格 - 公司于今年4月正式披露正在研发的720亿参数超大规模自动驾驶大模型“小鹏世界基座模型” [1] - 该720亿参数模型将为公司提供全新的智能驾驶“大脑” 并通过云端蒸馏技术部署到车端 同时赋能AI机器人、飞行汽车等多种终端设备 [1] - 自动驾驶VLA大模型是世界基座模型的一个重要应用 但更难的挑战是让世界基座模型具备对整个世界进行推演的能力 [1] 战略规划与目标 - 公司全面转向物理AI战略 抬高AI权重 2025年将是其物理世界基座大模型在AI汽车领域全面应用的起点 [2] - 公司计划从L2+辅助驾驶研发向更高等级的L3和L4级别自动驾驶技术快速发展 期待拉开代际领先 [2] - 公司目标在2026年第四季度让全球用户都能拥有最先进、最适应本地路况的智能驾驶体验 [2] 行业影响与竞争优势 - 特斯拉、华为与公司等新势力 出现决胜“世界模型”的新趋势 [1] - 世界基座模型的进化被业内认为是攻克大规模L4的关键一步 可快速将图灵AI智驾部署到全球其他国家 也可将技术复用到AI汽车、AI机器人上 利好打造“AI+出行”生态 [1] - 物理AI世界基座大模型的进化将使公司图灵AI智驾更拟人、聪明和安全 提升用户驾乘体验 解决更多长尾场景 带来更强泛化能力 [2]
自动驾驶之心双节活动即将截止(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-08 23:33
社区核心定位 - 专注于最前沿的自动驾驶技术,打造技术社区 [5] - 社区覆盖近40多个学习路线,包括自动驾驶VLA、世界模型、闭环仿真、扩散模型、BEV感知等关键技术领域 [5] - 旨在保持技术活力,推动持续学习 [5] 技术交流与资源 - 提供与学术界和工业界顶尖专家面对面交流的机会 [5] - 讨论行业前沿议题,如VLA和WA的路线之争、未来自驾发展方向、世界模型本质及端到端技术探讨 [5] - 社区资源包括顶会作者亲临、直播互动以及Impromptu VLA、NavigScene、LangCoop、DriveBench、ZeroGS、Diffusion planner等具体项目交流 [5] 课程与培训体系 - 平台提供七门精品课程,内容涵盖世界模型、轨迹预测、大模型、相机标定、毫米波、点云3D检测、Transformer等核心主题 [5] - 课程体系面向初学者,注重核心能力的系统性培养 [5] - 提供平台课程八折优惠券及超级折扣卡,课程可享受七折优惠 [3]
突然发现,新势力在集中IPO......
自动驾驶之心· 2025-10-06 04:05
行业动态与资源整合 - 国庆期间观察到多家新势力公司启动IPO进程,国内外行业正进行新一轮资源整合[1] - 9月22日国家市场监管总局公示中国第一汽车股份有限公司收购深圳市卓驭科技有限公司股权案,同日英国自动驾驶初创公司Wayve与英伟达签署意向书计划在下一轮融资中投资5亿美元(约合人民币36亿元)[1] - 9月27日魔视智能科技(上海)股份有限公司向港交所提交上市申请书,9月30日博泰车联网科技(上海)股份有限公司在港交所上市敲钟,同日北京四维图新科技股份有限公司宣布完成对鉴智机器人母公司PhiGent Robotics Limited的战略投资,10月2日岚图汽车向港交所递交招股书[1] - 自动驾驶领域技术栈趋于收敛,量产方案趋同,行业出现VLA/WA路线之争[1] 社区资源与服务体系 - 自动驾驶之心知识星球社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人,目标未来2年内达到近万人规模[3] - 社区联合学术界和工业界专家,梳理近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[4] - 社区提供40+自动驾驶技术方向资源,包括国内外高校著名自动驾驶团队整理、算法进阶、规划控制等分类内容[10] - 社区内部提供全栈方向学习课程,包括自动驾驶数据工程系列、2D/3D目标跟踪系列、多传感器标定系列等9大视频教程体系[12] - 社区与近300家机构与自动驾驶公司建立联系,提供岗位内推机制,成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等头部企业[19] 技术领域覆盖范围 - 社区技术资源覆盖自动驾驶感知学习路线、仿真学习路线、规划控制学习路线三大方向[19] - 具体技术板块包括端到端学习路线、3DGS算法原理、VLA学习路线、多模态大模型、占用网络、BEV感知、扩散模型、世界模型等40多个细分领域[19] - 专业分类包含3D目标感知最新综述、激光点云方法汇总、单目3D检测方法汇总、多模态3D检测方法汇总等28个技术模块[28] - 重点技术方向包括自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知、3D目标检测等核心领域[44][46][49][53][55] 行业交流与知识共享 - 社区不定期邀请行业大佬开展直播分享,目前已超过一百场专业技术直播,内容涵盖Impomptu VLA、LangCoop、Diffusion planner等前沿技术[89] - 星球内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等领域[87] - 社区提供国内外自动驾驶与机器人高校汇总、自动驾驶公司汇总、开源项目汇总、自动驾驶开源数据集等产业资源[29][31][35][37] - 日常讨论话题包括端到端自动驾驶入门、VLA学习路线、多传感器融合就业前景、3DGS与闭环仿真结合等实践性问题[20]
清华、北信科、复旦团队解读具身智能!大语言模型与世界模型如何让机器人懂物理、会思考?
机器人大讲堂· 2025-10-06 04:05
文章核心观点 - 具身智能是人工智能在物理世界中实现感知-认知-互动闭环的关键方向,其终极目标是实现人类级别的通用智能[4] - 大语言模型与世界模型的协同是推动具身智能发展的核心技术,前者负责语义理解和任务规划,后者负责物理规律预测和动作验证[9][14][19] - 大语言模型与世界模型的结合能形成语义指导物理、物理约束语义的闭环,实现1+1>2的效果,是具身智能走向实用的关键[14][19] - 具身智能技术已在服务、工业、救灾等领域实现应用,显著提升了机器人的自主性和适应性[20] - 未来具身智能需在自主进化、硬件优化、群体智能及安全性等方面取得突破[21] 具身智能定义与特点 - 具身智能核心在于物理世界互动,需通过传感器感知环境、认知系统处理经验、执行器做出动作,形成闭环[4] - 与离身智能不同,具身智能直接与物理世界互动,例如扫地机器人避障规划、救灾无人机自主避障等[2][4] - 终极目标是实现接近人类级别的通用智能,能在动态不确定的物理世界中自主适应,例如听懂指令并安全移动易碎品[4] 技术发展脉络:从单模态到多模态 - 早期具身智能为单模态模式,仅依赖视觉或语言等单一感官,存在明显短板,如纯视觉机器人在昏暗环境中易迷路[5][7] - 技术转向多模态融合,整合视觉、语言、触觉、听觉等信息,使机器人能更灵活处理复杂任务,例如服务机器人可协同感知物体位置、用户需求及物体重量[8] - 多模态能力推动感知、认知、互动三者从各自为政转向互相配合,关键驱动因素是大语言模型和世界模型的突破[8][9] 大语言模型的作用与演进 - 大语言模型核心作用是赋予语义智能,使机器人从执行固定指令升级为理解模糊复杂的人类语言并进行任务分解[10] - 例如Google SayCan案例,通过搭配真实世界动作库和价值函数验证动作可行性,但早期模型依赖固定动作库,适应性有限[10] - 多模态大语言模型(如PaLM-E、RT-2)直接处理图像、语言、触觉等多模态信息,输出动作序列,不再依赖固定动作库[12] 世界模型的功能与架构 - 世界模型相当于机器人大脑中的物理世界模拟器,负责预测动作后果,确保符合物理规律[14][18] - 主要功能包括构建内部表征(压缩传感器信息为结构化地图)和预测未来变化(预判动作风险,如推桌子是否碰倒杯子)[18] - 主流架构包括RSSM(擅长时序信息和短期预测)、JEPA(擅长语义特征提取)、Transformer-based模型(擅长长序列规划和复杂环境)[14] 大语言模型与世界模型的协同 - 两者具强互补性:大语言模型懂语义但不懂物理,世界模型懂物理但不懂语义,单独使用均无法实现高级具身智能[14][19] - 结合后形成闭环:大语言模型生成初步计划,世界模型验证物理可行性并反馈调整,最终输出符合需求与规律的动作序列[19] - 例如EvoAgent具身智能体,结合两者后能在不同环境中自主完成长期任务,无需人类干预[19] 应用场景与案例 - 服务机器人从预设路线升级为听懂指令、实时避障、根据语气调整服务,如酒店送物机器人[20] - 工业机械臂从专机专岗变为通过大语言模型理解指令、世界模型预判抓取力度,实现柔性任务切换[20] - 救灾无人机从人类遥控升级为通过世界模型模拟风险、大语言模型理解指令,自主规划安全路径[20] 未来挑战与方向 - 需突破自主进化能力,使机器人能在新环境中探索学习,减少对人类标注数据的依赖[21] - 硬件需优化算法-硬件协同,设计专用加速器或通过模型压缩支持边缘设备运行[21] - 需发展群体具身智能,解决多机器人协同中的信息共享、任务分配和容错问题[21] - 安全性与可解释性至关重要,需确保动作可追溯、符合人类伦理,如危险时优先保护人类[21]
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 04:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
自动驾驶之心双节活动进行中(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-04 04:04
社区核心定位 - 专注于自动驾驶技术领域的最前沿社区 [5] - 社区技术方向涵盖视觉语言自动驾驶、世界模型、闭环仿真、扩散模型、鸟瞰图感知等超过40个学习路线 [5] - 社区旨在保持技术活力并推动持续学习 [5] 技术交流与资源 - 提供与学术界及工业界顶尖专家面对面交流的机会 [5] - 交流议题包括视觉语言自动驾驶与规划代理的路线之争、自动驾驶未来发展方向、世界模型内涵及端到端技术讨论 [5] - 社区资源包括七门精品课程,内容覆盖世界模型、轨迹预测、大模型、相机标定、毫米波雷达、点云3D检测、Transformer等技术领域 [5] - 社区内容设计面向初学者,注重核心能力培养 [5] 会员与活动推广 - 为新会员提供星球七折优惠,续费会员可享五折优惠 [4] - 平台课程提供八折优惠券及七折超级折扣卡 [3]
华为、蔚来重金押注WA世界模型!这才是未来辅助驾驶的发展方向?
电动车公社· 2025-10-03 15:58
WA世界模型的技术原理 - WA世界模型概念源于20世纪40年代苏格兰心理学家肯尼思·克雷克提出的"心智模型",通过模拟物理规律理解世界并做出决策[9][11][12] - 2018年DeepMind发表《World Models》论文,提出通过自动编码器压缩现实场景数据,利用神经网络推演未来可能性,再通过控制器执行动作的"造梦"训练模式[17][18][19] - 世界模型采用类似"训狗"的奖励惩罚机制,通过设定物理参数和规则框架让AI在试错中进化[24][26] - 2022年后借助ChatGPT等大模型的序列建模能力,世界模型从2D升级到3D仿真,可推演多因素叠加的复杂场景[26][28] - 核心目标是让AI具备人类式的物理时空理解能力,通过因果逻辑预演行动后果[29] WA世界模型在自动驾驶领域的应用 - 华为和蔚来是明确采用WA世界模型技术路线的代表企业[6] - 蔚来技术可实现分析前3秒行车数据,0.1秒内推演120秒模拟路况,生成216种场景可能性[32] - 华为ADS 4系统分为云端WE(World Engine)世界引擎和车端WA(World Action Model)世界行为模型,合称WEWA[37][39][40][41] - 系统内置多专家模块,如路口预测专家和拥堵跟车专家,根据不同场景调用专用算力资源[56][57][58] - 车端算力需求较低,通过注意力热图实现局部算力聚焦,降低延迟提高反应速度[54][55][59] WA世界模型与传统端到端及VLA的对比 - 相比传统端到端模型,WA世界模型增加预判环节,运行速度更快[33][34] - 解决端到端黑箱问题的手段不同:VLA通过图像转文本实现可视化修改,WA通过三维物理规则反向演算配合注意力热图回溯问题根源[44][45][48] - 数据训练优势明显,云端世界引擎可虚拟生成极端事故场景数据,突破真实数据稀缺限制[50][51][52] - 与VLA技术路线差异:WA依赖"肌肉记忆"经验式反应,车端系统更精简;VLA接近人类逻辑思考,擅长处理突发危险场景和复杂长尾决策[62][63][64][65] - 硬件需求侧重点不同:VLA对车端芯片算力要求高,WA更依赖网络速度和芯片带宽[68] 行业技术路线发展态势 - 当前辅助驾驶技术处于分水岭阶段,WA与VLA路线各有拥趸[69][70] - 长期可能走向技术融合或出现新架构,实现优势互补[71] - 技术发展最终目标为推动L3、L4级自动驾驶落地[72][73]
Sim2Real,解不了具身智能的数据困境。
自动驾驶之心· 2025-10-03 03:32
核心观点 - 具身智能领域正面临仿真数据、真实数据与世界模型三种技术路线的选择与融合,行业专家普遍认为仿真数据在当前及可预见的未来具有不可替代的作用,尤其是在模型训练、测试和安全验证方面,而世界模型作为新兴方向,在长期规划和数据生成方面展现出潜力,但其发展仍受限于奖励机制设计、计算资源等因素 [4][19][27] 对Sim-to-Real Gap的理解 - Sim-to-Real Gap的核心在于仿真环境对真实世界模拟不完全,存在视觉细节(如物体摩擦力、光影效果)和物理细节还原不足的问题,导致模型泛化能力弱、仅适配特定场景 [8] - 缩小差距需围绕数据优化展开,包括结合模型需求设计虚拟与真实数据配比、借助AIGC生成丰富数据以兼顾体量与真实性等 [8] - 以阴影问题为例,不同光源位置会形成不同阴影,可作为判断模型对真实世界理解程度的有效依据 [8] - 解决数据问题的一种方案是借助AIGC强大的生成能力,通过替换桌面纹理、光照、物体摆放等方式,兼顾数据丰富性与真实性 [11] 仿真数据与真实数据的价值与应用 - 在自动驾驶等领域,仿真测试已被验证更快速、省时省力且安全,训练用真机更务实,测试用仿真更合适是核心观点之一 [19] - 从学术角度看,若真机数据能极大丰富,同等数量下其训练效果优于仿真数据,但现实是具身智能领域真实数据体量远不及自动驾驶,且机器人本体不易统一,行业期待高,导致真实数据缺口巨大 [20] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试,没有机构会训完模型不做仿真测试就直接上真机,可避免真机实验中烧电机、损坏关节等难以估量的损失 [21] - 仿真在强化学习规模化上价值更大,若仿真器构建良好,可通过大规模并行训练让模型学习到真实数据中难获取的场景(如物体被碰倒后如何处理) [24] - 仿真数据的核心优势包括代码复用性强(更换机器人时仿真代码基本无需改动)以及在教育领域的显著价值,能降低授课与学习门槛 [26] - 长期来看,仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充 [26] 世界模型的未来研究方向与价值 - 世界模型应用于自动驾驶、具身智能的方向正确,但存在核心问题待解决,如“小世界模型”路径是否可行(即能否基于其直接生成轨迹或策略),以及奖励设计与下游任务衔接问题 [29] - 世界模型并非新概念,与过往相关模型概念相通,该领域研究无需大量计算资源,学术界应聚焦用小资源就能探索的学术问题 [29] - 引入力、触觉等新模态是值得关注的研究方向,可聚焦世界模型中物理规律的相关问题,在有限计算资源下开展尝试 [30] - 在未来12-18个月内,最重要的科学问题是如何在世界模型中引入reward,因为action和observation已有较好发展,而操作领域仍处于混沌状态,适合科研探索 [31] - Genie 3虽能渲染视频且三维一致性较好,但在面向机器人等场景时,当前动作维度(如六维、七维)不足,仍需数据引擎构建对应场景来生成高维度动作数据 [32] - 世界模型的研究对于通用视觉、长期规划和记忆功能等方面展现出潜力,但如何设计合适的奖励机制以及如何应用于更多场景是关键待解问题 [32] 对波士顿动力机器人技术的分析 - 波士顿动力机器人的技术实力体现在其执行任务的“丝滑”性,这不仅涉及单纯的抓取操作,还涉及全身运动,其遥操作部分技术难度很高,需要出色的运动控制作为支撑 [33][35] - 该系统的模型设计若不复杂,但结合出色的底层能力实现了好效果,比设计复杂模型更令人震惊,目前在遥操作素材采集上就落后于该系统 [35] - 具身智能领域的关键不在于算法,而在于数据和硬件,波士顿动力的硬件技术方案与教育界常用方案差异显著,其高度拟人化设计代表了正确发展方向,但核心问题在于其硬件产品并不对外出售 [37] - 实现丝滑效果的另一关键因素是推理层面的架构经过大量调整优化,“避免阻塞”这一问题即便有专门研究,开源方案仍有很大改进空间 [37] - 运动控制(运控)水平的差异是表现差异的重要原因,传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性 [38][39]