世界模型(World Model)
搜索文档
人形机器人的2025:一半是迷雾森林,一半是星辰大海
钛媒体APP· 2025-12-16 08:03
行业前景与市场预期 - 行业核心人物对前景极为乐观,英伟达创始人黄仁勋认为未来人形机器人数量将超过人类人口,二十年内每个家庭可能拥有多台 [2] - 特斯拉CEO埃隆·马斯克认为人形机器人业务未来价值可能超过特斯拉汽车和自动驾驶业务总和 [2] - 花旗分析师认为人形机器人投资回报周期可能非常短,部分机器人投资回收期估计短至36周,在家庭服务、老年照护及物流等领域潜力巨大 [15] - 宇树科技创始人王兴兴预测人形机器人的“ChatGPT时刻”(在80%陌生场景听懂指令并完成约80%任务)最快可能在1-2年内实现,最晚不超过3-5年 [14] 投资热度与市场表现 - 2025年前9个月,全球人形机器人领域投资交易额达到约70亿美元(约500亿人民币),同比增长250% [3] - 截至2025年12月16日,A股人形机器人概念板块整体涨幅为54.98%,远超大盘 [14] - 国家发改委数据显示,中国已有超过150家企业涉足人形机器人领域,其中超过一半公司成立于2023年至2025年之间 [17] - 多家头部公司正筹备上市,宇树科技、智元机器人及银河通用在2025年下半年完成股改,宇树科技已完成132天IPO辅导,预计2025年10-12月提交科创板上市申请 [16][17] 技术发展路径与挑战 - AI大模型的出现是人形机器人受关注的根本原因,其训练方式从传统人工编写方程转向基于数据和算力的强化学习,效率得到质的提升 [4][5] - 当前主流VLA(视觉-语言-动作)模型面临瓶颈,其训练所需的具身智能数据(连续、动态、三维/四维时空轨迹流)稀缺且复杂,制约能力跃升 [6] - VLA模型被指架构“傻瓜式”,训练新动作需从头开始,且行业尚未出现清晰的技术收敛路径(Scaling Law) [6][7] - 小鹏汽车创始人何小鹏质疑VLA模型中语言(L)环节造成信息损耗,提出应砍掉L环节,转向“世界模型”(V→A),但该路径同样未现清晰技术收敛趋势 [8] - 在完全自主智能(AGI)到来前,部分公司通过“遥操作”平台让机器人复刻人类动作执行任务,作为进入现实场景、采集训练数据的现实路径 [13] 订单与商业化现状 - 2025年出现多笔“亿元级订单”,优必选累计订单总额达13亿元,智元和宇树科技联合中标项目总预算1.2405亿元,马斯克向中国供应商抛出的核心零部件订单金额达6.85亿美元 [9] - 市场对订单性质存在质疑,摩根士丹利报告指出许多“大额订单”属于框架协议或意向订单,执行确定性较低,且可能存在关联方流转的“左手倒右手”情况 [10] - 高盛调研指出,供应链企业规划的年产能规模介于10万到100万台机器人等效单位之间,被其评价为“极其激进”,目前没有公司确认收到大规模订单或明确生产时间表 [10] - 高盛预测全球人形机器人到2035年的出货量仅为138万台 [10] - 行业存在对“伪需求”的担忧,担心当前量产由政策补贴和投资热度驱动,而非真实商业需求,可能导致行业进入低谷 [12] 行业推动与降温迹象 - 为降低使用与开发门槛,厂商推出创新模式,如智元联合发起全国首个机器人租赁生态联盟,提供金融方案与补贴政策,并推出无需编程的“灵创”平台 [12][13] - 行业已出现公司倒闭潮苗头,2025年11月,对标宇树科技的K-Scale Labs停止运营,该公司种子轮融资400万美元,估值达5000万美元;10月,国内具身智能创业公司一星机器人(OneStar)传出解散消息 [19] - 发改委相关部门负责人指出行业在技术路线、商业化模式等方面尚未成熟,需防范产品“扎堆”上市、研发空间被压缩等风险 [17]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-12 12:00
视觉大语言模型 - 文章汇总了视觉大语言模型(VLM)在自动驾驶和智能交通领域的最新研究资源和论文 [3][4] - 提供了多个开源项目链接,涵盖视觉语言模型的理论、应用和安全等方面 [3] - 列出了多个顶级会议(CVPR 2024、ICLR 2024等)的最新论文,涉及视觉语言模型的预训练、对齐和推理优化 [5][7] 迁移学习方法 - 总结了视觉语言模型在迁移学习中的最新进展,包括非自回归序列模型、公平性优化和高效微调方法 [7] - 提出了多种改进视觉语言模型迁移性能的技术,如动态视觉标记、上下文学习和检索增强对比学习 [7] - 涵盖了CVPR、ICLR、NeurIPS等会议的多篇论文,涉及模型架构优化和零样本泛化能力提升 [7] 知识蒸馏 - 讨论了视觉语言模型在检测、分割和多任务学习中的知识蒸馏技术 [8] - 未提供具体数据或论文细节,仅作为研究方向提及 [8] 世界模型 - 综述了自动驾驶中世界模型的研究,包括场景理解、未来预测和4D重建 [9][12] - 列出了多个创新模型,如HERMES、DriveDreamer4D和Vista,涵盖3D场景生成和可控视频预测 [9][12] - 提供了世界模型在自动驾驶中的全面调查和未来趋势分析 [12] 扩散模型 - 汇总了扩散模型在图像处理、视频生成和自动驾驶中的应用 [14][15] - 列出了多个开源资源和论文集合,涵盖图像恢复、3D视觉和推荐系统等领域 [14][15] - 提供了扩散模型在低层视觉、时间序列和多模态编辑中的最新研究进展 [15] 端到端自动驾驶 - 介绍了端到端自动驾驶的最新研究方向和论文资源 [16][19] - 提供了多个开源项目链接,涵盖感知、预测、规划和仿真等方向 [19] - 列出了CVPR、ICRA、NeurIPS等会议的相关研讨会和论文,涉及大规模基础模型和行为驱动驾驶 [19] 行业动态 - 提到自动驾驶行业有近4000人的交流社区,涵盖30+技术栈和300+公司与科研机构 [17] - 涉及感知、定位、规划控制等多个领域的技术方案和岗位发布 [17]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-06 08:44
视觉大语言模型 - 视觉大语言模型在智能交通和自动驾驶领域有广泛应用,相关资源包括Awesome-VLM-AD-ITS和Awesome-LLM-Inference等GitHub项目 [4] - 视觉语言模型的研究方向包括预训练、迁移学习、知识蒸馏等,涉及CVPR、ICLR、NeurIPS等多个顶会论文 [5][7][8] - 视觉语言模型的架构和推理策略有专门的研究,如Awesome-VLM-Architectures和Awesome-VLM-Inference-Strategies等项目 [4] 世界模型 - 世界模型在自动驾驶中的应用包括3D场景理解和未来场景生成,代表性工作有HERMES和DrivingGPT等 [9][10] - 2025年最新综述总结了自动驾驶中的世界模型研究现状 [10] - 世界模型在4D驾驶场景表示和规划中发挥重要作用,如DriveDreamer4D和DriveWorld等项目 [12][13] 扩散模型 - 扩散模型在自动驾驶视频生成和场景理解中有广泛应用,相关资源包括Awesome-Diffusion-Models等项目 [14] - 扩散模型在图像处理、视频编辑、3D视觉等领域都有专门研究,涉及多篇综述论文 [15] - 扩散模型与自动驾驶世界模型的结合是新兴研究方向,如DriveDreamer-2等项目 [13] 端到端自动驾驶 - 端到端自动驾驶研究涉及感知、预测、规划等多个环节,相关资源包括Awesome-End-to-End-Autonomous-Driving等项目 [21] - 端到端自动驾驶的最新进展在CVPR、ICRA、NeurIPS等顶会上有专门研讨 [21] - 端到端自动驾驶技术栈涵盖大模型、BEV感知、多传感器融合等30+方向 [19][21] 行业社区 - 自动驾驶行业有近4000人的交流社区,300+公司和科研机构参与 [19] - 社区覆盖30+技术方向的学习路线,从基础到前沿全面覆盖 [19] - 社区提供专业课程,涉及端到端自动驾驶、大模型、仿真测试等多个方向 [20][21]