视频生成模型

搜索文档
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-22 00:03
为解决这些问题,研究团队提出 PhysicalAgent ——一个融合迭代推理、扩散视频生成与闭环执行的机器人操控框架。其核心思路是:用基础模型(视觉语言模 型、扩散视频模型)承担感知与推理的"重活",仅保留轻量级机器人适配层负责执行,最终实现跨形态、跨任务的通用操控,同时通过迭代修正提升执行鲁棒 性。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Artem Lykov等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 核心定位与动机 当前机器人操控领域存在两大关键瓶颈:一是主流视觉-语言-动作(VLM)模型(如RT-1/RT-2、OpenVLA)依赖任务与平台特定微调,换机器人或环境后鲁棒 性骤降;二是基于世界模型的方法(如DreamGen)需依赖专门训练的预测模型(如Cosmos Predict),且训练数据需精心筛选机器人-场景对,通用性受限。 架构设计:泛化性的核心逻辑 该框架的核心原则是 感知与推理模块不绑定特定机器人形 ...
宇树科技王兴兴发“暴论”,对智驾有什么参考?
36氪· 2025-08-11 23:58
核心观点 - 宇树科技CEO王兴兴认为具身智能AI模型是未来2-5年核心发展方向,质疑当前VLA模型架构的实用性,并提出视频生成模型和端到端模型作为替代方向 [1][3][10][13] - 行业技术瓶颈在于模型架构不完善、数据利用不足及RL缩放定律缺失,而非硬件性能限制 [4][6][8][12] - 未来需聚焦端到端模型、低成本硬件批量制造及分布式算力网络三大方向 [16] 技术瓶颈分析 - 当前机器人硬件(包括灵巧手和整机)已基本满足需求,核心瓶颈在于具身智能AI大模型未成熟 [4] - 行业过度关注数据而忽视模型架构问题,导致模型缺乏统一性、泛用性且数据利用不充分 [6][8] - VLA模型被评价为"相对傻瓜式的架构",对数据质量依赖过高且适应性不足,VLA+RL组合优化效果有限 [10] - RL缩放定律缺失导致机器人学习新任务需从零开始训练,训练效率低下,理想状态应基于旧有基础快速学习新技能 [12] 新兴技术方向 - 视频生成模型路线比VLA模型更具潜力,可通过生成动作序列视频直接指导实体机器人执行指令 [13] - 当前视频生成模型存在GPU消耗过高问题,机器人应用无需高精度视频,需解决能耗与实用性的矛盾 [15] 未来技术重心 - 需研发统一端到端智能机器人大模型,实现基于既有训练基础快速学习新技能 [16] - 硬件需实现低成本、高寿命及超大批量制造以支撑数百万/千万台量级应用 [16] - 构建分布式算力网络(如工厂服务器集群或区域算力集群),解决机器人本体峰值功耗仅100瓦的算力限制 [16] 行业应用预期 - 当机器人具备大规模作业能力时,可能通过创造价值直接缴税实现"免费"状态,该进程预计2-10年内实现 [17] - 当前智能汽车行业普遍采用VLA+RL或世界模型路线,与具身智能开发逻辑存在差异,技术路线需实战验证 [17]