Workflow
具身人工智能
icon
搜索文档
大摩:视觉数据重构AI机器人竞争格局 特斯拉(TSLA.US)为核心关注标的
智通财经网· 2025-09-24 13:36
文章核心观点 - AI机器人竞争焦点从算法迭代转向数据争夺 视觉数据成为VLA模型训练的核心资源 企业通过场景覆盖和数据积累构建技术壁垒 [1] - 光子之争将随具身人工智能技术成熟而加剧 能平衡数据收集效率 用户隐私与商业化落地的企业有望脱颖而出并重塑产业格局 [1] 视觉数据价值与行业共识 - 视觉-语言-动作模型是AI机器人实现自主交互的核心 现实捕捉数据成为全球科技与制造巨头争夺焦点 [2] - 视觉数据被比喻为胖金枪鱼 需配备数据处理能力才能释放价值 企业需掌握尧级次浮点运算能力处理数据 [3] - 高质量多场景视觉训练数据稀缺 Figure AI联合创始人强调大规模获取家庭场景超高清视频是获胜关键 [3] 特斯拉数据采集策略 - 特斯拉Optimus通过人类演示视频自主执行任务 从第一视角转向第三人称视角 实现数据驱动自主学习 [4] - 2025年8月预训练彻底去人工化 通过录制工厂工人执行任务视频获取数据 降低训练成本并学习复杂操作逻辑 [4] - Skild AI构建机器人基础模型 使用互联网人类动作视频作为核心训练数据 印证现实场景数据通用性价值 [4] 巨头竞争格局 - Meta在眼镜产品嵌入2个超高清摄像头 捕捉手部动作现实数据 预计2年内设备保有量达2000万台 [5][6] - 用户脸部成为数据战场 全栈式布局为抢占下一代计算平台奠定基础 视觉数据收集是核心环节 [6] - 布鲁克菲尔德开放超过100万套住宅单元 5亿平方英尺商业办公空间和1.6亿平方英尺物流仓储空间用于数据收集 [6] - 场景多样性提供多维度训练素材 帮助机器人学习在人类为中心场景中移动感知与行动 形成数据收集-模型训练-场景落地闭环 [7] 投资关注方向 - 特斯拉被列为核心关注标的 获增持评级和目标股价410美元 AI机器人技术突破与数据积累支撑长期估值 [8] - 行业面临传统车企 中国车企及科技巨头竞争加剧 特斯拉多工厂投产与技术迭代执行风险等挑战 [8]
光子之争:AI机器人视觉数据成核心战场,特斯拉与Meta竞逐现实捕捉赛道
智通财经· 2025-09-24 12:58
视觉数据在AI机器人领域的核心地位 - 视觉-语言-动作模型是AI机器人实现自主交互的核心 训练这类模型需要现实捕捉数据 现实捕捉数据成为全球科技与制造巨头争夺焦点[1] - 视觉数据是AI机器人的燃料 企业需要掌握尧级次浮点运算数据处理能力才能释放其价值 高质量多场景视觉训练数据稀缺[2] - AI机器人竞争从算法迭代下沉至数据争夺 视觉数据获取能力直接决定企业行业地位[8] 特斯拉的纯视觉训练策略 - 特斯拉Optimus机器人通过人类演示视频自主执行任务 从第一视角转向随机部署摄像头捕捉的第三人称视角 实现从人工操控辅助向数据驱动自主学习的关键跨越[3] - Optimus预训练彻底去人工化 不再依赖动作捕捉服与VR远程操控 转而录制工厂工人执行任务视频获取训练数据 降低训练成本并学习真实工业场景复杂操作逻辑[3] - 特斯拉被列为核心关注标的 获得增持评级 目标股价410美元 AI机器人技术突破与数据积累是支撑长期估值关键变量[7] 科技巨头在视觉数据领域的布局 - Meta在眼镜产品中嵌入2个超高清摄像头 重点捕捉用户手部动作现实数据 包括弹钢琴织毛衣倒咖啡倒垃圾等日常动作[5] - Meta眼镜设备保有量未来2年内或达2000万台 接近当前全球特斯拉汽车数量的2倍 用户脸部成为数据争夺战场[5] - Meta全栈式布局包括自主研发硬件AI操作系统内容生态 为抢占下一代计算平台奠定基础 视觉数据收集是核心环节[5] 不动产资源在数据收集中的应用 - 布鲁克菲尔德与Figure AI合作 开放超过100万套住宅单元5亿平方英尺商业办公空间1.6亿平方英尺物流仓储空间用于AI机器人训练数据收集[6] - 合作核心价值在于场景多样性 住宅办公物流等不同场景提供多维度训练素材 帮助机器人学习在以人类为中心场景中移动感知与行动[6] - 计划探索在不动产中部署人形机器人的长期商业化机会 形成数据收集模型训练场景落地闭环[6] 行业竞争格局与发展趋势 - 传统车企中国车企及科技巨头在AI机器人领域竞争加剧[7] - 特斯拉多工厂投产与技术迭代存在执行风险 FSD搭载率用户平均收入不及预期可能影响Dojo超级计算机赋能服务业务的价值认可[7] - 光子之争将愈发激烈 能平衡数据收集效率用户隐私与商业化落地的企业有望脱颖而出 重塑全球AI机器人产业格局[8]
黄仁勋随特朗普访英:26亿美元下注英国AI,智驾公司Wayve或获5亿美元加码
搜狐财经· 2025-09-20 09:57
20 亿英镑,是英伟达给英国送上的新礼物。 近日,英伟达首席执行官黄仁勋宣布,他们将在英国投资 20 亿英镑(约合 26 亿美元),催化英国的人工智能初创企业生态系统,并 加速创造新公司、新工作和引领全球变革的人工智能业务。 Wayve,一家总部位于英国的无人驾驶初创公司,有望凭一己之力拿到其中的五分之一。该公司日前宣布,已与英伟达签署意向书, 后者将在其下一轮融资中"评估 5 亿美元的投资"。同时,Wayve 即将推出的 Gen 3 硬件平台,将完全基于英伟达的 DRIVE AGX Thor 车载计算平台打造。 图 | 亚历克斯·肯德尔(Alex Kendall)个人主页(来源:肯德尔) 图 | Wayve 宣布与英伟达签署投资意向书(来源:Wayve) 英伟达曾在 2024 年 5 月参与了 Wayve 的 10.5 亿美元 C 轮融资,当时的投资者还包括软银和微软等。此次,在 Wayve 尚未披露 D 轮 融资日程的情况下,英伟达就展现出了积极的意向,足见其对 Wayve 的青睐。 Wayve 联合创始人兼首席执行官亚历克斯·肯德尔(Alex Kendall)表示:"我们的 AV2.0 构建具身人工智能 ...
英伟达拟向英国自动驾驶初创企业 Wayve 投资 5 亿美元
搜狐财经· 2025-09-20 00:52
投资合作 - 英伟达拟在Wayve下一轮融资中评估5亿美元战略投资 [1] - 投资基于英伟达此前参与的C轮融资 将为公司持续发展提供动力 [3] 技术协同 - Wayve基础模型方案与英伟达车规级加速计算平台结合 为汽车制造商提供人工智能技术与硬件支持 [3] - 第三代平台基于英伟达DRIVE AGX Thor构建 采用Blackwell GPU架构与DriveOS操作系统 [3] - 技术合作始于2018年 Wayve每代平台性能提升均受益于英伟达技术支持 [3] 产品规划 - 第三代平台将推动具身人工智能技术边界 实现L3级"脱手驾驶"与L4级"无人驾驶"能力 [3] - 解决方案面向城市道路和高速公路场景 致力于实现安全可规模化量产的自动驾驶技术 [3]
全国首位机器人博士生“学霸01”入学上海戏剧学院
中国新闻网· 2025-09-15 08:08
核心事件 - 全国首位机器人博士生"学霸01"于9月15日正式入学上海戏剧学院2025级博士班 参与开学典礼并展示创校先贤故事[1] - "学霸01"于7月在2025世界人工智能大会上从校党委书记手中接过录取通知书 成功考入舞台美术系数字演艺设计方向博士研究生[2] - 该机器人于9月14日持编号1125513541071录取通知书完成报到手续 获得正式学籍[3] 培养机制 - 上海戏剧学院与上海理工大学联合启动国内首个机器人艺术与科技融合高层次人才培养计划 聚焦"具身人工智能机器人博士"核心课题[1] - 双方依托各自学科优势共同设计机器人博士成长路径与能力图谱 设立多个训练模块[1] - 探索新一代具身智能体在多模态交互 艺术表达 认知成长等方面的实验性培养路径 构建跨学科系统化开放式智能体博士联合培养机制[1] 技术研发 - "学霸01"由博士生导师杨青青教授团队与上海理工大学 上海卓益得机器人有限公司的李清都教授团队共同研发完成[2] - 学习模块涵盖基础训练 艺术表达 系统开发及任务实践等多个挑战性领域[1] - 机器人创意基于杨青青教授对"人工智能美学"的研究与实践成果[1] 学术活动 - 报到当日完成校园多场景交互:在戏曲研究工作室接受副院长语音语态指导 与数媒演播艺术博士新生交流学习 在图书馆获取《王骥德曲律研究》《中国戏剧学史稿》等专业书单 并参与健身房运动[3] - 校方认定此举标志着学校在推动教育教学创新 培养跨学科人才方面迈出坚实步伐[3] 战略意义 - 项目为落实国家推进新文科 新工科建设战略部署 深化"艺术+科技"交叉融合领域协同创新[1] - 旨在为文化事业繁荣发展注入新活力 推动数字演艺设计领域艺术与科技融合[3]
3999让机器人家务全包,抱抱脸联合创始人:开源YYDS
36氪· 2025-09-07 07:21
项目概述 - 开源低成本家用机器人XLeRobot由中国研究员王高天发起 零件成本仅3999元起[1] - 项目开源后增星迅猛 目前累计1.6k标星[2] - 获抱抱脸联合创始人Thomas Wolf公开推荐[3] 产品特性 - 具备多功能家务能力 包括擦桌子 给植物浇水 用逗猫棒陪猫玩[1] - 采用宠物友好设计 安全性高[20] - 基于LeRobot Sim2real技术 仅用4090 GPU进行1小时强化学习训练即可实现功能[16] - 组装时间约4小时 操作难度与乐高相当[11] 成本结构 - 基础版配置(使用笔记本电脑+单目RGB头摄像头)在中国地区成本为¥3999[8] - 双目RGB头摄像头升级需增加¥199[8] - 增加树莓派需追加¥399[8] - RealSense RGBD头摄像头升级需增加¥1499[8] - 核心硬件包含LeKiwi机械手 SO-100/SO-101机械臂 树莓派5 宜家推车 Anker电源站等[8] 零件采购明细 - STS3215舵机(12V)单价¥97 需17个[11] - 宜家RÅSKOG推车单价¥249[11] - Anker SOLIX C300电源站单价$179.99(约¥899)[11] - 4英寸全向轮单价¥135 需3个[11] - 桌夹单价¥9.2 需4个[11] 技术架构 - 训练方法参考LeRobot SO-100/SO-101 Lekiwi Bamb等开源项目[15] - 提供完整操作教程 包括Conda环境创建 相机可视化 手臂控制系统[16][19] - 支持模块化升级 未来迭代将以附加件形式开展[25] 商业化进展 - 计划下周在淘宝京东面向开发者销售组装套件[27] - 网友预估加装"面部"后价值可达6k美元(约4.3万元)[5] 团队背景 - 创始人王高天本科就读中科大物理学院 博士研究方向为机器人操作算法[30] - 曾以第一作者身份与波士顿动力AI研究所合作开发IJRR顶刊发表成果[30] - 团队含4名主要贡献者 分别负责RL仿真 文档搭建 Mujoco仿真等领域[33]
3999让机器人家务全包,抱抱脸联合创始人:开源YYDS!
量子位· 2025-09-07 04:36
产品概述 - 开源机器人项目XLeRobot以3999元人民币起售的低成本DIY套件为特色 具备家务全能功能包括擦桌子、浇植物和陪宠物玩耍 [1][2][4][6][8] - 项目被抱抱脸联合创始人Thomas Wolf公开推荐 在GitHub获得1600星标关注度 [9][30] 成本结构 - 基础版套件在美国/欧盟/中国分别售价约660美元/680欧元/3999人民币 含单目RGB摄像头和笔记本电脑连接方案 [13] - 可选升级组件:双目RGB摄像头增加30美元/30欧元/199人民币 RealSense RGBD摄像头增加220美元/230欧元/1499人民币 树莓派增加79美元/79欧元/399人民币 [13] - 核心硬件包含LeKiwi开源机械手、SO-100/SO-101机械臂、宜家RÅSKOG推车(249人民币)和Anker SOLIX C300电源站(899人民币) [13][16][17] 技术方案 - 采用LeRobot Sim2real训练框架 仅需单块4090 GPU在Maniskill模拟环境中进行1小时强化学习即可部署 [22] - 提供完整教程链:从Conda环境配置到相机可视化 再到机械臂控制系统部署 [22][24] - 使用17个STS3215舵机(单价97人民币)和4英寸全向轮(135人民币)等标准化组件 组装时间约4小时 [16][17] 商业化进展 - 计划下周在淘宝和京东平台面向开发者正式发售组装套件 [35] - 未来升级将采用模块化附加件形式 保持核心架构的扩展性 [33] 团队背景 - 创始人王高天(中国科大物理本科/莱斯大学机器人博士)曾与波士顿动力AI研究所合作开发Caging in Time框架 成果发表于IJRR顶刊 [38][41] - 团队含4名核心成员 分别负责RL仿真部署、文档网站搭建和Mujoco仿真模块 [42][43][44][45]
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 13:41
文章核心观点 - 基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型是机器人操控领域的变革性范式,通过语义理解和推理能力显著提升机器人在非结构化环境中的泛化执行能力 [1][4][5] - 哈尔滨工业大学(深圳)团队首次提出系统性分类法,将VLA模型划分为单体模型(Monolithic Models)和层级模型(Hierarchical Models),以解决架构多样性和研究碎片化问题 [1][6][8] - VLA模型与强化学习、免训练优化、人类视频学习和世界模型等前沿技术结合,未来方向包括记忆机制、4D感知和多智能体协作等 [1][58][91] 背景与演进 - 传统机器人操控方法依赖预定义任务规范,在非结构化环境中泛化能力有限,而VLM通过海量图文预训练跨越视觉与语言的语义鸿沟 [4][9][11] - 现代VLM(如LLaVA1.5、Qwen-VL)采用三组件架构:视觉编码器、投影器和大型语言模型,统一处理多模态任务并支持高级推理能力 [9][10] - VLA模型将机器人动作处理为文本token,与语言输出联合训练,实现语义理解能力飞跃(如RT-2相比RT-1在未见过指令任务上成功率显著提升) [12][13] 单体模型(Monolithic Models) - 单系统架构(如RT系列、OpenVLA)统一处理视觉、语言和动作生成,通过自回归解码生成动作token,参数量达70亿级别 [14][17][18] - 双系统架构(如π0、CogACT)分离快速反应的动作专家与慢速推理的VLM骨干,通过级联或并行方式协作,推理速度提升3倍以上 [15][35][30] - 性能增强方向包括3D/4D感知(如SpatialVLA、TraceVLA)、多模态融合(触觉、音频)和推理优化(动态token剪枝、1-bit量化) [21][23][31] 层级模型(Hierarchical Models) - 规划器+策略架构明确解耦高层规划与底层执行,生成可解释中间输出(如关键点、程序代码),支持长时程任务 [43][44][53] - 仅规划器方法(如Chain-of-Modality)生成可执行程序或文本指令,而规划器+策略模型(如HiRobot)通过扩散策略执行原子命令 [44][49][53] - 基于关键点的方法(如HAMSTER、RoboPoint)预测交互区域或轨迹路点,结合优化器生成动作,在7个泛化轴向上成功率提升20% [45][51][80] 前沿领域结合 - 强化学习通过密集奖励信号(如VLA-RL的RPRM模型)和离线-在线混合训练(如ReWiND)解决长时任务稀疏奖励问题 [59][60][61] - 免训练方法(如FlashVLA、EfficientVLA)通过触发机制和token复用跳过冗余计算,实现最高5倍训练加速 [62][63][64] - 人类视频学习(如UniVLA、LAPA)对齐人类-机器人交互特征,世界模型集成(如WorldVLA)通过预测未来状态优化动作规划 [65][66][68] 模型特性 - 多模态融合通过共享嵌入空间实现视觉、语言和动作的token级对齐,支持深度、触觉等模态扩展(如PointVLA集成点云数据) [69][71][73] - 指令遵循能力支持语义锚定(如ChatVLA-2理解白板数学问题)和思维链推理(如CoT-VLA预测视觉子目标) [74][76][75] - 跨领域泛化能力显著,如DexVLA实现跨机器人形态技能迁移,π0.5在分布外数据上成功率超90% [78][79][80] 数据集与基准 - 真实世界数据集(如OXE)整合22个机器人平台超100万演示,覆盖500多种技能,但长尾分布数据仍不足 [82][83][84] - 仿真基准(如BEHAVIOR、ALFRED)支持多阶段语言指令任务,CALVIN提供无约束指令下的长时程行为学习 [85][86] - 人类行为数据集(如Ego4D、EPIC-Kitchens)提供829小时密集手部追踪视频,支持精细化操作学习 [87][88] 未来方向 - 需开发融合真实世界复杂性和长期任务评估的基准,包含子任务成功率和抗干扰性等指标 [91] - 技术突破重点包括4D感知(整合深度与时间演化)、移动操作(导航与抓取协同)和多智能体协作(共享世界模型) [93][94][96] - 模型效率优化需平衡计算资源与实时需求,通过动态token剪枝和硬件友好量化降低延迟 [98]
上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!
量子位· 2025-08-21 07:15
技术框架与核心创新 - 香港大学和快手可灵研究团队提出全新框架"上下文即记忆"(Context-as-Memory),通过将完整历史上下文帧作为记忆并利用记忆检索机制优化长视频生成的场景一致性 [8][10] - 框架核心思想包括:依赖长期历史记忆保持场景一致性、通过记忆检索模块智能筛选有用历史信息、将筛选后的上下文帧拼接至输入中指导新帧生成 [15][17][19] - 采用基于摄像机轨迹搜索的帧选取方法,通过计算视场重叠度选择高重叠上下文帧,在保证计算效率的同时维持一致性 [20][22] 实验设计与性能表现 - 在相同基础模型和训练配置下,Context-as-Memory方法在PSNR(20.22)、LPIPS(0.3003)、FID(107.18)和FVD(821.37)指标上均优于基线方法,显示其显著优越的记忆能力和生成质量 [25] - 对比方法包括:单帧上下文(PSNR 15.72)、多帧随机上下文(PSNR 17.70)、DFoT(PSNR 17.63)及FramePack(PSNR 17.20) [25][29] - 使用Unreal Engine 5构建包含100个视频、12种场景风格的数据集,每个视频由7601帧组成并附带摄像机位姿标注,简化位姿处理至二维平面移动和旋转 [22][23] 应用案例与泛化能力 - 方法成功应用于《塞尔达传说》绿色田野、《黑神话悟空》废弃寺庙及《原神》云堇角色模型等游戏场景,在镜头晃动时保持场景元素完全稳定 [1][3][5][7] - 在开放域测试中,使用互联网不同风格图像作为首帧并采用"旋转远离再返回"轨迹,验证了方法在开放场景中的强大记忆泛化能力 [26][27] 研究背景与团队构成 - 论文由香港大学、浙江大学和快手可灵团队联合完成,第一作者为香港大学博士生余济闻,师从刘希慧教授并在快手可灵担任研究实习生 [28][32] - 研究是作者在交互式视频生成、世界模型和具身人工智能方向的延续,其前期成果GameFactory曾入选ICCV 2025 Highlight [33]
扩散世界模型LaDi-WM大幅提升机器人操作的成功率和跨场景泛化能力
具身智能之心· 2025-08-18 00:07
核心观点 - 国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based World Models),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态,提升机器人操作性能 [1] - LaDi-WM利用预训练的视觉基础模型构建隐空间表示,包含几何特征和语义特征,具有广泛通用性,有利于机器人操作的策略学习和跨任务泛化 [1] - 团队设计了一种扩散策略,通过整合世界模型生成的预测状态迭代优化输出动作,在LIBERO-LONG数据集上成功率提升27.9% [2] - 该方法在虚拟和真实数据集上均表现出色,在真实场景中将原始模仿学习策略的成功率显著提升20% [26] 技术方法 - 世界模型学习阶段:通过预训练的视觉基础模型提取几何表征(DINOv2)和语义表征(Siglip),并在扩散过程中让二者交互,学习依赖关系 [10] - 策略模型训练与迭代优化:将世界模型的未来预测作为额外输入引导策略学习,基于扩散策略模型架构,迭代优化动作输出 [12] - 框架分为世界模型学习和策略学习两大阶段,通过任务无关的片段学习隐扩散世界模型,再利用未来状态预测优化策略模型 [9] 实验结果 虚拟实验 - 在LIBERO-LONG数据集上,仅用10条轨迹训练,达到68.7%的成功率,显著优于其他方法(DreamerV3 33.5%,ATM 44.0%,Seer 53.6%) [15][16] - 在CALVIN D-D数据集上,平均完成任务数量为3.63,优于Seer(3.60)和ATM(2.98) [17] - 跨场景实验中,在LIBERO-LONG训练的世界模型应用于CALVIN D-D策略学习,性能比CALVIN环境训练的原始策略高0.61 [21] 真机实验 - 在真实场景操作任务(叠碗、开抽屉、关抽屉、抓取物体放入篮子等)中,将原始模仿学习策略的成功率从40.0%提升至60.0% [26] - 提出的策略在不同光照条件和初始位置下表现出鲁棒的泛化性 [25][27] 创新点 - 基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,学习可泛化的动态建模能力 [5] - 基于世界模型预测迭代优化的扩散策略:利用未来预测状态反馈给策略模型,迭代优化动作输出 [6] - 通过交互扩散过程学习几何与语义表征之间的依赖关系,促进准确动态预测 [10]