具身智能之心

搜索文档
全新范式!LLaDA-VLA:首个基于大语言扩散模型的VLA模型
具身智能之心· 2025-09-12 00:05
技术突破 - 首次将掩码扩散模型引入机器人动作生成领域 基于预训练多模态大语言扩散模型微调 支持并行化动作轨迹预测[5] - 提出局部化特殊Token分类技术 将连续动作空间离散化为32个动作Token 仅在动作相关Token集合计算交叉熵损失 非动作Token被屏蔽[8][12] - 开发层级化动作结构解码策略 显式建模动作间与动作内依赖关系 采用先粗后细生成方式提升轨迹连续性[9][13] 性能表现 - 在SimplerEnv环境平均成功率55.5% 超越CogACT模型4.2个百分点[14][21] - 在CALVIN环境平均任务长度4.01 超越OpenVLA模型0.74[14][21] - 真实机械臂WidowX测试平均成功率58% 较π0模型提升23个百分点 较CogACT提升28个百分点[15][21] 模型架构 - 输入为自然语言指令和场景RGB图像 输出多步离散动作序列 每步动作由7个Token表示三维位置变化 三维旋转变化和夹爪状态[7] - 采用SigLIP-2视觉编码器提取特征 基于LLaDA扩散式大语言模型融合多模态信息 通过投影器实现跨模态统一[10] - 通过动作级置信度估计和重采样机制 优先保留高置信度动作 对低置信度动作进行Token级精细重采样[16] 实验验证 - 在SimplerEnv高拟真仿真平台测试精准操作任务 在CALVIN长时序仿真评估多步骤任务 使用ABC-D设置验证泛化能力[17] - 消融实验显示单独使用LSC技术使平均任务长度提升0.79 叠加HAD技术后进一步提升0.58至4.01[18] - 真实机器人测试包含8个操作任务 涵盖域内任务如"将草莓放入碗中"和域外任务如"将立方体放入未知容器"[17]
智源评测:用数据解码机器人足球赛中的具身智能
具身智能之心· 2025-09-12 00:05
文章核心观点 - 北京智源人工智能研究院(BAAI)具身智能团队在2025世界人形机器人运动会(WHRG)上通过具身智能评测平台EmbodiedVerse对足球赛进行系统化数据分析 旨在通过过程性指标评估机器人综合能力 推动具身智能技术发展 [2][3][4] 机器人足球赛作为评估场景 - 机器人足球赛被选为具身智能的"终极考场" 因其高度动态、对抗性和不可预测的环境能全面测试机器人的感知稳定性、决策适应性和多智能体协作能力 [6][7][8] - 该场景要求机器人在短时间内完成多任务操作 包括感知、定位、追球、射门、躲避与协作 对算法提出极高要求 [8] 过程性量化指标设计 - 突破传统结果导向评价 引入射正次数、门球次数、角球次数、射正率及搬离次数/率等过程性指标 这些指标紧贴机器人技术特征且符合足球裁判标准 [9][11][13] - 搬离次数/率是机器人特有指标 衡量对抗环境中的鲁棒性与稳定性 而射正次数/率、门球和角球次数反映群体协作策略及感知、定位、决策等环节的协同性 [13] 数据驱动的技术洞察 - 感知泛化性存在严重不足:机器人多次将场边白色桌子或广告牌误认为球 暴露视觉模型在真实场景中的脆弱性 需通过多样化数据采集、泛化模型架构和对抗性训练提升 [15] - 中外队伍竞技风格迥异:外国队伍场均射正2.47次、门球1.52次 进攻性更强但搬离率达222% 中国队伍场均角球0.54次 边路推进优势明显且队伍间策略趋同(标准差更低) [17][19] - 赛制影响行为特征:3v3比赛因场地小呈现更高进攻效率(射正率65% 场均射正5.38次) 5v5比赛因对抗性强导致搬离次数显著更高(场均23.88次)且定位球更多 [20][22] 当前能力评估与未来方向 - 优势端:机器人已实现感知-决策-运动控制-多机协作-实时通信的端到端闭环 在角色分配、协作与通信方面展现较好泛化性和鲁棒性 [23] - 短板端:环境适应性不足、感知精度有限、复杂对抗下决策不灵活(如"叠罗汉"场景频发) 需从算法、协作机制和硬件层面优化 [24][25] - 未来重点包括对抗性训练、多样化数据扩展、分布式协作机制优化以及硬件抗干扰能力提升 以缩小与人类水平的差距 [25][26]
港大团队首发具身表征新范式,构建任务自适应感知框架
具身智能之心· 2025-09-12 00:05
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本文的共同第一作者为香港大学 InfoBodied AI 实验室的博士生孙力和吴杰枫,合作者为刘瑞哲,陈枫。通讯作者为香港大学数据科学研究院及电机电子工程系助 理教授杨言超。InfoBodied AI 实验室近年来在 CVPR,ICML,Neurips,ICLR 等顶会上有多项代表性成果发表,与国内外知名高校,科研机构广泛开展合作。 出发点与研究背景 在具身智能中,策略学习通常需要依赖场景表征(scene representation)。然而,大多数现有多任务操作方法中的表征提取过程都是任务无关的(task-agnostic): 无论具身智能体要 "关抽屉" 还是 "堆积木",系统提取的特征的方式始终相同(利用同样的神经网络参数)。 想象一下,一个机器人在厨房里,既要能精准抓取易碎的鸡蛋,又要能搬运重型锅具。传统方法让机器人用同一套 "眼光" 观察不同的任务场景,这会使得场景表 征中包含大 ...
机器人走进工厂矿场,外滩这场机器人职业技能赛有意义!
具身智能之心· 2025-09-12 00:05
机器人职业技能表演赛概况 - 蚂蚁数科承办的外滩大会AI科创赛"机器人职业技能表演赛"于9月10日举行 4家具身智能厂商的机器人参与高难度工业与救援场景任务 [2] - 赛事吸引全球近20个国家和地区 8000多支战队 近2万名科技爱好者与AI创业者参与 [9] 参赛公司及表现 - 七腾机器人完成"危境穿越"任务 在模拟崎岖沙地行走 上坡与下台阶时快速调整恢复 体现良好算法基础 [3] - 双瀛航空&求之科技联合研发机器狗完成工业巡检六大动作 包括开关门 识别按钮 拉闸报警 并在救援场景中通过多模态传感器救出仿真婴儿 [5] - 中科慧灵机器人完成模拟矿洞爆破任务 实现毫米级精准插入火药雷管 展现实时纠偏与机械臂协同能力 [7] 技术突破与行业应用 - 机器狗移动能力已较成熟 但精细操作仍是行业痛点 双瀛航空&求之科技通过机械臂加持在力控与视觉融合表现突出 [5][6] - 工业巡检和应急救援被认定为机器人落地最具价值的两大场景 能突破人体极限进入高温 有毒环境执行危险任务 [5][6] - 具身智能在工业场景发展潜力巨大 涵盖制造 质检 产线巡检 物流等重要环节 [9] 赛事成果与行业影响 - 双瀛航空&求之科技队荣获第一 七腾机器人与中科慧灵并列第二名 [9] - 赛事推动行业聚焦真问题 真场景 蚂蚁数科将持续开放高质量训练数据与研发平台 [9] - 技术展示体现从"技术演示"向"产业应用"的推进 强调AI发展应服务于人类保护需求 [9]
当我们再说具身大小脑的时候究竟在说什么?
具身智能之心· 2025-09-11 05:53
具身智能行业概述 - 具身智能成为通用人工智能(AGI)探索的关键方向 强调智能体与物理环境的交互与适应 聚焦感知环境、理解任务、执行动作和反馈学习的能力 [1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知和语义理解 小脑负责高精度运动执行 [1] 国内外产业布局 - 近2年具身明星团队创业活跃 星海图、银河通用、逐际动力等从实验室走向商业和工业界 [3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人合作建设大脑和小脑关键技术 [5] - 京东自2025年5月连续投资智元机器人、千寻智能、逐际动力 强化物流科技与家庭服务场景能力 [5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作布局 加快构建产业生态 [5] - 国外Tesla/Figure AI推进工业与物流机器人应用 Wayve和Apptronik获投资机构支持落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题 [6] - 第三阶段兴起Diffusion Policy方法 通过扩散模型生成动作轨迹提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化 [7] - VLA模型实现从"感知+控制"向"感知+推理+行动"的范式跃迁 代表工作包括OpenVLA、RT-2、PI0等 [7] - 2025年探索VLA与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限 [9] 技术融合方向 - VLA+强化学习提升长时任务试错能力与自我改进能力 [11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 [11] - VLA+触觉信息拓展多模态融合感知边界 实现更精细安全的操作 [12] - 技术演进从低层感知向高层理解发展 逐步迈向通用任务和开放环境智能体时代 [14] 应用与人才需求 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 [14] - 应用覆盖工业、家居、餐饮、医疗康复等领域 相关产品和融资活跃 [14] - 岗位呈现爆发式增长 大量人员转入具身智能领域研究 [14] - 工程与系统能力需求激增 需掌握Mujoco/IsaacGym/Pybullet等平台策略训练与仿真测试 [17] - 需具备训练部署Diffusion Policy/VLA/力触融合模型的能力 [17] - 需实现强化学习在VLA后训练的应用 支持机器人反馈微调 [17] - 需掌握从世界建模预测到策略学习再到物理执行的一体化架构 [17]
库克挤爆牙膏!5999元iPhone17上高刷,新款耳机能测心率+同传
具身智能之心· 2025-09-11 02:07
按库克的说法,这波新品一切都以设计为核心。 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 标准版iPhone终于也用上高刷了! 刚刚结束的苹果春晚上,iPhone、AirPods Pro和Apple Watch相继登台亮相。 还有Apple Watch也支持了5G通信,还新增了重磅健康功能。 效果上看,iPhone系列的镜头模组也确实基本告别了过去的"浴霸"模式。 不得不说这一波库克的刀法是真的变温柔了 (希望英伟达的老黄也能学习一下) 。 那么,这场"苹果春晚"都讲了啥,准备好小板凳,一起来看~ 当然最令果粉激动的,还是这次iPhone全系都安排了高刷。 确实,型号基础,刷新率就不基础。 除了iPhone,耳机和手表也迎来重要升级,牙膏直接挤爆。 比如AirPods Pro也变身智能穿戴,不仅能够进行同声传译,还支持心率检测。 iPhone 17系列来了 正如此前所爆料的,iPhone 17系列共有4款机型,价格从5999元到9999元起。 iPh ...
西湖大学最新!ARFM:结合VLA模仿学习与强化学习的优势
具身智能之心· 2025-09-11 02:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Hongyin Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 如今,基于流匹配的视觉-语言-动作(VLA)模型已经能帮机器人完成不少操控任务了,像 这类模型,凭借轨迹级建模能力在常规场景里表现还不错,就连 RT-1、PaLM-E 这些大规模预训练模型,也证明了从多模态数据里学通用策略是可行的。 可一碰到复杂的下游任务,比如要在动态干扰下精准抓东西,这些模型就有点 "力不从心" 了——动作精度掉得厉害。说到底,问题出在它们 "学东西的方式" 上:现在的 VLA 流模型全靠模仿学习做后训练,就像只会照搬别人动作,没法分清哪些训练数据质量更好、哪些策略更适合当前任务。而强化学习(RL)本来 就擅长挖掘这些数据质量特性,可之前的离线 RL 方法,比如 ReinboT,在 VLA 流模型上效果并不好,因为这类模型是靠向量场建模整个动作轨迹的,ReinboT 只能间接指导动作生成,效 ...
上交发布U-Arm:突破成本壁垒,实现超低成本通用机械臂遥操作
具身智能之心· 2025-09-11 02:07
本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yanwen Zou等 编辑丨具身智能之心 研究背景与核心需求 在双机械臂策略学习中,大规模高质量的真实世界操作数据一直是瓶颈——相比仿真或纯人类数据,真实 机械臂数据对训练鲁棒政策的直接适用性最强。而当前获取这类数据的主要方式仍是 人类演示 ,这就需要 可靠的遥操作接口支撑。 现有演示接口主要分两类: 正是为解决"高兼容性"与"低成本"的矛盾,U-ARM应运而生:目标是打造一款开源、超低成本、易适配的 主从遥操作系统,让研究者能快速为各类商用机械臂搭建数据收集 pipeline。 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 现有方案的痛点与U-ARM的定位 为更清晰体现U-ARM的价值,可先对比现有主流遥操作设备的核心特性(如Table 1所示): | Device | Price (USD) | Motion Sickness Free | Easy Bimanual Operation | Lo ...
π0.5开源前,国内也开源了一个强大的端到端统一基础模型!具备强泛化和长程操作
具身智能之心· 2025-09-11 02:07
开源模型技术突破 - Physical Intelligence开源π0.5模型 通过知识隔离训练实现更强的开放世界泛化能力[1] - 自变量机器人开源端到端具身智能基础模型WALL-OSS 包含完整预训练模型权重、训练代码和部署文档[3] - WALL-OSS采用紧耦合架构与多策略训练 在单一框架内整合指令推理、子目标分解与细粒度动作合成[8] 技术架构创新 - 采用QwenVL2.5-3B作为主干网络 接收视觉与文本输入并生成多模态输出[12] - 训练采用"先离散、后连续、再联合"三阶段pipeline 仅需RTX 4090级别算力即可完成全流程[14] - 通过流匹配方法实现离散到连续动作预测的转换 采用共享注意力+专家分流架构[16] - 实现统一跨层级思维链 覆盖从语义到感觉运动的完整推理链条[18] 性能表现优势 - 在具身视觉问答基准测试中 WALL-OSS在物体定位任务达到91.6%准确率 较基础模型46.1%提升显著[27][28] - 场景描述任务准确率87.6% 较基础模型57.7%提升近30个百分点[27][28] - 在抓取放置任务中 对已知物体指令达到85%平均任务进度 对新物体指令保持61%性能[29] - 在数据稀缺任务中(500条演示) 预训练模型保持90%以上成功率 未预训练模型降至20%以下[31] - 在积木拼写任务中 字母识别准确率达87% 数字识别达95% 显著高于动作专用模型的26%和80%[34] 数据集与训练 - 构建数万小时具身中心多源数据集 包含自收集机器人数据、开源动作数据和多模态视觉问答数据[20] - 数据集涵盖短程操作任务和长程推理任务 需任务分解、进度跟踪和实时决策能力[22] - 采用多模型pipeline进行细粒度步骤标注 辅以人工抽查和质量控制[23] - 按场景/物体/任务/形态分层抽样 对长程任务和稀缺技能采用温度控制重采样策略[24] 行业影响与公司发展 - 端到端系统被业内公认为最终形态 国内外具身团队都在深入研究突破[3] - 自变量机器人成立于2023年12月 聚焦自研通用具身智能大模型[39] - 公司已完成近10亿元A+轮融资 资金将投入全自研通用具身智能基础模型的持续训练[39] - 行业形成本体和大脑两条创业路线 硬件看宇树 大脑看自变量[39]
当老师给我指了VLA作为研究方向后......
具身智能之心· 2025-09-10 11:00
VLA科研背景与介绍 VLA,Vision-Language-Action模型,是具身智能领域的新范式,从给定的语言指令和视觉信号,直接生成出机 器人可执行的动作。这种范式打破了以往只能在单个任务上训练大的局限性,提供了机器人模型往更加通用,场 景更加泛化的方向发展。VLA模型在学术界和工业界的重要性主要体现在其将视觉信息、语言指令和行动决策 有效整合,显著提升了机器人对复杂环境的理解和适应能力。 VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境,广 泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发展,如 pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。其适应性体现在能 够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用 价值,成为智能机器人领域的关键驱动力。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团 队从实验室走向商业化,华为、京东、腾讯等科技巨头也积 ...