具身智能之心
搜索文档
ICRA 2026 | 首个真实世界场景的具身学习挑战赛!最高7万美金奖励
具身智能之心· 2025-12-01 03:12
赛事概况 - IEEE机器人与自动化顶会ICRA 2026官方赛事REAL-I首届具身智能挑战赛正式发布 [1] - 赛事由IEEE ICRA背书,乐聚机器人、北京通研院联合全球顶尖高校举办 [1] - 旨在推动具身智能与数据驱动机器人操作的前沿研究 [1][5] 赛事核心特点 - 赛事以真实工业任务为核心,挑战动态抓取、双臂协调等核心技术难点 [1] - 采用「仿真赛→真机赛」双阶段赛制,推动算法在现实挑战中持续进化 [1][15] - 最终模型将在乐聚智能的KUAVO-4 Pro全尺寸人形机器人上进行评估 [10][26] 赛事任务设置 - 任务一:快递包裹称重,包括拾取包裹、称重、检索和最终精准放置 [16][17] - 任务二:零件分拣,从传送带上拾取零件并放入正确的料箱中 [19] - 任务三:全周期托盘运输,移动到目标区域、拾取目标托盘、移动到正确区域并成功放置托盘 [21] 赛事资源与支持 - 提供工业级数据集,包含30,000+多模态轨迹,100小时数据,具备多模态特性 [11] - 提供全栈工具链,包括数据转换脚本、基线实现和综合文档 [13] - 获奖者有望瓜分9万美元奖池,冠军可获得价值7万美元的KUAVO-4Pro全尺寸人形机器人 [1][30] 赛事日程与学术价值 - 赛事日程从2026年1月1日持续至6月1日,最终阶段在ICRA 2026现场举行 [24][27] - 基于赛事平台和数据集发表的论文(前十名)每篇可获得500美元奖励 [32] - 参与者可借助赛事数据与真机验证成果,发表高价值论文 [1]
第一个吃螃蟹的人!上交成立全球首个具身智能专业
具身智能之心· 2025-11-30 07:06
上海交通大学具身智能本科专业设立 - 上海交通大学正式拟增设具身智能本科专业,这是国内高校首个此类专业 [1] - 该专业将隶属于人工智能学院计算机类,授予工学学位,修读年限为四年 [3] - 专业预计年度招生人数为30人,其中计划升学人数25人,升学占比约83% [3] - 专业带头人由上海交通大学人工智能学院副院长卢策吾担任 [3] 具身智能行业与社区发展 - 具身智能是一个交叉学科,其专业设立反映了相关产业高速发展和人才供不应求的现状 [1] - 具身智能之心知识星球是国内首个具身智能开发者社区,汇总了超过30个学习路线、40个开源项目及近60个相关数据集 [5] - 该社区已汇聚近200家公司和机构进行学术与产业交流 [6] - 具身智能之心社群拥有近60个技术交流群,覆盖大模型、机器人仿真、规划控制等多个方向 [9]
华尔街尬捧TPU学术界懵了:何恺明5年前就是TPU编程高手,多新鲜~
具身智能之心· 2025-11-30 03:03
市场对谷歌TPU订单的过度反应 - Meta与谷歌签订数十亿美元TPU订单的消息导致英伟达盘中最大跌幅达7% 市值蒸发超3000亿美元 [1] - 谷歌盘中情绪最热烈时涨幅一度达4% 市值增加约1500亿美元 合人民币超1万亿 [2] - 《华尔街日报》将此视为谷歌向英伟达市场主导地位发起冲击的信号 但从业人士认为华尔街看法外行 [3] TPU在行业内的实际应用历史 - OpenAI技术人员Clive Chan指出谷歌Gemini、Claude、MidJourney、Ilya的SSI等模型均使用过TPU进行训练 [4] - Meta使用TPU并非新鲜事 谢赛宁证实Meta早在2020年已开始使用TPU [6] - 何恺明领导的TF和JAX代码库初步开发及MAE、MoCo v3、ConvNeXt v2和DiT等研究项目完全在TPU上开发 [6] 英伟达与谷歌的技术护城河分析 - 英伟达宣称自家产品是唯一能运行所有AI模型并应用于所有计算场景的平台 [8] - 但OpenAI开发了Triton可绕过CUDA 仅需25行Python代码即能达到cuBLAS性能 [12] - 从技术角度看 谷歌、Meta、OpenAI等巨头自身绕开英伟达并非难事 [13] TPU与英伟达芯片的成本效益比较 - Artificial Analysis用Llama 3.3测试显示从H100到B200 每1美元带来的Token收益是TPU v6e的5倍 [14] - 以30Tokens/秒速度跑Llama 3.3 输入输出各100万Tokens H100成本1.06美元 TPU v6e成本5.13美元 [15] - TPU v7与B200成本相近 TPUv7 FP8运算速度4.6PFLOP/s功耗约1000瓦 GB200 FP8运算速度5PFLOP/s功耗约1200瓦 [18][19] 谷歌出售TPU的战略意图 - 谷歌出售TPU主要目的并非赚钱 而是通过出货量换取排产和价格优惠 对冲芯片代工厂风险 [21][23] - 谷歌利用与Meta、苹果的长期云服务合同作为抵押 预购代工厂尖端芯片产能 可能锁定N2容量25%按成本价供应 [25] - 此策略导致小型芯片公司如Groq、Cerebras、Tenstorrent难以获得先进晶圆产能 形成类似苹果垄断显示屏供应链的效果 [26][27]
北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%
具身智能之心· 2025-11-30 03:03
文章核心观点 - 具身智能领域在长序列操作任务中面临视觉语言动作模型产生“阶段性幻觉”的关键挑战,即机器人未完成步骤却误判为已完成[2][3][4] - 北京大学团队提出的自进化VLA框架EvoVLA通过三大创新模块有效解决了该问题,在复杂任务基准上实现显著性能提升[5][7][40] - EvoVLA框架的核心创新在于利用大语言模型生成“硬负样本”进行对比学习,结合几何探索与长程记忆机制,推动模型自我进化[9][10][41][42] 技术问题分析 - 现有通才机器人策略在简单任务上展现零样本泛化能力,但在长程操作任务中暴露出“阶段性幻觉”致命弱点[2] - 视觉语言模型评估系统因视觉相似性给出高预测分数,导致机器人“高分低能”,自信跳过未完成步骤[4] - 这种现象在需要几十步操作的长序列任务中尤为突出,最终导致整个任务崩溃[4] EvoVLA解决方案 - 框架基于OpenVLA-OFT架构,引入三个协同工作的核心模块实现自监督强化学习闭环[10] - 阶段对齐奖励模块利用Gemini 2.5 Pro生成包含70+阶段的详细描述,构建正样本、负样本和关键性的“硬负样本”[13][14] - 基于姿态的物体探索模块训练轻量级世界模型预测相对几何姿态,避免像素干扰,专注操作任务几何结构[19][20][21] - 长程记忆机制采用基于注意力的上下文选择,从历史库检索Top-K最相关Token融合到当前状态[23][24][25] 性能验证结果 - 在Discoverse-L新基准测试中,EvoVLA平均成功率达到69.2%,相比最强基准OpenVLA-OFT的59.0%提升10.2个百分点[34] - 样本效率显著提升,达到50%成功率所需训练步数减少1.5倍[35] - 幻觉率从38.5%大幅降低至14.8%,降幅达23.7个百分点[1] - 在真实机器人部署中,EvoVLA平均成功率达到54.6%,超越OpenVLA-OFT 11.0个百分点[7] - 在未见过的“堆叠+插入”任务中,通过少量真机微调达到55.2%成功率,比OpenVLA-OFT高出13.4%[37] 行业意义 - EvoVLA为解决VLA模型在长程任务中的可靠性问题提供了优雅解法[40] - 证明更好的奖励设计、更本质的探索机制和更聪明的记忆可以让大模型在具身智能领域走得更远[41] - 利用大语言模型生成“错题集”反哺策略学习的“自我进化”范式,可能是通往通用机器人自主学习的关键一步[42]
北京大学最新!MobileVLA-R1:机械臂之外,移动机器人的VLA能力怎么样了?
具身智能之心· 2025-11-30 03:03
文章核心观点 - 北京大学等团队推出的MobileVLA-R1模型,通过“结构化思维链推理+两阶段训练范式”,首次在四足机器人上实现了自然语言指令下的显式推理与连续控制,有效弥合了高层语义推理与底层动作控制之间的鸿沟,在导航和操作任务中性能领先[1] 当前行业痛点与解决方案 - 当前四足机器人视觉-语言-动作系统面临“推理-控制脱节”困境,具体表现为直接从语言映射到动作导致稳定性差、泛化能力弱,以及依赖隐式嵌入导致推理不可追溯、难以进行错误排查[2] - MobileVLA-R1的核心突破在于将“思维链推理”与“连续动作执行”解耦,通过结构化数据监督和强化学习,让机器人先推理再执行,兼顾可解释性与控制稳健性[2] 核心技术架构与数据集 - 模型核心设计基于“结构化CoT数据集 + 两阶段训练 + 多模态感知融合”三大模块[4] - 构建了首个面向四足机器人的大规模结构化思维链数据集MobileVLA-CoT,包含18K条episode级样本、78K条步骤级样本和38K条导航专用样本,覆盖导航与操作全场景[4] - 数据集基于R2R、RxR导航数据集和262K规模的QUARD四足机器人数据集,通过大模型生成并经过规则过滤与人工校验[4][5] - 采用分层VLA架构,包含“感知-推理-执行”三级,实现从多模态输入到连续控制的端到端映射[6] - 采用两阶段训练范式:先在MobileVLA-CoT数据集上进行监督微调,建立基础映射;再采用Group Relative Policy Optimization进行强化学习优化,设计了三重奖励函数[8] - 多模态感知前端融合RGB图像、深度图和点云数据,使用DepthAnything V2和Point Transformer v3编码器精准捕捉3D空间信息[8] - 推理模块基于LLaMA3-8B语言模型生成结构化输出,动作解码器将其转化为四足机器人的连续控制指令[8] 模型性能表现 - 在导航任务基准测试中,在R2R-CE和RxR-CE数据集上的成功率分别达到68.3%和71.5%,较现有方法平均提升5%,导航误差低至4.05,轨迹效率达65.2%[10] - 在四足控制任务中,在QUARD数据集的6项运动与操作任务中平均成功率达73%,硬难度任务成功率达44%,显著超越QUART、MoRE等基线模型[12][13] - 在Unitree Go2四足机器人上的真实世界测试显示,在复杂指令下的成功率高达86%-91%,导航误差低于1.23,能稳定完成多步连贯任务[16][18] - 消融实验证明,同时启用运动、动作、格式三重奖励函数时性能最优,移除任一奖励会导致成功率下降3%-10%[17] - 多模态感知消融实验表明,新增深度和点云编码器后,导航成功率提升5.8%[19][20] 技术意义与未来方向 - 该研究首次将思维链推理与强化学习融入四足机器人的VLA框架,打破了“要么可解释、要么稳执行”的行业困境[21] - 结构化CoT推理是弥合语义-控制鸿沟的关键,显式推理过程提升了指令落地的稳定性和决策可解释性[23] - 两阶段训练范式兼顾了“冷启动效率”与“优化上限”,实现协同效应[23] - 多模态融合提升了机器人在复杂空间中的泛化能力[23] - 未来方向包括扩展动作空间以支持更精细操作、通过模型蒸馏与量化降低8B参数主干的推理延迟以适应实时交互,以及探索自监督学习以减少对标注数据的依赖[23]
快3000人了,这个具身社区有点干货~
具身智能之心· 2025-11-30 03:03
文章核心观点 文章旨在推广一个名为“具身智能之心”的付费知识星球社区,该社区定位为国内首个具身智能全栈技术交流平台,通过整合行业资源、技术路线、学术内容与产业信息,为从业者、学生及研究人员提供一站式学习、交流与求职服务,以加速其在具身智能领域的发展 [1][9][17] 行业资源与公司梳理 - 社区汇总了行业内在从事具身大脑和本体研发的公司,以及活跃的具身智能实验室,供成员判断行业发展和升学参考 [1] - 社区内部汇总了涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向的国内外各类具身相关机器人公司 [23] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [31] - 社区与近200家具身公司与机构建立了联系,成员可与行业大佬交流工作与求职问题 [17][85] 科研与开发本体推荐 - 推荐了几款适合科研的机器人本体产品,包括SO-100系列、openarm系列、XLerobot系列等 [2] - SO-100系列及其升级版本能够运行一些VA和VLA算法,实现常见功能 [2] - Openarm是一款双臂任务框架,已有几家公司开始生产相关本体,缺乏移动能力,但能满足叠衣服、pick and place等任务,其VR版本在数据采集上体验更佳 [4] - XLerobot具备一定的移动能力,适合入门科研和个人开发,可适配移动操作任务 [6] - 其他如方舟无限、星海图、宇树等开发平台成本较高,需要一定资金投入 [8] 技术路线与算法研究 - 社区收拢了广泛的技术研究方向,包括VLA(视觉-语言-动作)模型的训练、无需训练方式、与强化学习(RL)和世界模型的结合、轻量化及部署;VLN(视觉语言导航);运动控制(强化学习、MPC、WBC);仿真(通用、真实);触觉感知等多个方向 [9] - 部署层面,目前大多集中在云端推理,边缘侧基于索尔的VLA模型方案已逐渐落地,小鹏等公司基于自研芯片已完成VLM/VLA的部署,但100T以下算力平台的部署方案较少 [9] - 社区整理了全面的技术学习路线,包括但不限于:具身智能感知、交互、强化学习全栈、VLN、VA/VLA、多模态大模型理解与生成、Diffusion Policy、多传感器融合、机械臂抓取与策略学习、双足/四足机器人、大模型部署、触觉感知、导航、sim2real、世界模型等近20个具体路线 [18][43][44][46][48][50][52][54][56][58][60][62][64][66][68][71][73][75] 社区内容与知识库 - 社区提供持续的直播分享,涵盖从本体、数据到算法的圆桌论坛,探讨行业现状与待解决问题 [11] - 直播主题目录广泛,包括数据采集、灵巧手、VLA/VLN模型、多传感器融合、分层感知操作、机器人操作系统、协同感知、机器人模型、Sim2Real、具身世界模型、触觉感知、大模型规划推理与加速、模型微调等十五个大类下的数十个细分话题 [12] - 社区汇总了丰富的知识资源,包括:近40+开源项目、近60+具身智能相关数据集、行业主流仿真平台 [18][33][39][41] - 社区汇总了国内外具身智能知名高校实验室,供成员读研、申博、博后参考 [20] - 社区汇总了大模型、人形机器人等行业相关研报,帮助了解行业发展与工业落地情况 [25][26] - 社区汇总了机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍,供基础学习 [28][29] - 社区汇总了国内外知名ToF厂家、相关产品与技术资料 [35] - 社区汇总了数据采集相关的遥操作、动作捕捉、AR等方案,以及多个领域的开源数据集 [37][39] 社区功能与成员福利 - 社区实现了产业、学术、求职、问答交流的闭环,拥有技术路线分享、直播、问答、求职、赛事等多个板块 [9] - 社区与多家具身公司建立岗位内推机制,可帮助成员将简历第一时间送达心仪公司 [17] - 社区邀请了数十位活跃在一线产业界和学术界的具身领域嘉宾,可为成员答疑解惑 [17] - 社区成员可以自由提问,无论是工作选择还是研究方向选择,都能得到解答,例如有研一学生咨询研究方向选择并获得详细指导 [77] - 社区致力于为行业培养人才,提供展示机会,目前已有近3000名成员 [9][17][85] - 加入社区的福利包括:第一时间掌握学术与工业进展、与行业大佬交流、优良学习环境、结识同行、专属学习视频、工作岗位推荐、行业机会挖掘与投资项目对接等 [21]
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度
具身智能之心· 2025-11-29 02:07
文章核心观点 - 提出一种名为E0的新型视觉-语言-动作模型,通过创新的“连续化离散扩散”范式,旨在解决现有VLA模型在泛化能力、细粒度动作控制和建模范式兼容性方面的关键瓶颈 [1][3] - 该模型在三大基准测试和真实世界实验中均达到最先进的性能水平,平均超过基线10.7% [21] 出发点与背景 - 机器人在开放环境中的操作需要具备复杂视觉场景感知、自然语言指令理解和精准可靠的动作生成三大核心能力 [1] - 现有VLA模型作为统一框架,仍面临泛化能力不足、动作控制粗糙和建模范式矛盾等关键瓶颈 [1][3] E0核心创新点 - 针对泛化能力不足问题,难以适配多样的任务指令、环境配置和相机视角 [3] - 针对动作控制粗糙问题,生成的动作不够精细,在插装、抓取特定图案物体等细粒度操作中易失败 [3] - 针对建模范式矛盾,离散建模受限于动作词汇量,连续扩散建模与预训练backbone的符号结构语义错位 [3][4] 技术框架介绍 - 架构以PaliGemma开源VLM为backbone,新增3亿参数的动作专家网络 [6] - 核心逻辑是将连续动作离散化后,通过扩散模型实现迭代优化,同时保留与预训练视觉语言模型的兼容性 [6] - 动作表示采用分位数离散化策略,过滤异常值以保证机器人推理稳定性 [8] 性能表现 - 在LIBERO基准测试中平均成功率达到96%,超过基线模型 [21] - 在ManiSkill基准测试中平均成功率为55.2%,显著优于π₀、RDT等基线模型 [24] - 在真实世界实验中,基于Franka Research 3机械臂,在8类任务中平均成功率为45.6%,高于π₀(43.1%)和π₀ FAST(10.0%) [28] 技术优势 - 连续化离散扩散范式将动作生成建模为对量化动作token的迭代去噪,避免分布失配问题 [11] - 支持任意数量的离散分箱(最高可达2048及以上),突破自回归模型256分箱的限制,提升动作分辨率 [11] - 球面视角扰动增强通过模拟相机在观测球面上的运动生成扭曲图像,提升模型对相机视角变化的鲁棒性 [11] 局限与未来方向 - 特定任务语义对齐不足,在VLABench的Select Painting任务中表现较弱 [35] - 复杂协调任务存在瓶颈,双臂协同、长时程时序依赖任务性能不及单臂任务 [35] - 机械交互建模不足,对需要精细力矩控制的任务存在操作精度短板 [35]
RoboTidy即将开源:让机器人在家庭场景“游刃有余”
具身智能之心· 2025-11-29 02:07
文章核心观点 - 香港大学与原力无限等联合团队发布了业内首个基于3D Gaussian Splatting技术的家庭整理基准RoboTidy,该基准构建了500个照片级逼真的交互式3D环境并提供了超过8000条专家演示轨迹,其核心突破在于通过高保真仿真环境显著提升了真实机器人长序列任务的成功率,将真实机器人的任务成功率提升了近30% [4][17] - 研究标志着具身智能研究范式的转变,重点从算法能力转向环境真实性,并通过学术界与产业界的深度协同(“研-产”闭环)来加速通用人形机器人的产业化落地 [5][24] 技术突破:3D Gaussian Splatting的应用 - 传统仿真器(如Habitat, AI2-THOR)基于3D网格建模,虽速度快但画质失真,导致训练出的机器人在真实复杂环境中“水土不服” [7] - RoboTidy引入3D Gaussian Splatting技术,能以超过100 FPS的渲染速度重建照片级真实场景,克服了NeRF计算成本高和Mesh几何生硬的问题 [8][9] - 团队通过手持设备扫描500个真实家庭场景(卧室、客厅、餐厅等),并利用3DGS管道将其“克隆”进仿真器,使机器人能感知真实的光照变化、材质质感(如地毯绒毛、不锈钢反光) [11][12] 数据集与算法框架 - RoboTidy提供了500个高多样性家庭布局场景资产和8000多条专家示范轨迹,这些轨迹不仅记录坐标移动,更包含了人类整理房间的隐性逻辑(如语义理解和常识推理) [15] - 基于此数据集,团队提出了分层控制框架,包含“语义规划器”和“底层策略”,使机器人能像人类一样执行“识别物体-规划归属地-执行整理”的长序列规划任务 [14][15] 仿真到现实的工程化验证 - 原力无限团队重点攻克了Sim-to-Real Gap(虚实迁移鸿沟),通过高保真环境预训练结合自研控制算法,在真实机器人测试中显著提升了对未见物体和复杂背景的鲁棒性 [17] - 实验结果显示,RoboTidy模型在真实环境中的任务成功率相比传统方法提升29.4%,证明高质量仿真数据可直接转化为真实世界的生产力 [17][18] 行业标准化与开源贡献 - RoboTidy建立了统一的标准化评测系统和Leaderboard,解决了以往家庭整理任务缺乏可比性基准的问题(如各实验室测试场景不同导致成功率无法横向对比) [20] - 通过开源这套基准(包括统一API接口和多维度Metric),为全球开发者提供了更真实、严苛、标准的研发起跑线,推动家庭服务机器人技术进化 [20][22][27]
VLA+RL方案:具身的“关键突破”,如何更好地部署落地?
具身智能之心· 2025-11-29 02:07
直播活动概览 - 活动主题为VLA与RL的真机部署及如何更好落地 [5] - 直播时间定于12月6日19:30 [16] - 活动形式为线上直播 [5] 分享嘉宾阵容 - 隋伟担任地瓜机器人算法副总裁 [9] - 张强为北京人形机器人首席研究员及学术委员会主任 [11] - 汪天才担任原力灵机合伙人 [11] - 于超为清华大学博士并将加入清华深研院任助理教授 [13] - 主持人包括Gloria(具身智能之心联创)和刘斯坦(知乎大V、深度流光CTO) [15] 核心讨论议题 - VLA的架构和模型现存痛点分析 [8] - 提升机器人全身运动控制方案的进化空间探讨 [8] - VLA+RL上真机的实践方法、硬件选型及轻量化解决方案 [8] 过往活动与深度内容 - 具身智能之心已举办多场高质量圆桌讨论涉及本体、数据、仿真等方向 [3] - 知识星球提供完整版深度内容涵盖技术细节、QA及未公开彩蛋 [19] - 深度解析主题包括灵巧手设计、Agent技术、Spec-VLA推理加速框架及跨实体世界模型等 [19]
首个面向求职+工业级的VLA实战教程!真机+各类VLA算法部署+量化+世界模型
具身智能之心· 2025-11-29 02:07
文章核心观点 - 视觉语言动作模型领域技术迭代迅速但实践门槛高,初学者在数据采集、模型训练与部署等环节面临显著挑战[1][6] - 行业强调真机数据的重要性,仿真与互联网数据在泛化性能上存在不足[2] - 为解决学习痛点,业内推出结合硬件与软件的全栈VLA实战课程,旨在通过真机实验提升学员的工程实践能力[14][16][19] VLA技术发展现状 - 近2年来VLA算法快速迭代,从ACT到OpenVLA,再到π0、π0.5、π0.6系列,模型性能持续提升[4] - 基于强化学习的优化方案显著改善了VLA模型的操作流畅度[4] - 开源技术框架如LeRobot降低了入门门槛,开源硬件本体如SO-100机械臂、openarm双臂、XLeRobot移动操作平台支持多样化研究需求[4] VLA落地实践的关键模块 - 数据采集主要依赖模仿学习与强化学习,模仿学习通过遥操作、VR、全身动捕捉方式实现,机械臂领域侧重前两种[7][8] - 模型训练需借助Mujoco、Isaac Gym等仿真框架进行调试,sim2real技术在真机数据不足时尤为重要[10] - 模型部署面临参数量大的挑战,即使2B规模也对边缘芯片构成压力,需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量[12] VLA实战课程内容 - 课程涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、主流模型部署、VLA+世界模型、真机实验及产业讲解等全栈内容[16] - 学员将获得SO-100机械臂硬件套装,课程设计面向求职者、进阶学习者、高校学生及跨行业转型人员[22][27] - 课程要求学员具备Python和PyTorch基础,推荐使用3060及以上显卡进行推理,2张以上3090ti显卡进行训练[27] - 完成课程后学员可掌握真机调试与数据采集、VLA算法部署、模型量化等技能,达到1-2年算法工程师经验水平[30]