具身智能之心
搜索文档
VLA+RL方向的同学可以看过来了~
具身智能之心· 2025-11-21 00:04
招聘背景 - 公司收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入的内容讲解 [1] - 公司向全平台粉丝招募该方向的课程和项目辅导老师 旨在共同输出高质量内容 [1] 职位要求 - 应聘者需专注于视觉语言动作与强化学习的研究方向 [2] - 学术界应聘者需为博士及以上学历 拥有相关方向的顶级会议成果 [2] - 工业界应聘者需具备实战经验和真机调试经验 [2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区 聚集了大量视觉语言动作与强化学习方向的学习者 [3] - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] 联系方式 - 详细内容可通过添加指定微信账号进行咨询 [5]
南洋理工大学提出NORA-1.5:一种基于世界模型与动作奖励的VLA模型
具身智能之心· 2025-11-21 00:04
文章核心观点 - 南洋理工大学等研究单位提出的NORA-1.5模型通过集成流匹配动作专家与奖励驱动的直接偏好优化后训练 解决了现有视觉-语言-动作模型在泛化性和可靠性方面的不足 [1][3] - 该模型在仿真与真实机器人场景中均实现了当前最优性能 持续超越现有SOTA模型 [1][3] 核心定位与解决的关键问题 - 聚焦视觉-语言-动作模型在跨载体部署和真实环境中可靠性与泛化性不足的痛点 [3] - 核心方案是在预训练NORA backbone基础上 新增流匹配动作专家 并搭配双组件奖励模型与DPO后训练 [3] - 核心成果体现在SimplerEnv LIBERO模拟基准和Galaxea A1真实机器人上的卓越表现 [3] 架构设计与技术方案 - 采用独立动作专家直接回归长度为的动作序列 输入为视觉-语言编码键值对 损失函数为流匹配损失 [5] - 动作专家与VLA backbone协同优化 专家利用VLA的场景与指令表征 VLA通过专家反馈优化轨迹规划连贯性 [5] - 基于Qwen-2.5-VL-3B视觉语言模型 经Open X-Embodiment数据集模仿学习预训练 采用FAST+动作分词器高效离散化多类型动作序列 [8] 奖励机制设计 - 采用双组件奖励模型设计 平衡目标导向与稳定性 核心奖励包括世界模型引导的目标奖励和真实动作偏差奖励 [5][6] - 总奖励为两者的加权组合 旨在平衡目标探索与轨迹稳定性 避免单一奖励的缺陷 [6] - 子目标奖励比终目标奖励平均性能高1.7% 在复杂环境中鲁棒性更强 [9][19] 训练流程 - 训练分为两阶段 第一阶段为动作专家联合训练 第二阶段为DPO后训练 [7][10] - 构建偏好数据集时基于总奖励生成胜败动作对 应用DPO目标函数对齐动作专家与VLA解码器输出 [10] 实验性能表现 - 在SimplerEnv零样本场景下 拾取可乐罐任务成功率超越基线4.6% 物体靠近任务成功率超越基线10.7% DPO后整体平均提升4.9% [11] - 在LIBERO长周期任务中 DPO后成功率提升1.0% 综合平均达95.0% 超越SOTA模型 [11] - 在Galaxea A1真实机器人9类拾取-放置任务中 成功率比NORA等模型提升13%-46% 在未见物体或指令场景下提升更显著 [15] - DPO后抓取准确率提升11% 干扰物误抓率下降4% 动作序列长度从9.7缩减至7.0 机器人抓手轨迹更平滑 [15][16]
坚持“具身大脑”与“人形本体”软硬⼀体!这家具身公司再获10亿融资
具身智能之心· 2025-11-20 10:52
融资与战略合作 - 公司于2025年11月20日完成近10亿元A+轮融资,由吉利资本领投,北汽产投战略投资,北京市人工智能产业投资基金及北京机器人产业发展投资基金联合注资 [1] - 融资将用于支持端到端VLA具身大模型ERA-42的技术迭代及落地应用,吉利资本和北汽产投的加入为产业应用打开战略协同空间 [1] - 公司坚持“具身大脑”与“人形本体”软硬一体全栈自研,致力于打造通用大脑及通用机器人 [1] 商业化进展与市场布局 - 公司2025年商业化高速增长,总订单额突破5亿元,物流行业最大单笔订单金额近5000万元 [2][3] - 业务形成“国内深耕+海外拓展”格局,海外业务收入占比达50% [3] - 全球TOP10市值科技巨头中有9家是公司客户,并与吉利、雷诺、顺丰、TCL、海尔、联想、世纪金源等企业达成深度合作 [3] - 海外业务覆盖北美、欧洲、中东、日韩,并成为SKILD AI、字节跳动、MIT、Stanford、清华、北大等全球顶尖机构的首选 [3] 核心技术:具身大脑ERA-42 - ERA-42是实现全尺寸人形机器人全身及五指灵巧手精准控制的具身大模型,全球仅四家机构掌握该技术,公司是中国唯一代表 [6] - 2024年9月公司全球首提分频VLA,推出HiRT快慢分层架构,通过latent向量连接70亿参数世界模型与4000万参数执行模型 [6] - 2024年12月发布全球首个融合世界模型的VLA算法框架VPP,将可用数据扩展至海量互联网视频数据 [6] - 2025年10月,清华与斯坦福团队联合提出可控生成世界模型“Ctrl-World”,将机器人在陌生场景的任务平均成功率提升44.7% [6] 应用场景与落地成效 - ERA-42已在物流、制造、商业服务等领域落地,形成“场景越丰富,模型越智能”的正向循环 [7] - 在物流领域可完成药品、日化品、包裹的分拣及扫码;在制造领域突破零部件抓取、高精度装配、质量检测等场景;在商业服务领域可完成客座清洁、物品递送、导游导览等任务 [7] - 部分应用场景效率当前达到70% [7] 硬件产品与研发能力 - 公司硬件自研比例超过95%,全栈自研关节模组、灵巧手、电机、减速器、控制器等,实现供应链垂直整合 [12] - 产品开发可像搭建乐高一样按月迭代,已推出覆盖科研、工业、服务领域的多款产品 [12] - 公司灵巧手以全直驱、利好强化学习的开发模式成为全球顶尖具身实验室论文标配,在2025年CoRL上多篇依托该灵巧手的学术成果被收录,并可操控100种工具 [13] - 全尺寸双足人形机器人星动L7是国内首个实现“大运动+巧操作”的机器人,在首届世界人形机器人运动大会夺得原地跳高冠军并创造跳远世界纪录,可担任供件员、分拣员、装配员及搬运工 [13] - 轮式服务机器人星动Q5已在海尔、卡萨帝、联想集团、世纪金源、大熊猫基地等企业及活动中投入应用,提供导览讲解、门店引流、商品介绍、快递等服务 [13]
港中文最新!无需微调即可部署VLA模型
具身智能之心· 2025-11-20 04:02
文章核心观点 - 提出一种名为VLA-Pilot的即插即用推理时策略引导方法,旨在解决预训练视觉语言动作模型在下游任务部署时出现的性能下降问题 [2] - 该方法无需额外微调或数据收集,即可实现预训练VLA模型的零样本部署,大幅降低了部署成本 [2] - VLA-Pilot通过结合多模态大型语言模型的开放世界推理能力和进化扩散算法的动作优化,提升了对多样化任务和机器人形态的稳健零样本泛化能力 [6] 现有问题分析 - 预训练VLA策略在下游部署过程中会出现显著的性能下降,而传统的微调方法依赖高昂的演示数据收集和密集型计算,在现实场景中不实用 [2] - 部署失败并不一定意味着预训练策略无法生成正确行为,而是由于运行时模式选择不当导致无法可靠执行 [4] - 现有的推理时引导方法存在局限性:其验证器需要额外训练且泛化能力有限,并且仅依赖从固定候选集中选择动作,在复杂任务中可能无法恢复成功行为 [5] 方法详解 - VLA-Pilot的核心是利用MLLM作为开放世界验证器以增强泛化能力,并采用进化扩散过程作为动作优化器以提高任务对齐度 [6] - 具身策略引导思维链模块将推理过程分解为四个交错阶段:引导目标确认、场景理解、具身增强和引导目标生成,最终输出非可微黑盒评分函数作为奖励 [11][12] - 进化扩散算法首先从预训练VLA策略采样动作候选,然后基于引导奖励迭代评估和变异候选集,通过结合扩散过程的多模态表达和进化搜索的黑盒优化来提升任务对齐度 [14][15][16][17] - 引入迭代引导优化机制实现闭环修正,通过反思步骤让MLLM作为自我批判者来优化引导奖励并生成引导成功指示器,提升引导精度和稳健性 [20][21] 实验对比分析 - 实验在双臂机器人系统上进行了评估,涵盖六个下游操作任务,包括四个简单单臂任务和两个复杂双臂操作任务,并设置了分布内和分布外两种场景 [23][26] - 在分布内任务中,VLA-Pilot结合DiVLA策略在整体任务上的平均操作成功率达到62%,显著高于基线方法DiVLA的31%和RDT-1B的30% [30] - 在分布外任务中,VLA-Pilot展现出稳健的泛化能力,整体平均成功率达到50%,远高于V-GPS的12%和FOREWARN的19% [31][32] - VLA-Pilot实现了与使用50个专家演示进行监督微调相当的性能,表明该方法能有效提取预训练模型中的潜在知识 [35]
从纯小白到具身算法工程师的打怪之路
具身智能之心· 2025-11-20 04:02
文章核心观点 - 文章系统性地介绍了具身智能领域的几个关键技术方向,包括VLA、VLN、强化学习与足式机器人、以及Diffusion Policy [1] - 这些技术方向代表了机器人领域当前主流且前沿的研究范式,旨在提升机器人的感知、决策和执行能力 [1][6][21] VLA(视觉语言动作)方向 - VLA机器人系统主要由视觉感知处理模块、语言指令理解模块和动作策略网络构成 [1] - 显示端到端VLA是最经典范式,将视觉语言信息压缩成联合表征后映射到动作空间,依赖不同架构、模型大小和应用场景取得不错性能 [1] - 隐式端到端VLA关注可解释性,利用video diffusion模型预测未来状态,再通过逆运动学生成动作,提高了可解释性和模型扩展潜能 [2] - 分层端到端VLA通过结合大小模型特点提升泛化性并保持执行效率,成为近期研究热点 [2] VLN(视觉语言导航)方向 - VLN机器人系统由视觉语言编码器、环境历史信息表征和动作策略三个模块构成 [5] - 采用大规模预训练视觉语言模型和利用LLM进行指令拆解是当前主流前沿范式 [6] - 环境历史信息处理分为隐式端到端和显示端到端两种方法,前者使用序列模型隐变量,后者使用拓扑图、BEV语义地图等模型进行环境建模 [6] - 策略网络学习从依赖数据增强转向从LLM蒸馏规划信息,物体导航任务要求机器人具备更强目标识别和未知环境探索能力 [6][7] 强化学习与足式机器人 - 强化学习是足式机器人的重要组成部分,涉及四足机器人基础包括运动学与动力学、多模态传感器融合 [9][10] - 双足机器人进阶重点在于平衡性与动态控制,以及PPO、SAC等强化学习算法与步态控制的结合 [10] - 高级算法包括深度强化学习与模仿学习,以及多任务训练与自适应实现行走、避障、攀爬等任务无缝切换 [10] - Sim2Real迁移与安全机制通过域随机化、RMA等策略降低仿真与现实差异,保证真实部署成功率 [10] Diffusion Policy(扩散策略) - Diffusion Policy通过直接对机器人动作建模,使动作更逼真灵活,在多个仿真环境和真机任务中相比最先进方法实现平均46.9%的性能提升,控制频率超过100Hz [21] - 扩散策略大模型RDT拥有12亿参数,提出物理可解释的统一动作空间,通过海量预训练展现强大零样本泛化能力,仅需1-5个示例即可学习新技能 [21][22] - 扩散策略应用范围正扩大至自主导航、灵巧手抓取等领域,能根据环境约束动态生成符合约束的动作轨迹 [22] - 技术体系从基础状态扩散策略不断发展,包括3D空间应用扩展、等变扩散策略、安全扩散策略等新研究方向 [23]
世界第一「空间智能」引擎!苹果没做成的,95后博士拿下了
具身智能之心· 2025-11-20 00:03
行业背景与市场机遇 - 2024年以来,AI驱动的体感交互被视为下一个技术浪潮,但现有解决方案价格高昂或受限于专用硬件,将大众用户拒之门外[2] - 当前居家娱乐体验存在割裂,游戏主机使用率低且内容同质化严重,用户渴望互动但被硬件成本和内容贫瘠所束缚[4][6] - 市场呼唤更轻量、普惠的解决方案,无需专用硬件即可实现专业级体感交互[3] 公司核心解决方案与价值主张 - 公司主张仅凭一部智能手机即可实现专业级高精度、零延迟的全身3D动作实时反馈,无需任何专用硬件[8] - 技术方案旨在对传统主机外设进行降维打击,目标是将空间智能引擎植入全球50亿部智能手机中[9] - 公司的终极目标是成为AI时代的“任天堂”,重新定义体感互动标准[10] 技术优势与创新 - 公司空间智能引擎可捕捉133个全身关键点,并实现厘米级3D姿态估计,远超传统方案约18-23个2D关键点的能力[13] - 技术方案将单目3D姿态估计误差压至5厘米以内,这是体感体验从“能玩”到“好玩、准、爽”的分水岭[39][42] - 在手机端实现真3D动捕的实时运行,速度高达100fps,是谷歌Mediapipe方案(15fps)的6倍以上[46] - 技术具备极致轻量化,可在iPhone 12及约2000元人民币的安卓手机上流畅运行[48] - 技术优势建立在全球最大的运动数据库之上,该数据库覆盖50多种运动,包含千万级多模态动作数据[49] 产品体验与功能特点 - 技术支持最多4人同时同屏互动,将客厅转变为家庭中心或派对游乐场,实现从“独乐乐”到“众乐乐”的场景延伸[17] - 产品可将手机变为“AI私教”,在用户进行拳击、高尔夫等运动时提供实时动作捕捉与纠错指导,实现从“跟练”到“陪练”的质变[25][27] - 具备自动剪辑游戏高光时刻的功能,增强用户的分享欲与社交粘性[28] - 未来可进化为健康生活管家,通过餐食照片智能分析卡路里及营养成分[30] 团队构成与战略路径 - 创始团队由顶尖AI科学家和游戏行业资深人士组成,具备技术理想与市场嗅觉的复合能力[53][54] - 创始人兼CEO王佳泽拥有8年AI研究与工程积累,其创业动机源于自身作为体感游戏迷所遭遇的体验痛点[56][57] - 公司战略强调将“技术可行”转化为“情感共鸣”,通过内容节奏把控触发玩家的价值共鸣与社交分享欲[63][64] - 商业模式以订阅制为主轴,提供全量游戏库、进阶模式、云端回放等核心权益,并辅以可选的硬件协同,坚持“无硬件可玩,有硬件更爽”的原则[72][73] 市场进入策略与愿景 - 公司计划于2026年Q2率先在海外上线产品,因欧美市场用户教育更充分、付费意愿更高,利于验证产品市场匹配度[72] - 目标用户定位为客厅娱乐与轻运动的泛人群、短视频内容消费者及AI玩法早期采纳者,旨在从Switch和健身App中吸引增量用户[74] - 长期愿景是打造一个“运动-分享-健康管理”闭环,通过社交分享降低用户流失率,将产品从游戏App推向有长期粘性的健康生活方式平台[68][71]
从零将π0.5部署到具身机械臂上!
具身智能之心· 2025-11-20 00:03
产品发布与定位 - 公司宣布支持pi0.5部署,相关代码将正式开源,旨在加速具身智能科研落地 [1][2] - Imeta-Y1是一款面向具身智能领域打造的轻量级高性价比机械臂,专为新手、学生、教育工作者及机器人领域初学者设计,旨在解决硬件选择中价格过高或低价产品难用、难上手的问题 [3] - 该产品定位为帮助用户低成本、高效率地完成算法验证与项目开发 [3] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集到模型部署的全过程,对新手友好 [4][20] - 支持Python与C++双语言接口,兼容ROS1与ROS2,并提供URDF模型,实现仿真与真机的无缝切换 [4][21][22] - 提供24小时快速售后响应,确保学习与开发过程顺畅 [4][22] - 产品融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调 [6] - 紧凑型结构与模块化接口使其特别适用于嵌入式AI与机器人学习平台的开发 [7] - 支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架,实现端到端的智能算法落地 [20][39] - 后期将陆续升级更新VLA、VA相关源码,新老客户均可享受升级 [22] 机械臂硬件规格 - 本体重量为4.2千克,额定负载为3千克,具有6个自由度 [9][22][23] - 工作半径为612.5毫米,重复定位精度为±0.1毫米 [9][22][23] - 供电电压为24V,控制器为PC,材质为铝合金(部分规格包含树脂) [9][22] - 通讯方式为CAN,控制方式支持轨迹跟踪、示教及API [9][22] - 各关节运动范围与最大速度均有详细规格,例如J1关节运动范围为-165°至165°,最大速度为180°/秒 [9][23] 仿真与开发支持 - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法并一键部署至物理设备,降低开发风险与调试成本 [20][25] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档,支持Python、C++等语言 [32][33] - 目前已开源适配的算法包括lerobot和ACT,robotwin、pi0等将逐步适配并开源给用户 [53] 售后服务与交付 - 产品交付周期为1至2周 [51] - 提供半年质保(非人为损坏),质保期后售后费用按市场价计算 [52] - 批量采购享有更多优惠,并支持基于本产品的项目开发与教学培训 [22]
解决特斯拉「监督稀疏」难题,用世界模型放大自动驾驶的Scaling Law
具身智能之心· 2025-11-20 00:03
文章核心观点 - 视觉语言动作模型在自动驾驶领域面临“监督稀疏”的核心挑战,即高维视觉输入与低维稀疏动作监督之间的不匹配,导致数据规模定律失效 [3][7] - 研究团队提出DriveVLA-W0方案,通过引入世界模型作为稠密的自监督信号,迫使模型学习环境动态规律,成功解锁并放大了数据规模定律 [10][11][17] - 该方案在7000万帧数据规模上验证有效,显著提升模型性能并降低推理延迟,为VLA模型的产业落地提供了新路径 [21][23][27] VLA模型的“监督赤字”问题 - 自动驾驶领域希望复现大语言模型的数据规模定律,但VLA模型面临“监督赤字”困境 [6][7] - 数十亿参数的VLA模型接收高维稠密视觉信息流,监督信号却是低维稀疏的驾驶动作,导致模型表征能力浪费,无法充分学习复杂环境动态 [7] - 实验证实,在稀疏动作监督下,VLA模型性能随数据量增加迅速饱和,数据规模定律效应大打折扣 [8] 世界模型的破解之道 - DriveVLA-W0方案创造性引入世界模型,将“预测未来图像”作为稠密自监督训练任务,替代依赖稀疏动作的传统方法 [10][11] - 预测下一帧完整视觉画面迫使模型学习世界真实运行规律,如车辆运动趋势、人车交互关系,提供比动作更丰富稠密的学习信号 [14][15] - 世界模型从根本上缓解了“监督赤字”问题,为模型提供了理解环境动态的必要监督 [15] 世界模型对数据规模定律的放大效应 - 研究核心贡献在于发现世界模型能显著“放大”数据规模定律,使模型性能随数据量增加实现持续显著提升 [17][23] - 在700K到70M的数据规模上,DriveVLA-W0性能提升斜率显著优于仅依赖动作监督的基线模型 [21] - 在70M帧规模下,世界模型使碰撞率降低20.4%,实现了单纯堆砌动作数据无法达到的质变 [24] 兼顾性能与效率的模型设计 - 针对VLA模型“高延迟”痛点,团队提出轻量级MoE“动作专家”架构,在不牺牲性能的前提下优化推理效率 [26] - 该设计显著降低模型推理延迟,仅为基线VLA模型的63.1%,为模型实时部署提供可能 [27]
如何构建通用具身导航大模型?
具身智能之心· 2025-11-20 00:03
通用导航大模型研究背景与行业痛点 - 当前具身智能的导航研究多受限于特定任务与特定机器人平台,阻碍了通用智能的发展[2][5] - 面对非结构化、高动态环境以及需要语言理解的复杂任务,传统导航系统已难以满足需求[2] - 导航大模型的出现将导航算法从专用能力拓展至通用智能移动能力,为具身智能落地开启新路径[2] 核心模型技术演进 - 跨任务导航大模型Uni-NaVid旨在突破任务局限性[2][5][6] - 跨本体导航大模型NavFoM进一步实现了跨机器人平台的通用性[2][5][6] - 技术演进路径从解决跨任务问题推进到解决跨本体问题[2][5] 实际应用场景 - 模型技术已成功应用于视觉避障、城区微出行与智能跟随等实际场景[2][5] - 具体落地应用案例包括TrackVLA++、UrbanVLA和MM-Nav[6] - 应用场景覆盖从室内避障到室外城区出行等多个领域[2][5][6]
适配简单、效率高!U-Arm:你的具身通用遥操臂来啦~
具身智能之心· 2025-11-19 10:00
产品核心定位 - 专为具身智能研究与多场景遥操作需求打造的高性价比解决方案,旨在解决传统遥操设备“适配难、成本高、效率低、封闭化”的痛点 [1][4] - 通过“稳定、普适、生态”三大优势,赋能科研教育领域高效落地 [4] 核心优势 - **稳定可靠**:采用关节双轴固定设计解决松动隐患,主体使用4mm壁厚光固化树脂材料,兼顾轻量化与抗冲击性 [7][8] - **超强普适**:兼容市面上95%商用机械臂,提供3种硬件结构遥操臂,控制逻辑统一,无需二次开发即可快速连接,实现即插即用 [7][8] - **生态完善**:配套真机遥操与ROS仿真例程,轻松搭建“采集-训练-验证”全流程,支持多模态遥操数据同步记录 [7] - **极致性价比**:传统专用设备如GELLO动辄数万美金,该产品定价仅为1999元/件,大幅降低方案门槛 [8] - **完全开源**:硬件、软件完全开放,支持二次开发,满足科研团队的定制化需求 [8] 应用场景 - **科研数据采集**:适配模仿学习模型训练,助力具身智能研究高效推进 [7] - **教育实践教学**:可模拟抓取、装配等场景,帮助学生理解主从控制逻辑,提升机器人实际操作能力 [7] 产品竞争力对比 - **操作体验**:相比传统手柄/VR方案的反直觉和易眩晕,该产品提供“手把手”自然操作,生成平滑运动轨迹,新手可快速上手 [11] - **适配能力**:传统方案1台设备仅对应1款机械臂,该系统3种构型覆盖95%主流机械臂,实现1臂多用 [11] - **数据采集效率**:较传统方法提升39%,高质量数据采集支持高性能模型训练 [11] - **成本投入**:传统专用设备需数万美金,该方案仅1999元/件,包含全套配件 [11] - **扩展性**:传统系统封闭难以二次开发,该方案硬件软件完全开源,支持科研教学定制 [11] 适配机械臂清单 - **Config 1**:适配Xarm6, Fanuc LR Mate 200iD, Trossen ALOHA等 [11][12] - **Config 2**:适配Dobot CR5, UR5, ARX R5*, AUBO i5等 [11][12] - **Config 3**:适配Franka FR3, Franka Emika Panda, Flexiv Rizon, Xarm7等 [11][12] - 对于5自由度机械臂如SO-100、XLeRobot,可通过忽略joint4指令使用Config 1构型适配 [8][15] 定价与交付 - 每件定价1999元,构型三选一 [18] - 交付包含U-Arm本体、7根舵机连接线、ZLink控制板、桌面夹,无额外隐性成本 [8][18]