Workflow
具身智能之心
icon
搜索文档
国产具身AI平台来了!这家公司让具身AI真正从“虚拟走进现实”
具身智能之心· 2025-09-09 00:03
在具身AI技术加速发展的当下,智能机器人正逐步从实验室走向实际应用场景。从家庭扫地机器人到工业装配臂,从仓储物流搬运到医疗护理,机器人 应用边界持续拓展。尤其随着大模型技术突破,机器人的环境理解与任务执行能力显著提升,在复杂家庭服务、高精度工业生产中展现出巨大潜力。 然而,具身AI要实现规模化商用部署,仍需突破三大核心挑战: 1. 缺乏高性能低延时底层操作系统 :现有解决方案在实时性、稳定性上存在短板,限制复杂任务执行与多机器人协同部署。 2. 高质量训练数据稀缺 :传统人工演示、遥操作数据采集效率低、成本高,难以覆盖现实世界复杂多变场景; 3. 验证测试成本高昂 :真实环境中测试机器人算法耗时久,且存在安全风险,单次失败可能导致设备损坏、人员受伤; 长期以来,ROS(机器人操作系统)是机器人研发的主流工具,为开发者提供消息通信、传感器与算法集成、机器人建模仿真等功能,助力快速搭建系 统、验证功能。但在工程化与大规模应用中,ROS存在 实时性不足、通信开销大、安全性欠缺 等问题,无法满足高性能、低延时的具身AI场景需求。 在此背景下,Dora(Dataflow Oriented Robotics Archit ...
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心· 2025-09-09 00:03
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在多模态大模型的基座上, 视觉 - 语言 - 动作(Visual-Language-Action, VLA) 模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。然 而, 现有 VLA 基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练 (Post-Training),特别是当目标场 景本体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了 VLA 模型跨本体适配(Cross-Embodiment Adaption)挑战。在后训 练阶段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。 为了解决该问题, 中国电信人工智能研究院( TeleAl )具身智能团队 提出了 一种 " 对齐 - 引导 - 泛化"(Align then Steer, ATE)的 VLA 跨本体泛化框 ...
面向VLA方向的1v6科研论文辅导小班课来啦~
具身智能之心· 2025-09-09 00:03
VLA科研背景与介绍 VLA,Vision-Language-Action模型,是具身智能领域的新范式,从给定的语言指令和视觉信号,直接生成出机 器人可执行的动作。这种范式打破了以往只能在单个任务上训练大的局限性,提供了机器人模型往更加通用,场 景更加泛化的方向发展。VLA模型在学术界和工业界的重要性主要体现在其将视觉信息、语言指令和行动决策 有效整合,显著提升了机器人对复杂环境的理解和适应能力。 VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境,广 泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发展,如 pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。其适应性体现在能 够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用 价值,成为智能机器人领域的关键驱动力。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团 队从实验室走向商业化,华为、京东、腾讯等科技巨头也积 ...
花了很久,才整理的具身学习路线......
具身智能之心· 2025-09-08 04:00
因为一直在做具身自媒体,后面也帮他分析了目前我们了解到的具身从业同学,主要有几类:自驾出身、大模型出身(硬件接触 少)、传统机器人领域(算法接触少)还有其他像机械、通信等没有完整技术闭环的在校同学。毕竟是一个新的方向,虽然行业发展 很快,但培养没跟上,好多入门的同学都是野路子。这也不怪他们,毕竟很多老师转向也没那么快。 根因就是没有系统的培养体系,导致这方面的人才出现了数量和质量的不足。前面我们在社区内给大家梳理了很多具身技术子领域的 学习路线,大家可以好好学习下,助力成为一个真正懂具身的从业者。如果您还不是我们的成员,欢迎加入我们,和近200家具身公 司与机构成员一起交流。 上周六去杨浦见了一个朋友,正在某头部具身公司担任算法负责人。没聊技术,就聊了Unitree上市的消息,和吐槽组内的同学不够专 业,需要帮着处理很多问题。 "具身智能之心知识星球"是我们一直在维护的具身社区,目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的 具身社区,近2000人了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同 学经常逛的地方。 社区内部经 ...
IROS 2025 | 走向物理智能,“桃源”与真实世界机器人学习挑战赛启动
具身智能之心· 2025-09-08 00:03
2025年10月,IROS (智能机器人与系统国际会议)期间,上海人工智能实验室(上海AI实验室)将举办物理世界中的多模态机器人学习研讨会,IROS 2025" 桃源 " 与真实世界机器人学习挑战赛 (机器人学习挑战赛)现已启动报名,欢迎全球创新者与挑战者参加。 近期,上海AI实验室发布了 『书生』具身全栈引擎Intern-Robotics ,通过构建虚拟仿真建模、虚实数据贯通、训测一体化等技术体系,一站式破解具身智能从数 据、训练到实际应用的全链条难题,推动具身大脑从 "碎片化开发" 迈向 "全栈化量产"时代。欢迎全球开发者体验:https://internrobotics.shlab.org.cn 赛事介绍 挑战赛设置2大赛道,聚焦操作与导航两类具身智能典型任务,旨在打通仿真与现实壁垒,推动具身智能技术从"看起来能做"到"现实中能做"的关键跨 越。 2大赛道赛程均分为线上和线下两阶段,线上赛将在"桃源 Intern·Utopia"通用具身仿真平台(GitHub地址: https://github.com/InternRobotics/InternUtopia)中进行,晋级队伍将进行线下决赛。 冠军队伍可获 ...
具身性在移动操作机器人直观全身遥操作中的作用与性能评估
具身智能之心· 2025-09-08 00:03
研究核心观点 - 研究聚焦移动操纵机器人遥操作界面设计 探索控制范式与视觉反馈模态对长期任务性能的影响 旨在平衡具身感 认知负荷与任务效率[3] - 研究发现解耦具身控制器(SBC)比耦合具身控制器(WBC)任务完成时间短169秒(p=0.025) 操作更灵活[19] - 带VR视觉反馈使任务完成时间增加142秒(p=0.026) 并显著降低操作者可用性(SEQ p=0.003, UMUX p=0.006) 增加认知与体力负荷[19][22][23] - 耦合具身控制器(WBC)收集的数据更适合模仿学习 训练的策略成功率80% 而SBC数据训练的策略成功率为0%[32] 研究背景与目标 - 移动操纵机器人数据集稀缺 核心瓶颈在于移动性扩大操作空间的同时增加控制与反馈复杂度[3] - 研究针对长期移动操纵任务 需全身协调 误差恢复及长时间操作稳定性 是此前研究忽视的复杂场景[3] - 核心目标是探索控制范式(耦合具身/解耦具身)与视觉反馈模态(VR/传统屏幕)对操作者体验的协同影响[3] 遥操作系统设计 - 系统以PAL Tiago++全向底座机器人为控制对象 搭配HTC Vive Pro VR设备 测试4种界面组合[5] - 解耦具身控制器(SBC)将底座运动与臂运动独立控制 臂控制采用逆运动学求解器以30Hz运行 底座控制采用3D方向舵[6] - 耦合具身控制器(WBC)以15Hz频率运行 通过任务空间逆动力学实现全身控制 支持末端执行器模式与全身操纵模式切换[6] - 视觉反馈模态差异在于操作者获取机器人视野的方式:带VR模态可切换3个立体相机视角 无VR模态通过外部屏幕查看视频流[12] 实验设计与评估 - 采用混合设计方案:控制器为被试间变量(WBC/SBC) 反馈模态与尝试次数为被试内变量(带VR/无VR, Trial 1-3)[9][10] - 20名被试按VR经验 电子游戏经验等多维度分层 确保两组控制器被试特征均衡[13] - 评估指标涵盖行为指标(任务完成时间 成功率 工效学数据)与态度指标(可用性问卷 工作负荷问卷 模拟眩晕问卷)[15][18] - 单名被试实验时长约2小时 包含仿真训练 真实场景训练与任务测试环节[14] 关键研究发现 - 任务完成时间受反馈模态与控制器显著影响:带VR模态增加142秒 SBC比WBC缩短169秒 Trial次数存在边际学习效应(减少31.64秒/次,p=0.12)[19] - 所有条件下任务成功率均较高(平均得分9.4/10) 控制器类型 反馈模态与Trial次数均无显著影响[19] - 带VR模态显著降低可用性(SEQ p=0.003, UMUX p=0.006) 操作者认为VR模式下任务更难[22] - 带VR模态下认知需求 体力需求更高 性能感知更低 整体负荷显著上升 NASA TLX问卷显示负荷得分落入"高负荷"区间[23] - 控制器对负荷维度影响不同:SBC引发更高物理需求(p=0.02) WBC引发更高挫折感(p=0.009)[23] - 工效学评估显示长期操作存在中等肌肉骨骼风险(RULA平均得分4.12±0.27) 风险主要来自上臂与手腕[26] - WBC的质心偏差波动显著大于SBC 因底座运动需通过控制器位姿差异激活 导致身体姿态调整更频繁[26] 专项分析 - SBC用户在带VR模态下使用机器人头部相机比例60.4±38% 显著高于WBC用户36.8±39%(p<0.0001) 表明具身感更强[32] - 真实场景中VR引发的眩晕感接近显著水平 优化视频流延迟与分辨率可降低眩晕[32] - 仿真训练有效性获认可(OATS评分4.8±1.2/7分) 但任务难度感知显著高于真实场景(带VR p=0.015 无VR p<0.0001)[32] - 模仿学习实验中WBC数据训练的策略成功率80% SBC数据训练策略成功率0% 因SBC数据缺乏臂-底座耦合信息[29][32]
具身智能之心遥操作技术交流群来了!
具身智能之心· 2025-09-08 00:03
行业交流活动 - 行业正围绕具身智能的遥操作技术建立专业交流社群 [1] - 社群面向相关技术方向的研究人员及从业者开放加入 [1] - 加入渠道需通过指定助理微信并备注机构及专业信息 [2]
具身智能之心开学季福利!今年的有点不太一样......
具身智能之心· 2025-09-08 00:03
所以这个基础上,大家如果感兴趣可以放开手做事情,数据、本体、算法都能大有所为。由于具身发展时间较 短,很多同学也苦于没有体系和路线,具身智能之心为了解决这类痛点,研发了几门具身领域的教程,还有一 个很不错的具身社区供大家学习。 开学季大额优惠 智能之川 学 福 H 利 男 DFT 9.1-9.14号 时间 活动说明 299元限时超级折扣卡: 全课七折 喜 具身课程七折优惠 (一年期) 具身智能之心知识 減 減66元 星球立减66 最高抵扣 具身智能论文辅导 托 1000普宣抵扣10000 10000 课程和社区亮点 又到了九月的开学季,实验室里已经可以陆续听到敲代码的声音了。还记得之前通宵调试机器人小车的校园时 光,转眼间机器人算法也从传统的pipeline方案发展到端到端。最近有个小朋友找峰哥,保研马上要开学了, 导师让我自己去看具身智能方向,不知道这个领域怎么样...... 从技术上来说,具身算法对全局的感知能力有进一步提升。一个抓取工作,早期方案首先通过姿态识别和3D 视觉完成感知,然后到规划执行,再到抓取。过程繁琐,泛化性差。而目前的VLA或者VA方案,通过学习的 方式让机器人能够丝滑的动起来。不乏有 ...
字节团队最新Robix!全能大模型,一个模型就能搞定机器人推理、任务规划和交互
具身智能之心· 2025-09-08 00:03
文章核心观点 - 字节跳动提出统一视觉-语言模型Robix 作为机器人高层认知中枢 通过端到端架构整合推理 规划与交互能力 解决现有分层系统在动态场景中的能力割裂问题[2][3][5] - Robix通过三阶训练策略(持续预训练 有监督微调 强化学习)实现物理世界感知与人类需求适配 在基础推理 离线规划和在线场景中超越主流商业模型[5][13][22] - 模型在真实场景测试中任务进度达92.5-92.6% 较Gemini-2.5-Pro提升4.3个百分点 响应延迟更低 展现更强的物理操作适配性[29][32] 技术架构与工作机制 - 采用分层系统设计 Robix作为高层认知层处理多模态推理与任务规划 低层控制器执行原子动作指令形成感知-推理-动作闭环[7][8] - 输入包含视觉观测 用户指令和历史交互记录 输出原子动作指令 自然语言回复和结构化思考轨迹三大类型[9][11] - 支持复杂指令理解 实时中断处理 任务状态监测和主动对话四大核心交互能力[12] 训练策略与数据构建 - 持续预训练使用2000亿tokens数据 包含3D空间理解(400亿) 视觉定位(700亿) 任务中心推理(100亿)和通用多模态推理(900亿)四类数据集[13][14] - 有监督微调通过合成7类交互指令数据 涵盖多阶段指令 约束指令 实时中断处理和模糊指令澄清等场景[17][18][19] - 强化学习采用GRPO算法 引入思考-动作一致性奖励机制 解决推理与动作脱节问题[22][23] 性能表现 - 基础具身推理:Robix-32B在VSIBench得分50.9超Gemini-2.5-Pro(43.4)7.5个百分点 在LVIS-MG达79.2超开源模型最高值73.8[24][25] - 离线任务规划:Robix-32B-RL在OOD任务准确率86.8% 超Gemini-2.5-Pro(83.8%)3个百分点 在ID任务超开源模型28.1-64.6个百分点[27] - 在线真实场景:搭配自动VLA控制器时任务进度92.5% 超Gemini-2.5-Pro(88.2%)4.3个百分点 超GPT-4o(64.4%)28.1个百分点[32] 优势与局限 - 核心优势体现在统一性(单模型整合三大能力) 灵活性(支持动态重规划)和泛化性(OOD任务持续领先)[35][38] - 主要局限为动态场景鲁棒性不足 高频场景切换可能出现推理漏洞 且依赖短期记忆窗口难以支持长时交互[38]
面向VLA方向的1v6科研论文辅导小班课来啦~
具身智能之心· 2025-09-07 12:28
VLA科研背景与介绍 VLA,Vision-Language-Action模型,是具身智能领域的新范式,从给定的语言指令和视觉信号,直接生成出机 器人可执行的动作。这种范式打破了以往只能在单个任务上训练大的局限性,提供了机器人模型往更加通用,场 景更加泛化的方向发展。VLA模型在学术界和工业界的重要性主要体现在其将视觉信息、语言指令和行动决策 有效整合,显著提升了机器人对复杂环境的理解和适应能力。 VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境,广 泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发展,如 pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。其适应性体现在能 够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用 价值,成为智能机器人领域的关键驱动力。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团 队从实验室走向商业化,华为、京东、腾讯等科技巨头也积 ...