Workflow
具身智能之心
icon
搜索文档
中山&清华:基于大模型的具身智能系统综述
具身智能之心· 2025-08-16 16:03
具身智能系统综述 核心观点 - 大模型显著提升具身智能的感知精度、理解深度和规划能力,实现感知-规划-动作闭环[6][39] - 大模型在具身智能中分为需求级、任务级、规划级和动作级四个控制层级[6][11] - 基于Transformer的端到端架构和参数冻结的大模型结合基础模型是主流系统架构[21][24][28] 感知与理解 多模态模型理解 - GPT-4V等多模态大模型通过预训练将图像与文本编码到同一向量空间,提升环境感知能力[9] - ViLA模型整合视觉反馈实现闭环规划,MultiPLY通过动作标记实现抽象与多模态信息切换[9] - 多模态模型能捕获文本、图像、音频间关系,提取统一高维特征[5] 多模态环境建模 - CLIP模型对场景进行语义建模,HomeRobot利用CLIP学习3D语义表示[10] - PerAct通过体素编码器实现3D环境建模,LangSplat用3D高斯构建语言场[10] 可供性与约束 - AffordanceLLM结合大模型知识与3D几何信息预测可操作性图[10] - Affordance Diffusion通过RGB图像合成3D手部姿态,KITE用关键点生成动作序列[10] 控制层级 需求级 - Text2Motion框架将自然语言指令转化为物理可执行任务,PaLM-E整合多模态数据生成任务规划[14] - SayCan通过语义知识与技能评估选择最优方案,EmbodiedGPT用思维链技术提高成功率[14] 任务级 - OK-Robot结合OWL-ViT实现物体定位,CaP将自然语言转换为可执行策略代码[16] - LLM-GROP提取语义对象配置知识并实例化到规划器[16] 规划级 - VoxPoser生成3D价值地图控制机器人轨迹,3D-VLA处理3D空间信息生成动作特征[21] - iVideoGPT构建世界模型支持智能体探索,RoCo实现多机器人协作规划[21] 动作级 - Gato通用智能体可完成游戏、机械臂操控等多样化任务,RoboFlamingo解耦视觉-语言理解与决策[21] - Prompt2Walk通过文本提示输出关节位置,ManipLLM预测末端执行器精确姿态[21] 系统架构 基于Transformer的架构 - RT-1吸收多样化机器人数据生成离散动作指令,RT-2整合PaLM-E提升语义推理能力[33] - InteractiveAgent通过多模态预训练实现交互执行,ALOHA用Transformer生成精细双手操作[33] 参数冻结的大模型结合基础模型 - TidyBot利用CLIP实现个性化家庭清理,VIMA通过多模态提示输出动作序列[35] - Instruct2Act用大语言模型生成Python程序构建感知-规划-动作循环[35] 数据来源 模拟器 - BEHAVIOR-1K包含1000个日常活动数据集,RoboGen用生成模型自动学习机器人技能[36] - DrEureka通过LLM合成奖励函数解决Sim2Real问题[36] 模仿学习 - ALOHA记录人类操作数据训练端到端模型,HumanPlus通过"影子跟随"收集全身数据[37] - UMI实现跨平台双手操作数据收集[37] 视频学习 - VRB从人类行为视频训练视觉可供性模型,VPT通过未标记视频预训练智能代理[37] - RoboCLIP利用视频-语言模型相似度生成奖励函数[37] 未来发展方向 - 需开发低成本真实数据收集方法并优化大模型推理速度[44] - 多智能体协同框架将应对复杂任务,跨领域应用拓展至医疗、教育等行业[40][44]
迟迟入不了具身的门?别人在这里已经弯道超车了......
具身智能之心· 2025-08-16 16:03
社区价值定位 - 国内首个具身全栈技术社区 提供学术研究 工程实践 求职对接的全方位闭环服务[3] - 社区成员来自斯坦福大学 清华大学 智元机器人 优必选等全球顶尖高校和头部企业[17] - 已汇总40+开源项目 60+数据集 30+技术路线 覆盖感知 控制 导航 仿真等核心领域[17] 技术资源体系 - 系统化整理视觉语言模型(VLA)应用方案 包括机器人抓取 规划任务及与强化学习的融合方法[3][9][43] - 强化学习全栈学习路线涵盖深度强化学习 可解释强化学习及基于LLM的强化学习框架[17][41] - 多模态大模型技术体系包含理解与生成两大方向 支持Image/Video/Audio/3D与文本的跨模态交互[53][55] - 仿真平台资源整合通用机器人与真实场景仿真工具链 支持sim2real技术验证[39] 产业实践支持 - 建立与智元机器人 有鹿机器人 云深处等企业的内推机制 直接对接岗位需求[11][17] - 汇总30家具身机器人公司业务布局 覆盖教育 医疗 工业 物流等应用场景[22] - 提供零部件供应商资源 包括芯片 激光雷达 ToF相机 IMU等核心硬件选型指南[29][33] 学术研究支撑 - 收录机器人导航 概率机器人 动力学等专业书籍PDF资源 夯实理论基础[27] - 汇总国内外具身智能高校实验室信息 支持研究生 博士申请及博士后进修[19][21] - 持续更新行业研报 跟踪大模型与人形机器人领域的技术演进与商业化进展[24] 实践应用案例 - 自动驾驶从业者转型案例显示 视觉SLAM技术可迁移至视觉语言导航与端到端控制领域[81][83] - 机械臂控制项目采用LLM+Foundation Model+MoveIt技术栈 侧重实际应用落地[80] - 社区实时解答技术难题 包括数据采集清洗 模型部署 仿真调试等工程化问题[1][79] 行业发展趋势 - 具身智能行业处于早期探索阶段 技术路径尚未固化 存在较大发展窗口期[83] - 薪资水平呈现分化态势 头部企业强化学习岗位薪资较自动驾驶领域高出6k/月以上[82] - 技术演进方向聚焦端到端系统 VLA+RL融合方案以及大模型轻量化部署[65][83]
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
具身智能之心· 2025-08-16 16:03
自动驾驶技术发展现状 - 自动驾驶技术需要具备对当前环境的深刻理解能力和对未来场景的准确预测能力[6] - 主流方案通常将环境理解与未来生成任务分开处理[7] - 实际驾驶决策需要两种能力的深度融合[9] HERMES模型核心设计 - 采用统一框架通过共享LLM同时驱动理解与生成任务[12] - 使用鸟瞰图(BEV)作为统一场景表达 解决多视图输入与LLM长度限制问题[15] - 引入世界查询机制实现知识注入和传递 通过当前-未来连接模块打通理解与生成[16] - 采用共享渲染器将BEV特征解码为3D点云序列[17] 技术实现方法 - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征[15] - 通过自适应采样提取世界查询向量代表场景核心信息[16] - 联合训练使用语言建模损失和点云生成损失优化模型[18][19] - 端到端联合训练实现任务间最佳平衡点[20] 性能表现对比 - 3秒未来点云误差降低32.4% 显著优于ViDAR模型[22] - 在nuScenes和OmniDrive-nuScenes数据集上评估表现[22] - CIDEr指标提升8% 超越OmniDrive等专用理解模型[22] - 无需历史序列 推理更高效且泛化能力更强[22] - 生成精度提升显著 理解能力无损[22] 应用场景展示 - 准确预测未来三秒车辆与环境动态[3] - 深度理解当前场景并进行问答交互[3] - 生成时序连贯且几何精确的未来点云[23] - 精准描述驾驶场景细节包括动态物体移动和路边商家识别[23]
在复杂真实场景中评估 π0 这类通用 policy 的性能和边界
具身智能之心· 2025-08-16 16:03
核心观点 - PI0-FAST-DROID是一种基于视觉语言模型的通用机器人策略,能够在复杂真实场景中处理新物体、新位置和新任务,展现出开箱即用的潜力,但性能受提示工程、摄像头视角和任务复杂度影响显著 [4][7][73] - 该策略在透明物体识别、部分遮挡鲁棒性和人类活动干扰处理方面表现突出,但在空间推理、多步骤任务协调和精细操作方面存在明显局限性 [18][24][46] - 通过300多次试验评估,平均任务完成进度为42%,成功率在简单任务中可达20-50%,标志着机器人通用化的重要进展,但距实际应用仍有差距 [73][75][78] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器,仅依赖未校准单目RGB输入(224x224像素)处理透明、伪装及未见物体 [18][19][26] - 使用FAST动作标记器,基于100万条真实机器人动作轨迹训练,支持跨本体泛化 [75] - 训练数据结合π跨本体数据集和Open X-Embodiment预训练,并在DROID数据集上微调 [75] 能力表现 - 透明物体操作:能稳定抓取透明瓶子并完成放入容器的精准操作,无需传统二维或三维重建技术 [19][26] - 复杂背景识别:在色彩鲜艳棋盘背景中成功识别并抓取形状奇特的"黄色鱼"物体 [20] - 人类活动鲁棒性:侧视摄像头捕捉到移动人类时仍能专注任务执行,因V骨干训练包含人类图像且策略优先腕部摄像头 [24][25] 失败案例与局限性 - 提前停止问题:因语义模糊性或动作解码错误,300步试验中常意外停止,需人工干预 [36][41][43] - 空间推理缺陷:缺乏精确距离度量能力,导致物体放入容器时高度不足或发生碰撞 [46][48] - 多步骤任务困难:无记忆机制导致铰接物体操作(如打开抽屉)时抓住把手后冻结 [40][46] - 提示工程敏感:同一任务在不同措辞下成功率波动极大,如"关上厕所"成功率0% vs "关闭马桶白色盖子"成功率100% [57][58] 任务类别性能 - 拾取放置:依赖腕部摄像头,遮挡时成功率降至0% [63][66] - 倾倒任务:空容器操作进度73.3%,真实液体倾倒进度仅20% [85][86] - 铰接物体:平均进度37.8%,成功率28.5%,抽屉操作进度63-75% [87][92] - 织物操作:平均进度47%,折叠T恤进度35%,但完成折叠任务进度0% [93][100] - YCB基准:进度53.5%,成功率24%,无法跟随品牌名称仅能识别颜色 [95][96][101] - 人机交互:进度53.5%,成功率24%,握手任务进度0% [102][108] - 咖啡机操作:进度仅8%,无法完成放入胶囊或按下按钮等复杂操作 [104][109] 硬件与部署 - 使用Franka Panda机器人(7自由度)配Robotiq 2F-85夹持器,侧视与腕部ZED相机纯RGB输入 [5][75] - 推理需NVIDIA RTX A6000(48GB VRAM),部署便捷性类似开源LLM,支持快速实验室验证 [10][75]
灵巧手的设计与难题!为什么它是打通“手-眼-脑”感知闭环的关键技术?
具身智能之心· 2025-08-15 16:03
人形机器人灵巧手技术发展 核心特征 - 真正具备科研价值与产业潜力的灵巧手需满足三大核心特征:高物理灵巧度(IOD)、多模态感知能力(IOS)、智能决策潜力(IOI)[2] 传动方案对比 - **连杆传动**:结构刚性强、定位精度高,适合工业夹爪重复性任务,但难以实现高自由度集成[3] - **齿轮传动**:紧凑可控,常见于三指欠驱动手,但力传递效率与被动柔顺性受限[3] - **绳驱传动**(特斯拉Optimus、Shadow Hand采用):轻量化、远距离力传输、天然被动柔顺性,契合"预测驱动+动态调整"控制范式,但面临摩擦损耗、预紧力衰减、系统集成复杂等工程难题[3] 硬件挑战 - **触觉传感器**:现有电容式/压阻式传感器存在空间密度不足、信号漂移、环境敏感等问题,难以还原人手级接触拓扑感知[3] - **多自由度关节**:陷入"性能-成本-可靠性"不可能三角,自由度提升伴随驱动系统复杂化、故障率上升、寿命下降[3] 自由度与场景适配 - 行业从"自由度竞赛"转向"多维系统平衡",42自由度的科研手虽突破人手极限(约27DoF),但工程实用性待验证[4] - 未来趋势是构建"六边形战士",在力量、速度、体积、重量、寿命等维度寻求最优解[4] - 夹具在结构化工业场景(如二指/三指夹爪)可解决95%任务,但非结构化环境(家庭服务、医疗护理等)需灵巧手实现工具通用性、柔性物体操作[4] 行业演进方向 - 灵巧手价值在于能否成为VLA/VTLA模型迭代的物理接口,并在真实场景中持续被"反复使用"[4] - 能打通"手-眼-脑"闭环、实现软硬协同、构建开发者生态的解决方案将成为具身智能时代基础设施[5] 行业参与者 - 国内领先灵巧手公司包括傲意科技(首席运营官Mona参与圆桌)、灵巧智能[6][9][10]
天大&清华最新!GeoVLA:增强VLA模型的3D特征提取能力,鲁棒提升明显(SOTA)
具身智能之心· 2025-08-15 00:05
核心观点 - 提出GeoVLA框架 通过整合3D几何信息显著提升视觉-语言-动作模型的空间感知和操作能力 [3][9] - 在模拟和真实世界环境中实现卓越性能 包括LIBERO基准测试97.7%平均成功率和ManiSkill2基准测试77%成功率 [3][24][27] - 采用端到端架构设计 包含点嵌入网络和3D增强动作专家 有效融合多模态特征 [9][12][15] 领域背景 - 当前VLA模型主要依赖2D视觉输入 缺乏对3D几何信息的利用 限制空间感知能力 [3][7] - 现有3D整合方法存在局限性:LLaVA3D等方案破坏视觉编码器与语言模型对齐 需大规模微调数据集 PointVLA等方案冻结动作专家阻碍模态适应 [8] - 机器人操作需同时处理智能交互和精确运动控制 VLA模型通过视觉-语言基础结合动作生成设计实现指令跟随 [7] 方法设计 - 点嵌入网络采用双路径架构:几何特征路径使用CNN提取patch级token 位置编码路径通过旋转位置编码增强空间信息 [17] - 空间锚设计聚焦末端执行器区域 提升特征提取效率并明确建模空间关系 [18] - 3D增强动作专家采用扩散transformer与混合专家架构 通过静态路由策略平衡多模态特征处理 [19][20] - 端到端训练框架同步处理视觉语言特征和点云几何特征 输出连续动作序列 [12][13] 性能表现 - LIBERO基准测试中全面领先:空间任务98.4% 物体任务99.0% 目标任务96.6% 长视野任务96.6% 90任务97.7% [24][27] - ManiSkill2基准测试表现优异:PickCube任务90% StackCube任务90% PickSingleYCB任务75% PickClutterYCB任务45% [24][27] - 真实世界任务平均成功率86.3% 较CogACT提升10个百分点 在3D感知任务中达77.5%成功率 [31][36] 技术优势 - 几何感知能力突出:点云输入提供精确深度线索 增强空间理解和对视角变化的鲁棒性 [3][38] - 泛化能力强:在篮子高度变化、玩偶尺寸缩放、相机视角偏移等未见场景中保持稳定性能 [35][38] - 架构创新有效:点嵌入网络较MLP和PointNet编码器提升2-2.5个百分点 旋转位置编码较1D位置编码提升2.3个百分点 [29][30]
Figure人形机器人首秀灵巧手叠衣服!只增加数据集就搞定
具身智能之心· 2025-08-15 00:05
人形机器人技术突破 - Figure人形机器人通过神经网络学习叠衣服技能,无需架构改变仅增加数据即可完成新任务[2][7] - 机器人具备自然交互能力,包括眼神交流、点头和手势反馈[4][5] - 叠衣服任务采用端到端方式运行,从视觉语言输入到运动控制完全自主[9] 技术挑战与解决方案 - 叠衣服是极具挑战性的灵巧操作任务,需处理易变形、形状多样的物体[15][16] - 机器人需精细协调手指控制以追踪边缘、捏住角落并实时调整[17][18] - Helix架构是关键,作为端到端"视觉-语言-动作"模型实现通用人形机器人控制[21] Helix架构技术细节 - 由视觉记忆、状态历史和力反馈三部分组成[23][26][29] - 视觉记忆模块可从视频帧组合特征形成短期记忆[23][24] - 状态历史通过动作分块确保模块间连续性和稳健性[26][27] - 力反馈实现触感,帮助动态调整运动过程[29][30] 应用场景扩展 - 同一模型从物流分拣扩展到叠衣服任务,展现强大泛化能力[12][14] - 机器人已掌握洗衣服、叠衣服等家务技能,接近完成家务闭环[36][38] - 技术可应用于多种场景,包括物流、家庭服务等[12][38] 行业进展对比 - 擎天柱机器人10个月前已具备叠衣服能力[10][32] - WRC展会上也有类似功能的机器人展示[34] - Figure机器人技术持续迭代,在灵活性、速度和泛化能力方向持续提升[20]
何为Agent?在思想、学术与工程领域探寻“好用”真义
具身智能之心· 2025-08-15 00:05
AI Agent技术定义与核心架构 - AI Agent通过大模型作为大脑、向量数据库提供记忆、目标拆解实现规划、API调用作为工具的四要素协同运作[2] - 该技术使AI从单一工具升级为具有自主意识和能力的智能工具集合体[2] - 在旅游领域应用表现为从单纯提供路线升级到机票预订、提醒设置、美食推荐等全流程服务[2] 行业应用场景与挑战 - 垂直领域Agent在医疗、金融、心理健康等专业领域面临独特挑战[3] - 通用Agent与专业领域Agent存在明显差异化的应用要求[3] - 实际应用中存在功能强大但稳定性差、复现困难等"开盲盒"现象[3] 技术瓶颈与解决方案 - 模型上下文记忆能力弱和规划能力不足是关键技术难点[3] - 需要区分简单场景仅需消息作为记忆与复杂场景需外置知识库构建工作记忆[3] - 多智能体系统的训练思路成为学术前沿重点研究方向[3] 学术研究进展 - 近期顶会中Agent方向呈现多个亮点与趋势[3] - 研究涵盖EMNLP、ACL、NeurIPS、ICLR等顶级学术会议[10] - 学术界在ACL、JAIR、TAC等期刊会议持续产出研究成果[11] 工程实践痛点 - 功能强大性与应用稳定性之间存在显著差距[3] - 实际落地过程中面临复现困难等核心痛点[3] - 需要厘清不同场景下记忆系统的构建方式[3] 行业专家资源 - 研究团队包含10年以上ToB产品与数据专家,曾任职阿里及多家SaaS公司[10] - 专家团队长期服务制造、医疗、零售等头部行业客户[10] - 学术团队包含中科大博士生、东北大学数据挖掘实验室博士研究生等科研力量[10][11]
告别无效科研!具身智能方向1v1辅导开放,3位导师带你冲刺顶会!
具身智能之心· 2025-08-15 00:05
具身智能论文辅导服务 - 提供1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习 sim2real [2] - 目标会议覆盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [2] - 辅导老师具备具身智能领域活跃研究经验 能够提供创新性研究思路 [2] - 咨询方式包括微信添加和扫码 需备注"具身论文辅导咨询" [3]
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-14 12:00
具身智能论文辅导服务 - 提供具身智能领域的1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习和sim2real 主要面向A会和B会投稿需求[1] - 辅导覆盖多个顶级学术会议 包括CVPR ICCV ECCV ICLR CoRL ICML ICRA等[2] - 辅导老师均来自具身学术研究领域 具备活跃的学术研究能力和创新idea[2] - 咨询方式包括添加微信oooops-life或扫码联系 需备注"具身论文辅导咨询"[3]