具身智能之心

搜索文档
清华大学具身智能多传感器融合感知综述
具身智能之心· 2025-07-27 09:37
具身智能与多传感器融合感知综述 I 核心观点 - 具身AI通过物理实体载体实现动态环境中的自主决策,是突破AGI发展瓶颈的关键路径[6] - 多传感器融合感知(MSFP)通过整合相机/LiDAR/毫米波雷达等异构数据,解决单一传感器在复杂环境中的局限性[7][12] - 现有研究存在数据异构性、时空异步性、传感器故障等核心挑战,需开发新型融合方法与跨模态对齐技术[12][69] II 传感器与数据集 - **相机数据**:提供丰富颜色/纹理特征但受光照条件影响显著,恶劣天气下性能下降50%以上[13] - **LiDAR数据**:输出高精度3D点云但存在稀疏性问题,雨雾天气中有效探测距离缩短30-40%[13] - **毫米波雷达**:在恶劣天气保持稳定性能,可直接测速但点云稀疏度比LiDAR高5-8倍[13] - **主流数据集**: - nuScenes包含140万张图像+39万次LiDAR扫描,覆盖23个物体类别[16] - Waymo Open包含126万3D边界框,涵盖昼夜/雨天等多场景[17] - KITTI提供14,999帧数据,标注精度达厘米级[14][15] III 融合方法分类 - **点级融合**:通过投影实现像素-点云对齐,PointPainting方法将分割掩码特征标注到LiDAR点[25] - **体素级融合**:AutoAlign框架实现动态特征对齐,无需依赖精确投影矩阵[24] - **区域级融合**:AVOD网络处理BEV和RGB图像,生成高分辨率特征图[30] - **多级融合**:TransFusion利用Transformer建立跨模态软关联,提升鲁棒性32%[32] IV 多智能体协作 - **协作优势**:CoBEVT框架通过轴向注意力模块,使多车系统感知范围扩大2.5倍[38] - **通信优化**:When2Com方法减少带宽使用40%,同时保持95%以上的分割准确率[47] - **深度补全**:CoCa3D通过共享深度信息,将远距离目标检测准确率提升28%[39] V 时间序列融合 - **密集查询**:BEVFormer v2通过两阶段检测架构,无需深度预训练数据[55] - **稀疏查询**:Sparse4D系列采用递归方法,计算效率提升60%[56] - **混合查询**:UniAD框架集成感知/预测/规划,轨迹预测误差降低22%[59] VI 多模态大模型 - **视觉-语言**:Sce2DriveX框架通过LLM实现驾驶决策准确率提升35%[66] - **3D空间理解**:LiDAR-LLM将点云转换为语言建模任务,问答准确率达89%[67] - **知识增强**:SafeAuto通过多模态基础模型,事故率降低42%[66] VII 未来方向 - **数据生成**:采用AIGC技术合成罕见场景数据,填补真实数据集空白[74] - **模型架构**:开发几何学习与MM-LLM结合的混合架构,处理不规则传感器数据[76] - **自适应算法**:零样本学习方法使模型泛化能力提升50%[76]
港科大等提出LOVON:足式机器人开放世界全域目标追踪新范式!
具身智能之心· 2025-07-27 09:37
核心观点 - LOVON框架通过整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决了足式机器人在动态非结构化环境中长程多目标导航的难题[4][6] - 该框架在仿真环境中成功率(SR)达1.00,训练效率比同类最优模型提升240倍(1.5小时vs 360小时)[19] - 具备"即插即用"特性,兼容Unitree Go2/B2/H1-2等主流机器人平台,在真实世界实现开放世界适配、多目标追踪等四大突破[21][24] 技术架构 三大核心模块 - LLM任务规划器:可拆解复杂指令为连续子任务(如"先跑向椅子,再靠近行人")并动态调整顺序[18] - 开放词汇视觉检测:识别范围从背包/盆栽到汽车/宠物等非预定义类别目标[18] - 语言-运动模型(L2MM):将文字指令直接转化为精确运动向量,实现"说走就走"的精准控制[18] 抗干扰设计 - 拉普拉斯方差滤波技术:通过清晰度特征分析过滤模糊帧,使有效检测帧比例提升25%[12] - 自适应执行逻辑:目标丢失时自动切换搜索模式,新指令可无缝衔接,外力干扰下快速重规划[15] 性能表现 仿真测试 - 在停车场/城市街道/雪地村庄等场景中: - 成功率(SR)1.00,超越EVT(0.94)和TrackVLA(1.00)[19] - 训练时间1.5小时,效率较TrackVLA(360小时)提升240倍[19] - 平均性能得分499.75,接近满分500[20] 真实场景 - 开放世界适配:可识别汽车至背包等不同尺寸目标[24] - 多目标追踪:连续完成"找椅子→找行人→找背包"任务无中断[24] - 动态鲁棒性:在螺旋楼梯/杂草丛等复杂地形稳定跟踪移动目标[24] - 抗干扰能力:目标移动或碰撞后能快速重新锁定[24] 应用价值 - 打破传统机器人导航的场景限制,推动家庭服务/工业巡检/野外科研等领域的实际应用[21][23] - 通过"通用框架+轻量化部署"设计理念,加速实验室技术向商业化落地转化[23]
通用全身机器人操控更进一步!学习现实世界全身操控任务的统一框架
具身智能之心· 2025-07-27 09:37
核心观点 - 打造通用智能机器人需模仿人类进化轨迹,通过与环境持续互动学习并由模仿人类行为推动,面临机器人硬件设计、遥操作界面开发和学习算法创建三大挑战 [4] - 提出的星尘机器人套件(Astribot Suite)整合了高性能机器人平台、直观遥操作界面和全身视觉-运动策略算法,在需全身协调的任务中展现有效性 [4][7] - 该套件通过硬件系统、数据收集方法和学习算法的紧密整合,为现实世界通用全身机器人操控奠定基础 [4][7][28] 硬件系统 - 星尘机器人S1配备双7自由度手臂、4自由度躯干、2自由度头部和3自由度全向移动基座,垂直触及范围2米,水平触及1.94米,关键性能指标超过普通成年男性 [10][12] - 单臂载荷5公斤,夹具开合最快0.15秒,末端执行器最大速度≥10m/s,最大加速度100m/s²,定位重复精度±0.1mm [10][12] - 配备多模态传感器:头部立体RGB相机、手腕RGB-D相机(30Hz)、胸部RGB-D相机和底盘360度激光雷达,实现全场景感知 [12] - 移动基座最大线速度2米/秒,支持前后运动、横向平移和原地旋转 [13] 遥操作界面 - 采用Meta Quest 3S头显和操纵杆(总成本<300美元),支持第一人称(精细操控)和第三人称(大范围运动)双模式切换 [14][16] - 控制频率100Hz,端到端延迟20毫秒,图像传输延迟约100毫秒,示范轨迹重放成功率近100% [14][16] - 通过倾翻保护机制和基于模型的主动柔顺控制实现安全防护,接触冲击力缓解效果显著 [16] 学习算法 - DuoCore-WB算法在末端执行器空间对动作去噪,采用自我中心框架的delta姿态表示,仅用RGB观测训练,与VLA预训练管道兼容 [19][21] - 实时轨迹生成模块(RTG)通过二次规划优化解决动作块间不连续性问题,执行频率250Hz,将关节速度限制在安全范围内 [21][27] - 在六个代表性任务中平均成功率80%,末端执行器空间表示比关节空间精度更高,自我中心框架增量动作表示泛化能力更强 [26] 实验验证 - 遥操作界面下专家完成简单任务耗时比人类多28.27%,复杂全身任务多41.43%,非专家分别多60.93%和94.80% [25] - "递送饮料"、"扔玩具"等任务端到端成功率最高达100%,"按下垃圾桶盖"子任务因视觉对比度低成功率最低 [23][26] - RTG模块使速度峰值降低67%,轨迹漂移减少83%,显著提升执行稳定性和策略鲁棒性 [27] 未来方向 - 硬件增强:提升敏捷性和安全性,扩展传感器融合能力 [28] - 人机交互:开发更直观的智能交互方法 [28] - 模型优化:改进架构设计,实现大规模预训练策略的高效部署 [28]
重磅!清华×生数发布机器人通用大模型Vidar,高效泛化复杂物理操作达SOTA水平
具身智能之心· 2025-07-27 09:37
核心观点 - Vidar模型是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型,通过少样本泛化能力实现从虚拟到真实世界的关键跨越[2][4] - 该模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,仅需20分钟机器人真机数据即可快速泛化到新机器人本体,数据需求仅为行业领先方法的1/80至1/1200[4] - Vidar通过解构具身任务执行范式,利用"海量通用视频-中等规模具身视频-少量机器人特定数据"的三级数据金字塔,实现了视觉-语言模态和动作模态的完全解耦[8] 技术突破 跨本体泛化 - 突破传统VLA模型需要海量多模态数据的限制,解决动作数据稀缺和机器人本体不统一两大难题[7] - 通过统一观测空间、75万条双臂机器人数据预训练和20分钟目标机器人微调的三阶段方法,实现少样本泛化[14] - 具身预训练使Vidu2.0在主体一致性(0.565→0.855)、背景一致性(0.800→0.909)和图像质量(0.345→0.667)三个维度显著提升[13] 逆动力学模型 - 提出任务无关动作(Task-Agnostic Action)概念,实现三大优势:数据易采集、跨任务泛化、无需人类监督[15] - 开发ATARA方法实现10小时自动化采集即可解决跨本体问题,AnyPos模型使动作预测准确率提升51%,任务重放成功率接近100%[16][18] - 掩码逆动力学模型架构能自动捕捉机械臂相关像素,实现跨背景高效泛化[24] 性能表现 - 在16种常见机器人操作任务上成功率远超基线方法,尤其在未见任务和背景上展现突出泛化能力[27] - 视频预测与真机执行结果高度一致,能准确完成语义理解、双臂协作等复杂任务[29] - 测试时扩展(Test-Time Scaling)技术提升模型在实际应用中的视频预测表现和可靠性[13] 技术背景 - 基于生数科技视频大模型Vidu的技术同源创新,延续雷达感知隐喻突出虚实结合能力[31] - 采用多模态生成模型架构达到SOTA水平,强化对物理世界认知反哺数字内容创作[31] - 团队核心来自清华大学TSAIL实验室,在ICML、IJCAI等顶会发表多篇论文,获多项国家级荣誉[33][36] 应用前景 - 突破多任务操作和环境变化应对能力瓶颈,为服务机器人在居家、医院、工厂等复杂环境应用奠定基础[29] - 架起虚拟算法演练到真实自主行动的关键桥梁,推动AI在物理世界的实际服务能力[29] - 通过具身视频基座模型实现虚拟与现实的深度交互,提升人类与机器人的协同生产力[31]
群核科技发布3D高斯语义数据集,给机器人装上“空间大脑”
具身智能之心· 2025-07-26 10:45
3D高斯语义数据集InteriorGS - 公司发布全球首个适用于智能体自由运动的大规模3D高斯语义数据集InteriorGS,包含1000个3D高斯语义场景,涵盖超80种室内环境 [2] - 该数据集首次将3D高斯技术引入AI空间训练领域,结合自研空间大模型能力,兼具真实感与语义性 [5] - 数据集已在HuggingFace、Github发布,全球开发者可下载使用 [5] 3D高斯技术应用 - 3D高斯溅射技术凭借"扫描即可重建场景"优势,已在文物保护、空间设计等领域应用 [4] - 公司工程师利用该技术成功还原杭州一座60多年老照相馆空间,引发广泛关注 [4] - 公司搭建"3D高斯重建+空间大模型+物理仿真"训练数据生成新路径,可快速完成场景重建并赋予语义逻辑 [5] 空间智能平台布局 - 公司SpatialVerse平台积累海量可交互三维数据与物理仿真工具,其InteriorNet数据集为全球最大室内场景认知深度学习数据集 [7] - 平台目标是成为空间智能领域的"ImageNet",为AIGC、XR、具身智能等领域提供训练基础 [7] - 公司开源空间理解模型SpatialLM曾登上Hugging Face趋势榜前三,获谷歌与斯坦福联合研究论文引用 [7] 行业合作与影响 - 公司已与智元机器人、银河通用、穹彻智能等具身智能企业达成合作 [7] - 公司首席科学家提出Sim2Real是当前最高效的具身智能训练范式,计划联合行业推进"现实-虚拟-现实"范式 [8] - 通过3D高斯语义数据集发布和机器人大赛,吸引全球开发者参与技术发展 [8]
具身智能之心求职交流群来啦!!!
具身智能之心· 2025-07-26 10:45
应广大粉丝的要求,我们开始正式运营具身相关的求职社群了。社群内部主要讨论相关具身产业、公司、产品 研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加入我们! 具身智能之心求职与行业交流群成立了! 微信扫码添加小助理邀请进群,备注昵称+具身求职; ...
开源!智元机器人正式发布首个具身智能操作系统参考框架:“智元灵渠OS”
具身智能之心· 2025-07-26 10:45
行业动态 - 2025世界人工智能大会主论坛以"技术-合作-普惠"三层递进结构展开,汇聚全球AI顶尖专家探讨AI未来发展[1] - 具身智能成为大会焦点,智元机器人作为唯一具身智能代表亮相[1] - 行业正从工具属性向伙伴关系跨越,人机协作将突破传统边界并在工业、家庭、服务等场景创造新价值[2][3] 公司技术突破 - 智元机器人发布业界首个具身智能操作系统参考框架"智元灵渠OS"开源计划[1][3] - 灵犀X2人形机器人展示"本体+运动/交互/作业智能"能力,肢体动作丝滑流畅且能自主生成高质量问答[2] - 机器人具备理解、预判、协同能力,现场演示中展现出拟人化表达与动态交互[2] - 操作系统采用"分层开源、共建共享"模式,底层基于已开源的高性能中间件AimRT[4] 产品技术架构 - 灵渠OS底层提供分布式群体实时通信、硬件抽象等基础服务框架[4] - 上层开放智能体服务框架,支持交互、作业、运动等智能基座模型的标准化对接[4] - 配套丰富工具链,涵盖开发调试、仿真验证、部署管理、数据录制等能力[4] - 系统将于2025年第四季度开始逐步开源[4] 行业定位 - 灵渠OS定位为具身智能产业生态基石,类比PC时代的Windows和移动互联网时代的鸿蒙[4] - 系统承上启下,南向适配多样化具身硬件、北向支撑丰富智能应用[4] - 公司已开源高性能中间件AimRT,将持续增强基础操作系统并开源智能体服务框架和工具链[4] 公司愿景 - 致力于打造有生命的科技,构建有温度、有价值、可信赖的人机协作生态[3] - 以开放姿态引领行业协同发展,为具身智能规模化商业落地注入动能[5] - 计划与产业界开源共建具身智能操作系统生态,聚力突破智能化提升、群体协同、云边端融合等技术挑战[4]
弗吉尼亚大学提出Moving Out:实现物理世界人机无缝协作!
具身智能之心· 2025-07-25 07:11
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Xuhui Kang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 写在前面&出发点 在物理世界中,人类协作时能快速适应物体的物理属性(如大小、形状、重量)和环境约束(如狭窄通 道、受力要求),这种能力对机器人等具身智能体与人类高效协作至关重要。然而,现有研究多聚焦于离 散空间或任务层面的人机协作,简化了交互动态,难以应对物理接地场景中连续状态-动作空间的复杂性、 多样的物理约束及人类行为的多样性(Figure 1)。 例如,AI-AI协作可通过自博弈实现良好性能,但这类智能体往往难以适应人类伙伴的多样且不可预测的行 为,尤其是在物理场景中,人类动作的微小变化(如抬升角度、施加的力)都可能显著影响结果。因此, 亟需一个能仿真物理交互和多样协作场景的基准,以及相应的方法来提升智能体的适应性和泛化能力。 核心创新点 主要工作 Moving Out环境设计 基于2D物理仿真平台Magic ...
正式开课啦!具身智能目标导航算法与实战教程来了~
具身智能之心· 2025-07-25 07:11
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航通过赋予机器人自主决策能力成为最具代表性的方向 [2] - 目标驱动导航要求智能体在陌生三维环境中仅凭目标描述(坐标、图片、自然语言)自主完成环境探索与路径规划,实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 技术落地需解决语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避开移动障碍)等挑战,依赖计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化应用场景 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗、酒店及餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列实现药品、文件和餐食自主配送 [3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航任务,智元机器人集成目标驱动导航模块,特斯拉Optimus展示端到端操作能力 [3] 技术演进与生态发展 - Habitat仿真生态完整记录技术迭代轨迹,评测体系从点导航(PointNav)扩展至图像导航(ImageNav)、目标导航(ObjectNav)及移动抓取任务 [4] - 技术突破包括视觉预训练模型提升特征泛化能力,分布式强化学习框架(DDPPO)使PointNav任务SPL指标显著提升,大语言模型解决开放词汇导航难题 [4] - 当前技术梯度明显:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍物场景仍面临重大挑战 [4] 三代技术路线迭代 - 第一代端到端方法基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中SPL指标逼近人类表现 [5] - 第二代模块化方法通过显式构建语义地图分解任务,利用预训练视觉语言模型(如CLIP)实现跨模态语义对齐,零样本目标导航任务成功率显著提升 [5] - 第三代LLM/VLM融合方法引入大语言模型知识推理能力,生成语义指导的探索策略,并通过视觉语言模型提升开放词汇目标匹配精度 [7] 技术挑战与学习路径 - 目标驱动导航需综合自然语言处理、计算机视觉、强化学习和场景图知识,领域论文数量繁多且碎片化,入门难度高 [9] - Habitat生态研究缺乏高质量文档,学习过程中需结合实战完成闭环但缺乏系统指导 [9] - 课程设计聚焦三大核心:快速入门核心技术栈、构建领域研究框架、理论结合实践完成算法复现与部署 [10][11][12] 课程体系架构 - 第一章系统构建理论基础与技术谱系,对比分析三代技术演进路径(端到端训练、模块化架构、LLM/VLM融合) [16] - 第二章深度解构Habitat仿真平台技术架构,实践内容包括RGB/Depth相机配置、物理属性参数化及NavMesh路径规划算法调试 [17][28] - 第三至五章分别解析端到端导航(ZSON/PIRLNav框架)、模块化导航(SemExp/VLFM路径)、LLM/VLM驱动系统(InstructNav/3Dmem模型)的算法设计 [19][21][23] - 大作业要求复现VLFM算法并探索实机部署,涵盖占据地图构建、边缘探索点生成、值地图设计及仿真到真实场景迁移 [25][29] 行业应用与人才需求 - 目标学员包括机器人抓取领域从业人员、具身智能研究者、计算机视觉/自动驾驶转行者,需具备Python/PyTorch基础及3060以上显卡算力 [33] - 课程培养目标涵盖Habitat仿真开发能力、零样本导航技术落地、Sim2Real部署流程掌握,匹配科研与工业应用需求 [33]
开发者福利!一台机器搞定人形运控、强化学习、VLN/VLA
具身智能之心· 2025-07-25 07:11
产品概述 - TRON1是一款专为教育科研设计的一体化研究平台,支持验证人形运动控制、强化学习、VLN任务、VLA任务等多种功能[1] - 采用双足、双点足和双轮足"三合一"模块化设计,可快速切换、自由组合,一机支持多形态算法研发[1] - 一套产品可同步验证点足运动控制、双足人形运动控制和轮式运动控制,实现"买一得三"[1] 版本与功能 - 提供基础版本和EDU版本,EDU版本支持二次开发和外设加装[4] - 标准版不配置RGBD相机,EDU版配有RGBD相机并提供SDK和内置接口供二次开发[24] - 支持外设加装机械臂、深度相机、激光雷达等组件,扩展感知、操作和语音交互功能[6][11][13][18] 技术参数 硬件配置 - 感知拓展套件配备NVIDIA Ampere架构GPU,157 TOPS稀疏算力,16GB LPDDR5内存,256GB固态存储[16] - 语音交互套件搭载Jetson Orin NX模组,支持360°拾音,最大拾音距离4m,支持普通话和英语[19] - 机械参数:尺寸≤392mm x 420mm x 845mm,净重≤20kg,材质为铝合金+工程塑料[26] - 电气参数:48V供电,240Wh电池,续航≥2小时,支持快速换电[26] 性能指标 - 运动速度:点足/双足<1m/s,轮足最高速度≥5m/s[26] - 负载能力:约10kg(极限15kg),最大爬坡角度≥15°,最大落差高度15cm[26] - 关节参数:额定扭矩30Nm,峰值扭矩80Nm,峰值转速15rad/s[28] 开发支持 - 支持C++和Python两种开发语言,提供完善的SDK和开发文档[6][33] - 兼容NVIDIA Isaac、Mujoco、Gazebo等主流仿真平台,Sim2Real差距小[9] - 提供数据可视化工具、关节控制函数、仿真平台等开发者工具[28] - 配套丰富的使用教程,涵盖开箱、遥控、拓展开发、校准等全流程[29][37] 应用场景 - 仿人形步态开发、强化学习论证[6] - 移动操作任务(如VLA),支持"单臂+双足"或"单臂+轮足"模式[11] - 三维建图、重定位、导航及动态避障等感知任务[13] - 语音交互开发,适用于教育科普、导览解说等场景[18] - 复杂地形运动、移动操作+机械臂等测试场景[20][21]