Workflow
具身智能之心
icon
搜索文档
室内环境具身智能语义建图研究综述:进展、挑战与未来方向
具身智能之心· 2025-07-30 00:02
语义建图综述核心观点 - 全面回顾室内导航中语义建图方法 涵盖传统方法到深度学习最新进展 [4] - 提出基于地图结构和语义编码的分类框架 帮助研究者系统比较不同方法 [4] - 识别当前领域三大挑战:高内存需求 计算效率低下 开放词汇表支持不足 [4] 研究方法与背景 - 智能体需构建结合几何与语义信息的内部表示 语义地图是实现复杂任务的基础 [6] - 语义地图在自动驾驶 救援机器人等领域具有基础性作用 传统技术侧重几何精度而现代研究聚焦语义丰富性 [6] - 现有综述多关注下游应用 本文首次系统梳理地图表示本身的技术演进 [6] 分类框架 - 按地图结构分为空间网格 拓扑图 密集几何图和混合图四类 [7] - 按语义编码分为显式特征(物体类别标签)与隐式特征(学习到的嵌入表示) [7] - 该框架揭示不同表示在可扩展性 泛化能力等方面的权衡关系 [7] 地图技术演进 空间网格地图 - 三维矩阵结构存储密集语义信息 适用于室内导航但内存消耗大 [34][36] - 典型方法包括CMP使用ResNet特征投影 MapNet采用LSTM聚合 [38] 拓扑地图 - 图结构表示关键地标 内存高效但缺乏几何细节 [40][42] - NTS通过在线更新节点 LM-Nav利用CLIP特征实现开放词汇查询 [45] 密集几何地图 - 点云地图直接关联三维点与语义标签 保真度高但计算成本大 [51] - 神经场将场景编码为连续函数 实现紧凑表示但训练资源密集 [52][59] 语义编码技术 显式编码 - 存储具体语义标签(如"床"类别) 可解释性强但受限于预定义词汇表 [63][65] - 应用案例包括障碍物避碰(占用网格)和物体导航(Mask R-CNN检测) [64] 隐式编码 - 封闭词汇表使用ResNet等提取特征 开放词汇表借助CLIP实现零样本识别 [69][72] - VLMap实现像素级特征投影 ConceptGraphs支持自然语言查询 [73] 评估体系 - 外在评估依赖下游任务指标(导航成功率 操作精度) [77][82] - 内在评估直接测量地图质量(交并比 语义一致性) 但缺乏标准化框架 [84][99] 未来研究方向 - 开发开放词汇表 任务无关的通用地图表示 [100] - 优化动态环境下的实时更新与轨迹预测能力 [103] - 建立混合地图结构平衡几何精度与语义关系 [104] - 制定跨场景的统一评估指标体系 [105][108]
中科院自动化所!视觉-触觉-语言-动作模型方案与数据集制作分享
具身智能之心· 2025-07-30 00:02
视觉-触觉-语言-动作模型(VTLA)技术突破 - 提出VTLA框架 通过跨模态语言对齐融合视觉与触觉输入 在接触密集型任务中生成鲁棒策略 [2] - 构建低成本多模态数据集 包含专为指尖插入任务设计的视觉-触觉-动作-指令对 [2] - 引入直接偏好优化(DPO) 为VTLA提供类回归监督 弥合分类预测与连续机器人任务间的差距 [2] VTLA性能表现 - 在未知孔型上成功率超过90% 显著优于传统模仿学习方法(如扩散策略)及现有多模态基线(TLA/VLA) [2] - 通过真实世界孔轴装配实验验证卓越的仿真到现实(Sim2Real)迁移能力 [2] 相关技术资源 - 论文标题《VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation》发布于arXiv [3] - 知识星球「具身智能之心」提供完整技术细节 QA及未公开彩蛋 包含VR-Robo BridgeVLA等机器人领域前沿方案 [4]
智元机器人首席科学家罗剑岚老师专访!具身智能的数采、仿真、场景与工程化
具身智能之心· 2025-07-30 00:02
具身智能数据讨论 - 公司与多家传感器供应商合作,聚焦视觉触觉与高密度传感器联合研发,并构建跨平台数据采集API实现任务语义统一映射[2] - 机器人应用需达到95%成功率才能满足家庭场景需求,当前性能优化是主要门槛[2] - 仿真数据用于高效迭代但存在扩展性瓶颈,多模态大模型训练100%使用真机真实数据[2][3] - 合成数据仅用于工程迭代与模型调试,大模型训练阶段完全依赖真实数据[3][4] - 真实数据成本核心在于缺乏标准化采集机制,公司正尝试远程遥操、自动部署机器人等方式建立自动化数据工厂[6] 自动驾驶与机器人数据对比 - 自动驾驶要求99.99%安全水平,机器人开放环境操作同样需要高成功率,当前面临数据稀缺与工程伦理双重挑战[7] 具身大模型评估 - 行业缺乏通用benchmark,公司计划搭建统一真机测试场推动标准化评估[8][9] - 评估维度聚焦技术路线与性能表现,从Demo炫技转向全栈一体化产业闭环[9] - 世界模型基于统一平台实现视频生成、模型评测与策略训练,复杂场景处理能力突出[10] 技术路线争议 - VLA路线非最终方案,需结合大模型与优化策略提升成功率至远超ChatGPT的50%-60%水平[11] - 中美差异:美国重算法开源,中国强在工程集成与产业化速度[12] 遥操作与自主决策 - 自主决策需突破多模态信息融合、任务泛化与高成功率执行三大门槛[13][14] - 当前"失控"问题源于软件设计缺陷而非意识觉醒,通过安全兜底机制保障运行[14] - 通用能力需从垂直场景积累数据逐步演化,无法直接实现[15] 应用场景落地 - 部署流程分任务建模、场景迁移、适配与安全验证四步,软硬件协同是关键[17][18] - 工业场景因结构化程度高更易落地,需满足100%性能与节拍一致性[20][21] - 工商业将先于家庭实现规模化落地,长期家庭市场潜力更大[21] 技术路线选择 - 关节驱动与感知能力依赖模块化标准,行业需共建可插拔生态[22] - 家庭环境复杂性需通过垂直场景数据积累逐步攻克[22] - 执行速度慢源于过度依赖模仿学习,需引入专门优化训练提升[23] 未来发展方向 - 追求DeepSeek moment:接近100%成功率+高速执行+泛化能力,超越ChatGPT moment[24] - 数据驱动成为科学正名,通过统计显著性验证建立结论[25] - Transformer架构主流但效率待提升,类脑架构或更适合具身智能[26] 软硬件协同生态 - 构建平台化操作系统(机器人Android)统一硬件接口,与软件厂商开放合作[28][29] - 操作系统是基础设施,真正突破依赖算法与模型创新[30]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 06:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]
ERMV框架:针对操作任务的数据增强,显著提升VLA模型跨场景成功率
具身智能之心· 2025-07-28 13:19
研究背景 - 机器人模仿学习依赖4D多视图序列图像,但高质量数据收集成本高且稀缺,限制了视觉-语言-动作(VLA)模型的泛化与应用 [4] - 现有数据增强方法存在局限:传统方法仅针对单张静态图像编辑,多视图编辑依赖固定相机位置,视频生成模型受限于计算成本和误差累积 [4] 核心挑战与解决方案 - ERMV框架通过单帧编辑和机器人状态条件,高效编辑整个多视图序列,解决动态视图和长时间范围内的几何与外观一致性、低计算成本下扩大工作窗口、确保关键对象语义完整性等挑战 [6] 视觉引导条件 - 采用视觉引导策略解决文本提示歧义问题,通过图像修复或手动编辑生成目标引导图像,经CLIP编码器处理为嵌入向量,确保编辑在所有视图和时间步中一致传播 [7] - 数学表达:$${\mathcal{C}}_{g u i d e}=E_{C L I P}\big(x_{g u i d e}^{\prime}\big)$$ [8] 机器人与相机状态注入 - 注入相机位姿、机器人动作、运动动态条件等状态信息,经MLP和位置编码处理后输入网络,确保准确渲染场景 [9][12] 稀疏时空模块(SST) - 通过稀疏采样将长序列问题重构为单帧多视图问题,在固定计算预算下处理更宽的时间范围,降低计算需求 [10] - 建模联合概率分布学习稀疏帧集特征,保证时空一致性 [13] 极线运动感知注意力(EMA-Attn) - 通过学习运动诱导的像素偏移,适应动态场景,确保几何一致性 [14] - 注意力计算:$$A t t e n t i o n_{E M A}(q_{i},K_{j},V_{j})=\sum_{m=1}^{M}s o f t m a x\bigg(\frac{q_{i}\cdot k_{j,m}}{\sqrt{d_{k}}}\bigg)v_{j,m}$$ [18] 反馈干预机制 - 引入多模态大语言模型(MLLM)作为自动检查器,对比原始图像和生成图像,检查关键对象一致性 [21] - 仅在模型出错时请求专家介入,最小化标注负担 [21] 扩散模型基础 - 基于潜在扩散模型(LDM),在潜在空间中进行扩散过程,编码器将图像映射为潜在表示,模型训练目标是预测添加的噪声 [23] 仿真环境实验 - ERMV在SSIM、PSNR、LPIPS等指标上大幅优于单帧编辑方法Step1XEdit,体现优异的时空一致性 [25][27] - 用ERMV增强数据训练的RDT和Diffusion Policy模型在原始场景和未知杂乱场景中的成功率显著高于基线 [27][28] 真实世界实验 - ERMV能成功编辑真实机器人操作序列,准确保留核心对象的形态和运动 [29] - ERMV增强数据训练的ACT模型在真实世界中的平均成功率从0.52提升至0.91,未知场景从0.02提升至0.89 [30][32] 扩展能力 - 基于单帧初始图像和动作序列,ERMV可预测生成多视图时空图像序列,作为低成本策略验证工具 [35] - 将仿真图像编辑为真实风格,生成"伪真实"4D轨迹,减少对高保真物理仿真的依赖 [37] 消融实验 - 移除运动动态条件和EMA-Attn后,模型无法生成真实运动模糊 [39] - SST模块相比密集采样减少50%GPU内存需求,提升模型性能 [41][43] - 禁用反馈干预机制后,长序列编辑出现质量下降和语义偏移 [43]
近2000人了!这个具身领域的黄埔军校做了哪些事情?
具身智能之心· 2025-07-28 13:19
行业与公司研究分析 具身智能行业现状 - 国内首个具身全栈社区"具身智能之心知识星球"已形成产业、学术、求职、问答交流的完整闭环 [1][7] - 社区成员覆盖斯坦福大学、清华大学等30+国内外顶尖高校实验室及智元机器人、优必选等20+头部企业 [9] - 行业技术路线覆盖40+开源项目、60+数据集,包含强化学习、多模态大模型等25个细分方向 [9][10][34] 核心资源体系 - 学术资源:汇总40+开源项目、60+数据集、主流仿真平台及25个技术学习路线 [9][26][30][32] - 产业资源:建立与多家具身公司的内推机制,汇总30+研报及零部件品牌信息 [2][16][19][24] - 人才资源:提供从入门到进阶的完整学习路径,包括技术栈、项目方案及求职指导 [3][5][14] 社区运营模式 - 内容体系:包含高校/公司数据库、技术文档、直播分享等9大板块,形成结构化知识库 [13][16][21][67] - 专家网络:聚集数十位产业界/学术界专家,定期举办圆桌论坛和答疑活动 [2][69] - 服务闭环:实现"学习-交流-求职"全流程支持,日均处理114+专业咨询 [70] 技术发展重点 - 前沿方向:重点布局多模态大模型(15个子领域)、强化学习(4类方案)、机器人导航(3大应用) [34][43][45][53] - 硬件生态:系统梳理ToF相机、传感器、机械臂等核心零部件供应链 [24][28][41][62] - 仿真平台:整合Isaac Sim等主流工具,支持sim2real等关键技术验证 [32][57][70]
AI Lab发布『书生』具身全栈引擎,推动机器人大脑进入量产时代
具身智能之心· 2025-07-28 13:19
核心观点 - 上海人工智能实验室发布具身全栈引擎Intern-Robotics,通过仿真、数据、训测三大引擎解决行业标准不统一、数据成本高、研发周期长等核心痛点 [3][4][9] - Intern-Robotics实现"一脑多形"适配10余种机器人形态、"虚实贯通"数据成本降至前代0.06%、"训测一体"一键启动模型训练 [6][10] - 同步启动"具身智能光合计划",联合15家企业机构加速技术突破工业红线,已助力合作方性能提升40%以上 [5][20] 技术突破 一脑多形 - 开发一套模型适配机器狗、人形机器人等10多种主流形态,掌握导航、操作等核心技能,避免跨本体重复开发 [9][11] - 采用可扩展数据合成和模型架构,提升跨形态适配能力 [9] 虚实贯通 - 融合真机实采与虚拟合成数据,数据成本较前代降至0.06% [6][10] - 首创Intern·Data系列虚实混合数据金字塔,单台服务器日合成数据5万条,成本较6个月前降低66% [14][15] - 提供17类任务与15种原子技能的500万仿真数据,覆盖2万种场景 [15] 训测一体 - 全任务工具链支持6大任务、20多数据集、50多模型,几分钟完成训测部署 [10][15] - Intern·VLA模型在10项导航任务中国际领先,操作任务真机成功率超业界顶尖15% [19] 三大引擎 仿真引擎 - 基于Intern·Utopia实现1行代码跨本体部署、3行代码定义任务、5分钟上手 [13] - 支持同步/异步多机仿真模式,破解算法与底层控制耦合难题 [13] 数据引擎 - 结合生成式AI与十万级场景资产,构建可交互场景Intern·Scenes [14] - 通过Intern·LandMark神经渲染技术合成高保真物理交互数据 [14] 训测引擎 - 提供Intern·Nav等工具库,兼容不同平台配置与模块化框架 [16] - Intern·VL3多模态基座实现"感知-想象-执行"一体化架构 [18] 光合计划 - 首批15家机构包括智元机器人、宇树科技等,推动技术突破工业红线 [5][20] - 与上海国地中心合作提升异构机器人数据采集速度与任务规划准确率 [5] - 提供全周期支持:技术验证指导、自动化标注工具、稀缺数据共享 [20]
找不到合适的公司与岗位?具身智能之心求职交流群来啦!!!
具身智能之心· 2025-07-28 07:14
具身智能之心求职与行业交流群成立了! 应广大粉丝的要求,我们开始正式运营具身相关的求职社群了。社群内部主要讨论相关具身产业、公司、产品 研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加入我们! 微信扫码添加小助理邀请进群,备注昵称+具身求职; ...
从今年的WAIC25看具身智能的发展方向!
具身智能之心· 2025-07-28 07:14
具身智能行业发展现状 - 2023年世界人工智能大会(WAIC)上具身智能成为焦点 参展公司数量多且产品形态多样 其中宇树科技的铁甲拳王机器人展示出敏捷动作和强稳定性 [1] - 移动操作类机器人应用场景丰富 涵盖服务机器人和工业机器人 但在人工干涉情况下(如关门或物品移动)仍存在认知困难 鲁棒性有待提升 [3] - 灵巧手技术取得进展 灵心巧手和傲意科技等公司产品出货情况良好 触觉和力控方案已成为行业标配 [7] - 自主决策技术尚不成熟 现场多数人形机器人仍依赖遥控操作 从指令到自主导航/决策的稳定性不足 医疗领域产品功能仍较简单 替代护工还需时日 [8] 技术发展趋势 - 行业从demo展示转向产业闭环 功能模块逐步融合 形成以大模型为核心的统一技术范式 [8] - 多家公司推进全栈进程 涵盖数据采集、策略制定到系统部署 加速商业化落地 [8] - 视觉-语言-动作(VLA)模型取得突破 SafeVLA成为首个安全架构 BridgeVLA实现32%真机性能提升 [11] - 3D视觉定位技术TSP3D效率显著提升 多传感器融合框架RDP整合视触/力觉模仿学习 [12] - 具身4D世界模型EnerVerse和空间智能方案推动可泛化发展 [12] - 强化学习框架Reason-RFT面向具身推理 双臂机器人扩散大模型规模全球领先 [14] 行业生态建设 - 具身智能之心社区汇聚近200家企业和机构 包括斯坦福、清华等高校和优必选、小米等企业 [21] - 建立40+开源项目库 60+数据集 覆盖感知、交互、强化学习等30+技术路线 [21][22] - 汇总国内外40+高校实验室和机器人公司 涉及教育、医疗、工业等多领域 [25][27] - 整理行业研报、技术书籍、零部件品牌等10大类资源 包括30家头部企业分析 [29][32][34] - 构建仿真平台矩阵 涵盖通用场景和真实场景仿真工具 [42] - 建立岗位内推机制 连接企业招聘需求与人才资源 [13][19] 技术创新方向 - 感知技术:发展3D视觉定位、触觉感知、视觉语言导航等方向 形成完整学习路线 [46][50][52] - 交互技术:整合抓取检测、视觉语言模型、具身问答等模块 [48] - 多模态融合:推进图像/视频/音频/3D数据与文本的相互理解和生成 [54][56] - 模型优化:聚焦大模型微调、量化推理和轻量化部署 [58][65] - 硬件集成:完善双足/四足机器人、移动机械臂等系统设计方案 [70][72] - Sim2Real技术:开发视觉导航与运动控制的真实-仿真统一框架 [14][66]
准备扩大具身团队了,拉一些人搞点事.......
具身智能之心· 2025-07-28 07:14
行业发展趋势 - 具身智能领域发展迅速 多家明星公司准备上市 [1] - 技术孤立和闭塞不利于产业发展 鼓励行业积极交流 [1] - 公司期望汇聚全行业人才 推动行业进步 [1] 项目合作计划 - 在北京 上海 深圳 广州 杭州 武汉建立项目研发团队 [3] - 每个城市招募10名左右具身领域学术与工程人才 [4] - 要求具备2年以上具身算法和机器人研究经验 [4] - 承接各类横向 纵向项目 企业咨询 [3] 教育研发与咨询服务 - 邀请具身领域专家开发在线课程 提供企业咨询和辅导业务 [5] - 涉及方向包括大模型 多模态大模型 Diffusion VLA 强化学习等 [5] - 要求博士及以上学历 工业界需2年以上研发经验 [6] 人才待遇 - 提供大比例分红和全行业资源共享 [7] - 可兼职或全职 [7] 联系方式 - 扫码咨询负责人 备注具身智能之心+老师咨询 [8]