Workflow
具身智能之心
icon
搜索文档
重磅分享!A0:首个基于空间可供性感知的通用机器人分层模型
具身智能之心· 2025-06-25 13:52
机器人操作的核心挑战 - 通用化操作能力是机器人技术发展的关键瓶颈 机器人需要准确理解"何处施力"和"如何移动"等空间可供性感知问题[3] - 现有方法分为两类 基于模块化的方法对物体可供性捕捉有限 端到端VLA大模型缺乏对空间位置的深入理解[3] - 在擦白板、堆叠物体等复杂任务中表现欠佳 制约行业发展[3] A0模型的技术创新 - 具身无关可供性表征 整合四类数据源的操作知识 包括互联网数据100万单接触点标注、人机交互数据22,000条轨迹等[6][8] - 分层扩散模型架构 采用基于DiT的扩散模型 输入T×2高斯噪声 预测T个2D路径点 使用Qwen2.5-7B和SigLip作为编码器[9][10] - 两大创新模块 位置偏移注意力(POA)获取运动信息 空间信息聚合层(SIAL)将特征映射为2D路径点[13] 训练与执行流程 - 两阶段训练 预训练阶段使用100万规模数据集 微调阶段扩展至T个路径点预测[11] - 动作生成三步流程 2D→3D投影利用深度图和相机内参 抓取姿态估计调用GraspNet 路径点选择与执行在SE(3)空间插值[14][15][16] - 推理阶段使用DPM-Solver DiT前向和后向过程分别设置为1000和5步[11] 实验结果 - 离线评估 预训练使HOI4D-22k和ManiSkill-5k数据集的像素值MAE分别降低47.5和5.5[17] - 真实场景测试 在Franka平台平均成功率62.5% 较次优方法提升18.75% 在Kinova平台达到53.75%成功率[22][23] - 擦白板任务表现突出 成功率45% 较VLA方法RDT-1B和π0高出15% 执行步骤仅需4-5步[26] 应用前景与团队背景 - 应用潜力 家庭服务、工业操作和居家康养等场景 正在开发智能康养机器人[24] - 团队背景 成员来自CMU、清华、北大等顶尖院校 在顶级会议发表数百篇论文[24] - 未来方向 优化抓取姿态估计和高度估计 推动具身智能技术突破[27]
今年秋招靠什么卷赢那些top实验室啊?
具身智能之心· 2025-06-25 08:24
行业技术发展 - 自动驾驶和具身智能成为AI技术突破的主线 占据近一半技术路线和融资金额 [1] - L2~L4自动驾驶功能实现量产 人形机器人完成跳舞等复杂动作 四足机械狗适应多地形运动 [1] - 行业对技术和人才需求明确 技术自媒体在自驾、具身智能、3D视觉、机器人领域积累大量内容 [1] 求职社区功能 - AutoRobo知识星球覆盖机器人、自动驾驶、具身智能方向 提供求职匹配服务 成员近1000名 [1][2] - 成员包括地平线、理想汽车、华为等企业社招人员 以及2024-2025届秋招学生 [2] - 社区内容包含面试题库、面经、行业研报、谈薪技巧、内推资源和简历优化服务 [2][6][17] 岗位资源 - 实时更新算法、开发、产品等岗位信息 涵盖校招、社招、实习机会 [3] - 寒武纪持续招聘2026届实习生 涉及C++开发、PyTorch框架研发、软件测试等岗位 [4] 专业知识体系 - 自动驾驶领域汇总毫米波视觉融合、BEV感知、多传感器标定等12类技术百问题库 [7] - 具身智能方向包含Occupancy感知、视觉语言导航、Diffusion Policy等专项面试题库 [8][12] - 提供机器人、自驾、AI类专业书籍 以及行业研报分析技术路线、发展前景和产业链 [13][14][18] 面试经验 - 收录滴滴、英伟达、小米汽车等20家企业算法岗面经 涵盖代码题、项目细节等全流程 [15][19] - 总结面试基础技能树、转行经验、面试官建议等宏观指导 [16][20]
显示端到端VLA是什么?有哪些方法?
具身智能之心· 2025-06-25 08:24
显示端到端VLA模型 - 显示端到端VLA模型明确生成未来机械臂运动的图像,与隐式模型形成对立 [1] - 模型涉及逆运动学概念,用于计算物体关节运动以达到目标位置 [1][3] 逆运动学 - 逆运动学应用于机器人学、动画学和计算机图形学,根据目标位置计算关节运动 [3] - 核心步骤包括利用矩阵、三角学或迭代方法计算关节角度,解决多解性问题 [4] - 需要已知目标位置坐标和物体几何构造(如机械臂长度、关节限制) [6] 主要研究工作 UniPi - 将序列决策问题转化为文本条件视频生成问题,实现跨机器人操作任务的学习与泛化 [5] - 通过预训练语言嵌入和互联网视频资源实现知识迁移,支持新目标的组合式泛化 [5] Robodreamer - 通过视频生成的因子化分解学习组合式世界模型,解决泛化能力受限问题 [8] - 在RT-X数据集上成功合成针对未知目标的视频规划方案,性能超越传统基线方法 [8] LAPA - 提出首个无需真实机器人动作标签的无监督VLA预训练方法 [10] - 通过动作量化建模和隐式VLA预训练,利用互联网规模视频学习 [10][11] - 在语言条件控制、未见物体泛化和未知指令语义泛化任务上超越SOTA模型 [11] GR-1 - 首次证明大规模视频生成式预训练能显著提升视觉机器人操作性能 [14] - 在CALVIN基准测试中将成功率从88.9%提升至94.9%,零样本泛化从53.3%跃升至85.4% [15] - 采用GPT架构设计,支持大规模视频数据集预训练和机器人数据微调 [15]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-24 14:29
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 通过结合语言理解与物理操作能力 实现从虚拟到现实的跨越[1] - 全球科技巨头如Tesla、Boston Dynamics、OpenAI、Google等均在布局具身智能领域 代表性产品包括Optimus人形机器人、Atlas、机械手和RT-X项目[1] - 该技术将革命性改变制造业、服务业、医疗健康、太空探索等多个行业 应用场景涵盖精密装配、手术协助、家庭服务及危险救援[1] MuJoCo技术核心价值 - MuJoCo作为物理仿真引擎 是连接虚拟与现实世界的关键桥梁 提供高保真高效率的机器人训练环境[4] - 解决传统机器人试错学习的高成本与低效问题 仿真速度可达现实时间的数百倍 支持极端环境下的无损训练[6] - 采用先进接触动力学算法 精确模拟机器人与环境交互 支持并行化计算、多模态传感器建模及长时间稳定仿真[6] - 已成为学术界与工业界标准工具 被ICRA、IROS、NeurIPS等顶级会议广泛采用 Google、OpenAI、DeepMind等公司均依赖其进行研究[8] 具身智能实战课程体系 - 课程设计六个递进式模块 每周聚焦特定技术目标 涵盖MuJoCo基础、强化学习、机器人控制、多智能体系统及Sim-to-Real迁移[13][16] - 包含六个实战项目:智能机械臂控制(六自由度模型与PID控制器)、视觉抓取系统(物体检测与光照模拟)、强化学习运动技能(抛接球/平衡控制)、自适应MPC控制、多机器人协作、Sim-to-Real迁移验证[19][21][23][25][27][29] - 采用PyTorch、Stable Baselines3等工具链 强调工程规范与调试技巧 项目均来自中国机器人企业实际应用场景[10][29] 技术能力与职业发展 - 学员将掌握MuJoCo仿真建模、强化学习算法设计、机器人控制理论及Sim-to-Real迁移等完整技术栈[32] - 职业路径包括机器人算法工程师(年薪30-150万)、AI研究工程师或仿真技术专家 产品经理方向年薪可达30-80万[35] - 课程采用离线视频教学与VIP群答疑模式 2025年7月15日开课 六周完成全部内容[37]
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 14:09
背景与动机 - 当前视觉语言模型(VLMs)在空间推理任务中存在显著不足,如物体位置/大小比较、多视角关系理解等[3] - 现有数据集存在三大局限:场景单一性(集中于室内/室外场景)、指令格式受限(仅支持自然语言或区域掩码)、多视角监督缺失(超90%为单图推理)[3] InternSpatial数据集 - 规模与结构:包含1200万QA对(950万单视图+250万多视图),覆盖5类场景(自然场景、室内、街景、物体中心、具身导航)[3] - 指令多样性:支持19种指令格式,显著优于对比数据集[3] - 视觉格式:提供原始图/带边界框图/掩码图/编号物体图等多种形式[4] - 文本格式:包含自然语言/带<ref>标记/坐标引用等,新增246万QA对的多视角旋转角度预测任务[6] InternSpatial-Bench评估基准 - 单视图诊断:包含6,008 QA对,涵盖位置比较(1845)、大小比较(1822)、旋转估计(409)、物体计数(899)、存在性估计(1000)五类任务[7] - 多视图扩展:在VSI-Bench新增1,000个旋转角度预测QA对[7] 数据引擎设计 - 采用三阶段自动化流水线:注释生成(复用现有注释或SAM2生成掩码)、视角对齐(构建标准3D坐标系)、模板化QA生成(预定义任务模板动态填充)[9] 关键实验结果 - 空间推理性能:InternVL-Spatial-8B模型在单视图任务中位置比较提升25%,多视图任务中物体计数提升17%(68.7 vs 51.7)[9][10] - 多任务表现:在物体计数、绝对距离、物体大小等7项任务中平均得分52.3,较基线提升10.7分[10] - 指令格式鲁棒性:训练后不同格式间准确率差距从23%缩小至5%以内[12] 当前不足 - 模板局限性:自动生成的QA对难以完全复现自然语言复杂度,部分描述机械化[12] - 开放推理欠缺:集中于结构化空间关系,缺少开放式场景推理(如物体运动轨迹解释)[12]
具身领域的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-24 14:09
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航通过赋予机器人自主决策能力成为最具代表性的方向[2] - 目标驱动导航要求智能体在陌生三维环境中仅凭目标描述(坐标、图片、自然语言)自主完成环境探索与路径规划,实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁[2] - 该技术已在终端配送、医疗、酒店及餐饮场景实现产业化落地,如美团无人配送车、Starship Technologies园区机器人、嘉楠科技服务机器人等[3] 技术发展历程 - 第一代端到端方法基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法通过显式构建语义地图,在零样本目标导航任务中展现显著优势,未见物体场景成功率提升明显[5] - 第三代LLM/VLM融合方法引入大语言模型知识推理能力,重点解决开放词汇目标导航中的未知类别识别难题[7][8] 产业应用现状 - 人形机器人领域加速渗透目标驱动导航技术,宇树科技Unitree系列、智元机器人、特斯拉Optimus均展示相关能力[3] - 医疗场景中美国Aethon公司TUG系列实现药品自主配送,云迹科技与擎朗智能的商用机器人提升服务响应效率[3] - 社交导航算法使配送机器人具备动态环境应对能力,美团无人车与Starship Technologies产品已在城市与园区部署[3] 技术生态与评测体系 - Habitat仿真生态完整记录领域技术迭代轨迹,评测体系从点导航扩展至图像导航、目标导航及移动抓取任务[4] - 视觉预训练模型提升特征泛化能力,分布式强化学习框架使PointNav任务SPL指标显著提升[4] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供方法论参考[4] 技术挑战与突破 - 当前PointNav和闭集ObjectNav接近人类表现,但开放词汇物体导航和动态障碍物场景仍面临重大挑战[4] - CMU与Stanford等机构推动动态环境下的语义地图更新技术,领域研究正从仿真优化转向实际部署[4] - 大语言模型通过跨模态对齐解决部分开放词汇导航难题,3D特征编码方法持续优化[23]
【万字长文】独家圆桌对话:具身下一站,我们究竟需要怎样的本体?
具身智能之心· 2025-06-24 14:09
圆桌背景 - 圆桌讨论聚焦具身智能领域机械臂构型设计问题 由格灵深瞳算法总监赵仲夏发起 [1][3] - 嘉宾来自智元机器人 清华大学等机构 涵盖算法 控制 硬件等多领域专家 [1][8] - 讨论内容包括机械臂自由度选择 末端执行器设计 双臂协同等核心议题 [4] 机械臂自由度争议 - 六轴机械臂是完成通用任务的最小解 但存在奇点和解空间不连续问题 [27][29] - 七轴机械臂更接近人体构型 能更好解决奇点问题 适合遥操作场景 [31][33] - 行业存在技术路线分歧:极简六轴方案利于算法收敛 仿人七轴方案可利用人类数据先验 [34][42] 构型设计关键因素 - 工作空间需匹配人类操作范围 避免遮挡和奇异点频繁出现 [38][47] - 减速器选择影响性能:谐波减速器精度高但力控差 行星减速器响应快但存在背隙 [56] - 具身机械臂需平衡力量 速度 灵巧性等参数 当前市场缺乏理想解决方案 [50][52] 末端执行器选择 - 灵巧手硬件成本高昂(单只6-7万元) 算法控制难度大 实际效用存疑 [60][63] - 夹具方案性价比突出 可完成90%灵巧手演示任务 [62][68] - 未来可能发展模块化末端 通过快装机构切换不同功能执行器 [64][66] 双臂协同价值 - 双臂在家庭服务等场景具有优势 但大幅增加系统复杂度 [73][76] - 单臂方案在物流等特定场景更高效 韩国已有移动单臂物流机器人落地 [72] - 遥操作双臂面临力控协调难题 当前技术难以实现精确双边力反馈 [76] 行业终局展望 - 短期聚焦L2级人机共驾 遥操作仍是核心技术保障 [79][89] - 数据采集方式可能变革 低成本摄像头方案或突破机器人数据瓶颈 [81] - 具身智能可能演进为人机交互平台 而非纯自动化设备 [82][84] - 语言交互存在局限性 动作交互蕴含更高信息量 需探索混合交互范式 [84][86]
一篇好的具身论文应该是怎么样的?
具身智能之心· 2025-06-24 07:27
论文辅导服务概述 - 公司专注于自动驾驶、具身智能、机器人领域的论文辅导服务,筹备近1年正式推出[2] - 公司是国内最大的AI类技术自媒体平台,旗下拥有自动驾驶之心、具身智能之心、3D视觉之心等IP,拥有顶尖学术资源[3] - 公司深刻理解交叉学科的挑战与机遇,明白高质量论文对学生学业和未来发展的重要性[3] 导师团队与优势 - 公司拥有300+专职于自动驾驶/具身智能方向的导师,来自全球QS排名前100的学校,发表过多篇顶会/子刊/A会/B会论文[3] - 导师团队实战经验丰富,熟悉顶级会议/期刊的审稿流程与偏好[8] - 导师匹配精准,根据学生具体研究方向匹配具有强相关研究背景和发表经验的导师[7] - 近3年辅导学员中稿率高达96%[3] 服务内容与流程 - 提供保姆式服务,覆盖选题、实验设计、论文写作、投稿策略等全流程[4][6] - 个性化深度辅导,1对1定制专属研究策略和解决方案[9] - 服务对象包括本科生、硕士生、博士生,涵盖课程论文、毕业设计、顶会顶刊投稿等需求[4] 辅导方向 - 自动驾驶方向包括大模型、VLA、端到端自动驾驶、3DGS、BEV感知、目标跟踪等[5] - 具身智能方向包括VLN、Diffusion Policy、强化学习、模仿学习、仿真等[5] - 机器人方向包括多传感器融合、SLAM、决策规划等[5] 解决的核心问题 - 帮助学生解决选题困难、实验方案失败、代码调试困难、论文逻辑混乱等问题[13] - 提供清晰的科研路径、突破性的研究思路、高效的解决方案、顶级的写作支持[13] - 提升论文录用概率,帮助学生掌握独立研究的方法论[13]
具身领域的目标导航到底是什么?有哪些主流方法?
具身智能之心· 2025-06-23 14:02
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱 [2] - 目标驱动导航要求智能体在陌生三维环境中仅凭目标描述自主完成探索与路径规划 [2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] 技术应用与产业化落地 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务 [3] - Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗、酒店及餐饮场景中,嘉楠科技、云迹科技等公司的商用服务机器人实现药品、餐食自主配送 [3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航任务 [3] - 特斯拉Optimus展示了"取放电池"等端到端操作能力 [3] 技术演进与评测体系 - 基于Habitat仿真的具身导航生态完整记录了领域技术迭代轨迹 [4] - 评测体系从点导航扩展到图像导航、目标导航及移动抓取任务,形成闭环 [4] - 当前技术进展呈现梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇导航仍面临挑战 [4] - Meta AI提出的Sim2Real迁移框架为仿真到真实部署提供方法论参考 [4] 三代技术路线迭代 - 第一代端到端方法:基于强化学习与模仿学习框架,在点导航任务中取得突破 [5] - 第二代模块化方法:通过显式构建语义地图,在零样本目标导航任务中展现优势 [5] - 第三代LLM/VLM融合方法:引入大语言模型知识推理能力,提升开放词汇目标匹配精度 [7][8] 技术学习挑战 - 需要掌握自然语言处理、计算机视觉、强化学习等多领域知识 [10] - 各领域论文数量繁多、知识碎片化,入门难度高 [10] - 基于Habitat生态的研究缺少高质量文档,提高学习门槛 [10] 课程特点与内容 - 基于Just-in-Time Learning理念,帮助学员快速掌握核心技术栈 [11] - 梳理目标驱动导航研究发展脉络,构建领域框架 [12] - 理论结合实践,配有实战环节完成闭环学习 [13] - 课程涵盖端到端导航、模块化架构、LLM/VLM驱动系统等核心内容 [16][19][21][23] - 大作业聚焦VLFM算法复现与真实场景部署 [25][31] 课程安排与受众 - 课程开课时间7月25日,3个月完成结课 [33] - 面向机器人抓取从业人员、具身智能研究者、计算机视觉专业人士等 [32] - 学员需具备Python和PyTorch基础,显卡3060及以上算力 [32]
从刮胡子机器人到双臂神技!这家具身独角兽引爆亿级美元融资热潮
具身智能之心· 2025-06-23 13:54
核心观点 - 具身智能技术取得重大突破,Generalist AI展示的机械臂完成高难度双臂协同操作,动作丝滑流畅,背后技术来自非夕科技的「拂晓」仿人自适应机器人 [3][4][6] - 非夕科技完成C轮亿级美元融资,由咏归基金、广发信德联合领投,资金将用于扩产、研发及生态拓展 [11] - 非夕科技的自适应机器人已在工业、消费及医疗健康领域实现规模化应用,连续三年年均超两倍业务增长 [8][34] 技术突破 - Generalist AI的演示展示具身智能在「物理交互灵巧性」与「感知—运动策略」上的突破,通过端到端模型训练实现多模态实时调整 [6] - 非夕科技的自适应机器人平台支持穹彻智能完成全球首次机器人刮胡子演示,展示开放环境中的高精细度自适应能力 [6] - 非夕科技牵头制定国家标准《机器人自适应能力技术要求》,填补国内外空白 [20] 产品与研发 - 非夕科技自研7自由度机器人Rizon拂晓,具备高误差容忍度、抗扰能力和智能可迁移性,突破传统工业机器人对结构化环境的依赖 [22][23] - 公司研发体系覆盖自适应机器人本体、层级式智能系统、操作系统,形成高度集成的通用机器人技术基座平台 [27] - 非夕科技通过「元能力」方式重构机器人操作系统,降低自动化应用门槛,提升部署效率 [26] 商业生态 - 非夕科技已支持数十家制造业集成商和设备商,并与西门子、3M等行业巨头合作打造标杆项目 [32] - 公司孵化具身智能企业穹彻智能,已完成天使轮到Pre-A++轮四轮融资,累计金额达数亿元人民币 [33] - 自适应机器人已实现千套级别批量交付,进入中国、北美、欧洲、日韩、东南亚等市场 [34] 应用场景 - 汽车领域:车门焊接飞溅打磨、座椅装配、车身内饰处理 [36] - 3C电子领域:手机折叠屏螺丝拧紧、FPC组件装配 [36] - 实验室自动化领域:生化实验与医疗检测效率提升 [36]