具身智能之心 - 财报，业绩电话会，研报，新闻

具身智能之心

搜索文档

具身智能之心· 2025-06-23 13:54

作者丨机器之心编辑丨机器之心点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。马斯克终于不「画饼」了！4.2美元坐特斯拉Robotaxi初体验：平稳但尚不成熟。马斯克也在 X 上发文祝贺：同时还透露，首批乘客将以「固定价格」4.20 美元搭乘。马斯克兑现了承诺。早在十年前，埃隆・马斯克就曾多次表示，特斯拉有能力推出无人驾驶服务，但后来却食言了。上周日，特斯拉终于在德克萨斯州奥斯汀正式启动了自动驾驶出租车服务。当然也可以付小费。评论区的网友一片欢呼：限定试运营，尚未全面开放目前，特斯拉的 Robotaxi 服务仅限受邀用户使用，并未向公众全面开放。首批试乘者主要为支持特斯拉的知名社交媒体博主和科技内容创作者，因此外界对其初步评价的客观性仍持保留态度。至于该服务何时正式向公众开放，特斯拉尚未给出明确时间表。此次小规模试运营共投入约 10 至 20 辆贴有「Robotaxi」标识的 Model Y 车辆。而去年首次亮相、备受 ...

SwitchVLA：无需额外数据采集，即可实时动态任务切换的轻量化VLA模型

具身智能之心· 2025-06-23 13:54

核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题，通过执行感知机制、轻量化网络架构(0.27B参数)及新型训练范式实现无需额外数据采集的高效任务切换能力[3][5][6] - 在单任务性能持平SOTA模型(如π0的3.3B参数)的同时，任务切换成功率显著提升：仿真环境中长串任务(A->...->F)成功率50%-83.3%，真机实验达54.2%-95.6%，远超现有方法(对比π0的0%)[16][17] 背景与问题定义 - 当前多任务VLA依赖独立采集的离散任务数据，导致任务切换时需严格匹配开始/结束状态，无法应对实时指令变更(如便利店场景中用户中途更改需求)[5] - 现有解决方案存在三大局限：大模型规划延迟(>100ms)、模仿学习需补采连接数据(成本高)、基于规则方法缺乏扩展性[6] 方法创新 1 任务切换表示 - 用"上一任务+当前任务+上一任务阶段(接触前/中/后)"替代传统任务描述输入，通过token拼接实现多模态融合[8][9] 2 模型架构 - 采用轻量级Florence-2-base VLM(0.23B)作为主干网络，结合Instruction & Contact Aggregator模块实现实时阶段感知[9][12] 3 训练流程 - 将任务简化为三阶段并定义对应动作：接触前(forward)、接触中(rollback)、接触后(advance)[12] - 创新数据采样算法：利用时间逆序数据生成rollback动作，通过状态插值生成advance动作，避免额外数据采集[13] 实验结果 - 在8个真机/仿真任务测试中，SwitchVLA在早期切换(Early Switch)场景成功率93.5%，远超π0(40.7%)和Open VLA-OFT(40.6%)[16][17] - 失败分析显示其有效解决四大失败类型：无切换(No Switch)成功率99.3%、中期切换(Mid Switch)75%、晚期切换(Late Switch)94.4%[16][17] 应用展望 - 计划部署于"天工"人形机器人，结合"慧思开物"平台赋能工业柔性生产和商业服务，实现高精度操作与快速响应能力[18][19]

具身智能之心· 2025-06-23 13:54

具身智能技术核心要素 - 入门具身智能需掌握数据+算法+本体三大要素其中数据采集依赖遥操和retargeting方案机械臂适用VR遥操+动捕手套方案成本20-30万[1] - 主流算法包括VLN、VLA、Diffusion Policy和强化学习技术迭代快需持续跟踪论文[1] - 硬件配置分两档：实验室级20-30万本体预算有限可采用3D打印或高性价比平台[1] 社区建设目标 - 计划3年内建成万人规模技术社区已吸引斯坦福、清华等高校及智元、优必选等企业成员[6] - 构建学术+产品+招聘完整生态链形成课程+硬件+问答的教研闭环体系[2] - 重点关注本体改进、数据采集效率提升、sim2real等前沿问题[2] 技术资源储备 - 汇总40+开源项目与60+数据集覆盖机械臂抓取、双足机器人等23个技术方向[9] - 包含国内外50+高校实验室和具身公司信息涉及教育、医疗等应用领域[6][14] - 整理机器人导航、动力学等专业书籍PDF及零部件厂商资料[18][20] 学习体系架构 - 设计16条专项学习路线包括强化学习全栈、视觉语言导航等细分领域[9] - 建立多模态大模型技术矩阵涵盖理解/生成/微调/部署全流程[40][42][44][51] - 提供仿真平台汇总包含通用机器人和真实场景两类解决方案[28] 行业服务功能 - 定期组织行业大佬直播内容可回看主题覆盖前沿技术与产业应用[58][59] - 提供30家头部公司研报和岗位推荐实现产学研直通[11][16] - 建立自由问答机制解决研究方向选择等实际问题[62]

隐式端到端VLA有哪些方法？领域一般是怎么分类的？

具身智能之心· 2025-06-22 14:47

隐式端到端VLA模型概述 - 隐式端到端VLA模型不明确生成未来机械臂运动的图像，与显示、分层VLA方法不同 [1] - 核心模块包含视觉特征提取(V)、视觉语言联合特征学习(V+L)、视觉语言动作联合训练(V+L+A) [1] 视觉特征提取模块(V) - 常用模型包括ResNet-18作为基础选择 [6] - 预训练模型可选R3M、VC-1、Voltron、Theia [6] - 效率优先采用EfficientNet，文本对齐需求选用CLIP/SigLIP [6] 视觉语言联合特征学习(V+L) - 小模型方案采用FiLM或Perceiver结构 [3] - 大模型方案基于MLLM基座如Paligemma [3] 视觉语言动作联合训练(V+L+A) - 关键是通过视觉特征定位对动作有用的区域建立VL-A映射 [7] 模型分类维度 - 按规模分为大模型/小模型VLA [13] - 按架构分为Transformer-based/Diffusion-based [14]

FindingDory：具身智能体记忆评估的基准测试

具身智能之心· 2025-06-22 10:56

研究背景与核心问题 - 长期记忆缺失是当前具身智能体的关键瓶颈，视觉语言模型（VLMs）在规划与控制任务中表现突出，但处理跨时空的多模态观察数据能力严重受限 [3] - 核心矛盾在于具身智能需整合长期历史经验（如"找到昨天未整理的玩偶"），但缺乏针对性评估框架 [3] 基准设计创新点任务架构 - 动态环境交互与记忆推理验证相结合 [4] - 主流VLMs仅能处理数百张图像，远低于真实场景的千帧级输入需求 [5] - 现有视频QA基准依赖选择题形式，无法评估物体操纵/导航等需细粒度推理的具身任务 [5] - 传统方法孤立评估记忆召回与决策执行，忽视二者在具身环境中的耦合性 [5] 动态环境构建 - 脚本代理在Habitat模拟器中执行物体抓取-放置（Pick-and-Place），产生400-3500帧交互视频 [6] - 采用HSSD数据集的107个训练场景，物体资产来自AI2Thor/ABO等真实数据集 [6] 任务分类体系 - 60类任务覆盖时空语义三维记忆挑战，包括空间关系、时序推理、属性记忆和多目标回溯 [7] 关键技术创新 - 程序化扩展通过增加Pick-and-Place交互数量线性提升任务复杂度 [9] 实验结果与关键发现 VLM记忆能力缺陷 - 在60类任务上的测试揭示三大瓶颈：长时序推理失效、空间表征薄弱和多目标处理崩溃 [13][14][16] - GPT-4o在交互顺序任务成功率仅14.5%，Gemini-2.0无法跟踪持续时间 [18] - 容器类任务的SC-SR比HL-SR高32%，表明VLM能识别目标但无法精确定位 [19] - 所有VLM在无序重访任务成功率接近0%，监督微调模型（Qwen-SFT）仅达20% [19] 高层规划与底层执行的割裂 - 高层VLM正确选择目标帧时，底层导航策略成功率仍下降40% [24] - 原生VLM（Gemini/GPT-4o）性能随帧数增加而下降，暴露长上下文无效利用 [20] - 监督微调模型（Qwen-SFT）能利用更长历史提升表现，验证定向训练的有效性 [25] 贡献与未来方向核心贡献 - 首个光真实感具身记忆基准，60类任务覆盖复杂家庭环境 [26] - 可扩展评估框架和细粒度诊断工具（HL-SR/LL-SPL等指标） [26] 未来展望 - 记忆压缩技术和端到端联合训练是未来发展方向 [26] - 基准可生成监督数据，推动视频QA技术发展 [26]

上海交大最新！DyNaVLM：零样本、端到端导航框架

具身智能之心· 2025-06-22 10:56

出发点与优化目标 - 导航是自主智能体领域的基础能力，需要融合空间推理、实时决策和环境适应能力，但人工系统复现这一能力仍面临巨大挑战 [4] - 传统导航方法存在泛化性差、可扩展性不足和部署困难等问题，因其依赖模块化设计和特定任务工程 [4] - 视觉语言模型（VLM）为导航领域带来新思路，但受限于空间粒度和上下文推理能力不足 [4] - DyNaVLM提出零样本、端到端导航框架，无需微调或接触导航特定数据即可直接作为导航策略使用 [4] DyNaVLM核心创新点 - 动态动作空间构建：通过视觉语言推理实现自由形式目标选择，摒弃固定运动原语，提升运动灵活性和导航效率 [6] - 协作图记忆机制：受检索增强生成（RAG）启发，开发动态知识图捕捉空间关系和语义对象信息 [8] - 无需训练的部署模式：无需任务特定微调即可直接应用于新场景，降低部署成本并提高泛化能力 [8] 系统架构与方法 - 问题形式化定义：输入包括目标描述、RGB-D观测和机器人位姿，输出为动作，采用极坐标参数化动作空间 [11] - 记忆管理器：维护动态知识图，实现持久空间知识表示、跨机器人记忆共享和上下文感知记忆检索 [12][13] - 动作Proposer：采用基于候选的离散化策略，将连续搜索空间简化为有限均匀采样点集合 [14] - 动作Selector：综合几何候选点、感知上下文和记忆生成最终导航动作，包括空间采样和安全感知过滤 [14][16] 实验评估 - 模拟环境评估：在ObjectNav基准上取得45%成功率和0.232 SPL，优于PIVOT和VLMnav等框架 [19][22] - 真实世界评估：部署在Unitree Go2机器人上，在定位多个目标任务中成功率和行进距离显著优于VLMnav [25][27] - 协作图记忆机制在长且复杂导航任务中表现关键，帮助跟踪已访问位置并有效规划未来移动 [22]

具身智能之心· 2025-06-22 03:59

昨天和朋友聊天，对比了自驾和具身的发展周期。自驾从15年许多硅谷的同学回来创业，到现在规模化、商业化已经近10年了。然而机器人产业已经发展了很多年了，相比于自驾我们认为后续更多是算法和数据上的突破（当然硬件也有，只是说已经取得了一定发展）。我们期望5-8年有真的可以商业化落地的机器人，这一点要比自驾来得快些。智元和宇树都在为上市做准备，如果真的有好消息，这对整个产业将会是一个极大的振奋。大家更要抓住这一波行业的机会，对我们来说，我们也一直在探讨究竟要做一个什么样的具身社区？能够承接学术和产业界！其中一个答案比较符合我们的思路，那就是一个能够凝聚行业人群、遇到问题能够快速响应、影响到整个行业的地方。我们目标是3年内打造一个万人聚集的具身社区，这里也非常欢迎优秀的同学加入我们。我们和多家具身公司搭建了学术+产品+招聘完整的桥梁和链路，同时内部在教研板块也基本形成了闭环（课程 + 硬件 + 问答）。社区里也能看到很多最新的行业观点、技术输出。现在本体是怎么样的？有哪些不足？数据采集的成功率和有效率怎么提升？sim2real怎么做的有效点？这些都是我们一直关注的。前面一直在想怎么帮助刚入门 ...

Embodied Intelligence

Robotics

具身智能社区

Embodied Intelligence

Robotics

具身智能社区

CVPR'25 | 感知性能飙升50%！JarvisIR：VLM掌舵, 不惧恶劣天气

具身智能之心· 2025-06-21 12:06

核心观点 - JarvisIR是基于视觉语言模型（VLM）的智能图像恢复系统，通过动态调度多个专家模型处理复杂天气下的图像退化问题，实现更鲁棒、更通用的图像恢复能力[5][9] - 系统在CleanBench-Real数据集上平均感知指标提升50%，显著优于现有方法[9][47] - 提出MRRHF对齐算法，结合监督微调与人类反馈，提升模型在真实场景下的泛化能力和决策稳定性[9][27] 方法详解 JarvisIR架构设计 - 核心思想是将VLM作为控制器，协调多个专家模型完成图像恢复任务[7] - 工作流程包括任务解析、任务规划、模型调度和结果整合四个步骤[10] - 首个将VLM作为控制器的图像恢复系统，能够自主规划任务顺序并选择合适的专家模型[9] CleanBench数据集 - 包含150K合成数据和80K真实世界数据，涵盖夜景、雨天、雾天、雪天等多种恶劣天气条件[12][15][18] - 每条训练样本是一个三元组（用户指令、退化图像、响应），支持训练与评估[18][19] - 填补了真实世界图像恢复数据的空白，推动社区发展[52] 两阶段训练框架 - 第一阶段监督微调（SFT）使用合成数据，目标是让VLM初步掌握图像恢复任务[23][25] - 第二阶段MRRHF对齐算法结合离线采样与在线采样策略，引入熵正则化项提升模型稳定性与泛化能力[27][30][33] - 总体损失函数由排名损失、微调损失和熵正则化损失三部分组成，协同优化模型[39][40] 实验与结果分析决策能力对比 - JarvisIR-MRRHF在工具决策能力上显著优于其他策略，得分6.21，排名4.8%[44] - 优于随机顺序和模型、预定义顺序和模型以及人类专家等策略[44] 图像恢复性能对比 - 在夜景、雨天、雾天、雪天四种场景下均优于现有all-in-one方法[45] - 具体指标如MUSIQ在夜景场景达到67.25，雾天场景达到74.22，显著领先其他方法[45] 技术亮点总结 - 首次将VLM应用于图像恢复系统的控制中枢，具备强大的上下文理解和任务规划能力[52] - 提出MRRHF对齐算法，解决真实数据无标签问题，提升泛化能力[52][53] - 发布高质量数据集CleanBench，推动社区发展[52][53]

视觉语言模型（VLM）

图像恢复

Artificial Intelligence

Artificial Intelligence

JarvisIR

CleanBench

具身场景新框架！Embodied-Reasoner：攻克复杂具身交互任务

具身智能之心· 2025-06-21 12:06

研究背景与动机 - 深度思考模型（如OpenAI的o1模型）在数学和编程任务上表现出色，但在具身领域的有效性尚未充分探索[7] - 具身任务需要模型具备空间理解、时间推理和持续自我反思能力，这与纯逻辑推理任务存在显著差异[7] - 研究旨在将深度思考能力扩展到具身交互任务，解决多模态交互和多样化推理模式等挑战[7] 核心框架设计 - 提出Embodied-Reasoner框架，整合视觉搜索、推理和行动能力以应对具身交互任务[3] - 设计数据引擎合成包含情境分析、任务规划等多样化思考过程的具身推理轨迹[3] - 开发三阶段训练流程（模仿学习→拒绝采样调整→反思调整）逐步提升模型能力[3] 任务与数据构建 - 基于AI2-THOR模拟器构建120个室内场景和2100个可交互物体[8] - 设计搜索/操纵/运输/复合四类任务，通过LLMs自动生成符合场景约束的指令[8] - 合成9390个任务指令及64k第一人称视角图像、8M思考标记的训练数据[12][13] 模型性能表现 - 在真实世界任务中成功率56.7%，显著高于OpenAI o1（50%）和o3-mini（43.4%）[17] - 复合任务性能比GPT-4o提升39.9%，长时域任务中推理标记量自适应增加[18] - 通过回忆和反思机制减少重复搜索行为，搜索效率提升24%[18] 技术实现细节 - 动作序列合成通过关联图推导关键动作，并插入额外搜索过程增强真实性[10] - 思考模式分析显示任务规划（35%）和空间推理（28%）出现频率最高[14] - 测试集包含809个案例和25个超长时域任务，采用成功率/搜索效率/完整性三指标评估[16] 未来发展方向 - 探索模型在更多具身任务类型的应用场景[19] - 提升真实世界环境中的泛化能力和适应性[19] - 优化数据引擎和训练流程以进一步提高性能[19]

技术圈热议的π0/π0.5/A0，终于说清楚是什么了！功能、场景、方法论全解析~

具身智能之心· 2025-06-21 12:06

π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术，包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据，通过权重调整处理不同机器人动作空间差异[3] - 训练流程继承PaliGemma VLM的语义知识，融合多模态输入(图像/语言/物理状态)[3] - 独立子网络(3亿参数)将VLM输出转换为连续动作，流匹配技术实现50Hz高频率动作序列生成[3] π₀优势与功能 - 零样本直接执行预训练覆盖的语言提示任务(如"fold shirt")[4] - 支持复杂任务多阶段微调(如叠衣服分解为4个子步骤)[5] - 语言指令跟随能力可将高层任务(如"bus the table")分解为子任务序列[6] - 流匹配技术实现50Hz精细操作，适用于衣物折叠等高精度场景[7] - 单模型适配多种机器人形态，降低部署成本[10] π₀性能分析 - 开箱即用性能：在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[11] - 微调效率：预训练类似任务仅需1-5小时数据微调，全新任务性能比从头训练提升2倍[11] - 复杂任务表现：叠衣服等任务通过"预训练+微调"实现60%-80%完成度[11] - 衬衫折叠成功率接近100%，复杂清理任务正确分类数量比Octo高40%[12] π0.5模型结构 - 采用双阶段训练框架和分层架构，基于Transformer实现多模态序列编码[13] - 分层推理机制：高级语义子任务预测+低级动作生成，结合离散/连续动作表示[16] - 预训练阶段使用400小时异构数据(97.6%非移动机器人数据)[16] - 后训练阶段引入动作专家模块优化实时控制，SigLIP视觉编码器(400M参数)+Gemma语言模型(2.6B参数)[16] π0.5优势与功能 - 异构数据驱动泛化：在未见过场景中执行任务，支持10分钟以上长时程操作[18] - 离散-连续混合训练比纯扩散模型效率提升3倍[17] - 多场景适应性：家庭环境清洁/整理任务，跨实体迁移学习能力[20] - 数据效率突破：仅用400小时移动数据(占2.4%)实现强泛化[21] π0.5性能分析 - 真实环境表现：未训练家庭中多阶段任务成功率60%-88%，单任务耗时10-15分钟[25] - 数据规模影响：104个训练位置时性能接近测试环境基线(差距<5%)[26][27] - 关键数据源：跨实体数据移除导致性能下降20%-30%，网页数据对未知物体泛化至关重要[28] A0模型结构 - 分层架构设计：高层空间Affordance理解+低层动作执行[29] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[30] - 预训练策略：100万接触点数据集预训练+标注轨迹微调[31] A0优势与功能 - 跨平台泛化：支持Franka/Kinova等机器人平台无缝部署[34] - 高效空间推理：通过接触点预测降低计算成本[34] - 数据利用效率：少量任务数据即可适应新场景[34] A0性能分析 - Franka机器人平均成功率62.5%，开抽屉任务达75%[35] - Kinova机器人轨迹跟踪任务成功率比基线高20%[35] - 擦黑板任务成功率比MOKA高15%-20%，执行步骤仅为RDT-1B的1/8-1/10[35]