Workflow
具身智能之心
icon
搜索文档
华科&清华最新DeepThinkVLA:如何让模型 “会思考、能落地”?
具身智能之心· 2025-11-24 10:02
核心观点 - DeepThinkVLA模型通过“混合注意力解码器+两阶段训练pipeline”的创新设计,解决了视觉-语言-动作模型中推理与动作生成的模态冲突问题[2] - 该模型在LIBERO基准测试中实现了97.0%的平均任务成功率,树立了VLA模型的性能新标杆[2] - 架构实现了推理与动作的深度协同,既让模型具备连贯推理能力,又保障动作生成的高效与精准[2][3] 技术架构创新 - 采用混合注意力解码器,在推理生成阶段使用自回归因果注意力,在动作生成阶段切换为双向注意力以支持高维动作向量的并行解码[4] - 通过两阶段训练pipeline(监督微调+强化学习)强化推理与动作的因果关联[6] - 将传统的“观察-指令→动作”直接映射分解为“观察-指令→推理”与“观察-指令-推理→动作”两步概率分解[10] 性能表现 - 在LIBERO基准的四大任务套件中平均成功率达97.0%,其中Object任务成功率99.0%、Goal任务96.4%、Long长程任务96.2%[15] - 相较于顶级自回归模型UniVLA(平均95.2%)和扩散模型π₀(平均94.2%)形成显著优势[15] - 推理延迟大幅降低,相对推理时间仅为0.175倍,为大规模强化学习的高速rollout提供可能[16] 训练与数据策略 - 构建包含273,465个标注帧的具身CoT数据集,通过两阶段标注pipeline平衡标注成本与数据质量[8][10] - 采用基于结果的稀疏奖励+格式正则化奖励设计,仅关注任务最终成功与否[11] - 引入KL散度惩罚正则化机制,避免模型遗忘SFT阶段学到的基础推理能力[11] 技术优势 - 推理学习更高效,复用VLM已有能力,无需海量数据[12] - 动作学习更简单,推理作为显式规划将“一对多”的模糊映射转化为明确映射[12] - 具备错误恢复机制,模型在执行错误时能通过思维链显式引导实现自我修正[10]
Aloha硬件交流群来了!
具身智能之心· 2025-11-24 00:04
公众号推广内容 - 公众号名称为"具身智能之心"专注于学术分享和技术交流 [1][2] - 提供具身智能全栈学习社区"具身智能之心知识星球" [2] - 建立Aloha技术交流群用于讨论移动操作相关技术问题 [2] - 交流群涵盖Aloha Mobile Aloha MiniAloha等各类本体的硬件和算法 [2] - 加入方式为添加微信AIDriver005并备注aloha进群+姓名+机构 [2]
具身智能下半场:南方阵营的崛起
具身智能之心· 2025-11-24 00:04
行业整体趋势 - 2025年具身智能行业热度持续处于高位,超出年初预期 [1] - 行业发展趋势清晰,南方阵营正在悄然崛起 [1] - 行业存在难以回避的问题,产品大多停留在"情绪价值"层面,真正能转化为生产力的寥寥无几 [3] 南方阵营代表企业:自变量科技 - 自变量科技2023年底成立,在不到两年时间里完成多轮融资,投资方包括美团等巨头 [1] - 公司近期传出即将完成100亿估值融资的消息,一旦落地将跻身全国第一梯队 [1] - 公司采用"大小脑协同"的技术路线,与硬件驱动型公司差异显著 [2] - 关于公司搬迁至海淀的说法大概率是捕风捉影 [1] 深圳具身智能产业格局 - 深圳作为南方科技桥头堡,目前头部具身企业似乎只有自变量一家,显得单薄 [2] - 逐际动力近期低调,核心聚焦本体研发,在通用具身大模型上投入和声量不足 [2] - 优必选、众擎机器人等玩家偏向传统机器人领域或处于初创培育期,尚未形成真正集群效应 [2] 香港及大湾区发展潜力 - 香港创业氛围升温,"港派创业"有望成为下一个看点 [2] - 香港大学、香港中文大学、香港科技大学在机器人感知、运动控制等领域研究积累深厚 [2] - 港科大孵化的戴盟机器人等企业已露出苗头 [2] - 香港的崛起能与深圳形成互补:深圳负责供应链整合、场景落地和商业化推进 [2] - 广州在具身智能赛道目前看不到诞生独角兽的迹象 [2] 行业应用与市场挑战 - 常见应用场景包括机器人跳舞、引流型自动售货机、文旅场馆仿生表演 [4] - 巡逻机器狗市场出现分化:在国内广泛应用于电力巡检、园区安防,成为国企和政府机构采购热点,但在海外市场鲜有人问津 [4] - 海外客户逻辑直接,认为可通过监控解决的问题无需花费数倍价格购买移动摄像头 [5] - 需求差异暴露了当前很多具身产品的核心困境,即并非不可替代,只是在特定市场环境下被"赋予"了价值 [5] 行业前景与挑战 - 南方阵营崛起之路并不平坦,深圳的"一家独大"需要更多梯队企业支撑 [5] - 香港的技术转化需要跨越"实验室到市场"的鸿沟 [5] - 整个行业亟待突破"情绪价值陷阱",找到真正能落地的生产力场景 [5] - 行业成功关键在于用技术解决实际问题,而非融资估值高低或产品噱头 [5]
小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!
具身智能之心· 2025-11-24 00:04
文章核心观点 - 小米推出首个跨领域统一模型MiMo-Embodied,成功整合自动驾驶与具身智能两大领域,在29项相关基准测试中取得SOTA性能[5] - 该模型基于MiMo-VL架构,由自驾与具身团队主导开发,采用四阶段训练策略实现跨领域能力协同提升[3][9][20] - MiMo-Embodied为7B参数规模的开源模型,在动态物理环境中的理解与推理提供统一解决方案[5][7][22] 模型解决的问题与创新点 - 解决现有模型局限于单一领域、缺乏跨场景泛化能力的问题,首次实现自动驾驶与具身智能任务整合[5][7] - 能力全面覆盖自动驾驶的环境感知、状态预测、驾驶规划三大核心能力,以及具身智能的可用性预测、任务规划、空间理解三大核心能力[8] - 通过精心设计的数据集与四阶段训练策略突破跨领域任务干扰,实现性能协同提升[9][20] 模型架构设计 - 核心组件包括基于MiMo-VL的ViT视觉编码器、MLP投影器和继承MiMo-VL权重的大语言模型[12][13] - 视觉输入处理采用高分辨率数据编码生成结构化视觉tokens,通过MLP转换确保与LLM输入空间兼容[14][15] - 支持单图、多图、视频等多种视觉输入,通过自注意力机制提取复杂特征[12] 训练数据集与策略 - 数据集涵盖通用数据集、具身智能数据集和自动驾驶数据集三大类别[17][18] - 四阶段训练策略包括:阶段1通用与具身知识学习、阶段2自动驾驶知识学习、阶段3思维链推理微调、阶段4强化学习微调[20][21] - 训练参数设置统一:批量大小512(阶段4为32)、学习率2×10⁻⁶(阶段4为1×10⁻⁶)、最大序列长度32768[20] 核心性能表现 - 在17项具身智能基准测试中,可用性预测在VABench-Point等5项基准取得SOTA,空间理解在CV-Bench等9项基准领先[23][24] - 在12项自动驾驶基准测试中,环境感知在CODA-LM等基准超越专用模型,驾驶规划在NAVSIM公开基准实现最优性能[23][25] - 具体性能指标:可用性预测VABench-Point得分82.30,空间理解CV-Bench得分88.82,自动驾驶MME-RealWorld得分58.55[22][26] 消融实验与真实任务验证 - 四阶段训练策略使具身任务平均性能达62.4%(较混合训练提升4%),自动驾驶性能达63.3%(较混合训练提升8.1%)[27][37] - 真实世界部署测试显示在具身导航任务中目标物体定位准确,在自动驾驶任务中生成轨迹更贴合人类驾驶逻辑[31][33][36] - 在具身操作任务中成功执行"将锅盖放在锅左侧"、"抓取左边面包放入第二高盘子"等复杂指令[33][34]
FreeAskWorld:交互式具身闭环仿真框架
具身智能之心· 2025-11-24 00:04
文章核心观点 - 清华大学提出的FreeAskWorld框架通过“LLM驱动的交互仿真+方向询问任务”的创新思路,解决了现有视觉-语言导航方案在社交交互性、动态适应性和场景真实性方面的三重困境 [1] - 该方案借助大语言模型实现人类行为模拟与动态指令生成,并通过闭环交互框架支持机器人主动求助与实时适应,最终在室内外混合场景中实现了社交化、动态化、真实化的具身导航与交互 [1] - FreeAskWorld的价值在于为具身智能提供了“用LLM模拟社交行为,用闭环交互实现动态适应”的清晰路径,为服务机器人的真实世界产业化提供了参考范本 [17] 技术方案设计 - 核心设计概括为“以LLM为行为中枢,以闭环交互为核心流程”,串联人类行为模拟、动态指令生成、社交导航执行和多模态数据记录 [5] - 包含三大核心组件:LLM驱动的人类仿真模块、方向询问任务以及数据集生成pipeline [5][7] - 具备四大核心功能:动态环境系统、机器人导航系统、闭环交互框架和场景重建能力 [11] 核心组件细节 - **人类仿真模块**:围绕“外观-行为-语言”三个维度展开,基于SMPL-X模型生成多样化虚拟人类形象,结合LLM生成人类档案和日程,并通过MotionX动画库实现平滑的社交动作 [7] - **方向询问任务**:允许机器人在导航过程中主动向人类求助,通过多轮交互获取关键信息,其流程包括自主导航、主动询问、指令解析和路径调整 [7] - **数据集优势**:涵盖室内外混合场景,包含63,429帧标注样本与17小时以上交互数据,平均指令长度达148词,支持连续动作空间 [8][12] 实验结果与性能 - **人类基线验证**:允许主动询问后,导航成功率从40.2%大幅提升至82.6%,导航误差从18.3降至3.49 [13][16] - **模型性能对比**:在开放环设置下,微调后的ETPNav-FT与BEVBert-FT模型的L2误差较基线降低约50%,其中BEVBert-FT表现最优 [13][16] - **场景适应性**:在包含相同店铺、动态行人的复杂场景中,支持询问的模型能通过与人类交互修正路径,证明该框架能有效评估机器人的高阶认知能力 [14] 行业启示与未来方向 - **核心启示**:主动社交交互是获取环境信息的重要途径,能弥补静态感知的不足;真实仿真需兼顾场景动态性、人类真实性和导航连续性 [19] - **现有挑战**:尽管微调后模型性能提升,但在社交合规导航、长程规划、动态障碍应对上与人类表现仍有较大差距 [16][19] - **未来方向**:包括支持更复杂的社交任务(如谈判、协作)、整合触觉与声音等多模态信息、开发更易用的端到端软件以及利用生成模型提升视觉保真度 [19]
毫末智行突然原地解散!宇宙第一正式下线
具身智能之心· 2025-11-23 02:11
公司运营状况 - 毫末智行于11月22日被社交媒体曝出已正式解散,公司账户冻结,赔偿方案尚未公布,经与内部人士核实消息属实 [2][3] - 公司自2023年起出现严重人才流失,去年职能部门裁员约三分之一至近半,数据智能科学家贺翔离职;今年包括董事长张凯、技术副总裁艾锐、产品副总裁蔡娜、品牌官王佳等多位技术骨干及公关负责人相继离职,整个公关团队几乎均已离职 [5] - 公司官方公众号自2024年6月起停止发布自身资讯,仅整理行业资讯,最新更新停留在10月1日的一张节日海报 [5] 公司历史与技术发展 - 公司成立于2019年11月29日,前身为长城汽车2015年成立的智能驾驶系统开发部,核心团队融合了长城汽车技术骨干及来自百度、华为等公司的人才 [6] - 研发进展迅速,2020年11月推出首款末端物流自动配送车“小魔驼”;2021年12月发布自动驾驶数据智能体系MANA,截至2023年其学习时长超62万小时 [6] - 2023年4月发布自动驾驶生成式大模型DriveGPT;其HPilot辅助驾驶系统3.0版本已打通高速与城市场景,截至2025年搭载于长城汽车近20款车型 [8] 市场地位与竞争格局变化 - 2024年3月,元戎启行开始为长城汽车提供端到端智能驾驶方案,包括无图城区NOA技术,并迅速搭载于长城多款车型 [8] - 业界认为毫末智行从长城的“亲儿子”变为“弃子”,其选择的高通Snapdragon Ride计算平台在研发中需克服较多新问题 [8] - 公司解散消息传出后,社交媒体上有相关车型用户对产品后续使用体验表示担忧和不满 [9]
移动操作的AlohaMini来啦!600美元成本,全开源
具身智能之心· 2025-11-22 16:03
产品核心定位 - 推出AlohaMini双臂移动机器人平台 旨在推动真实世界操作与具身AI研究的普及化[3][4] - 产品定位为面向家庭建造者和研究实验室的低成本开源解决方案[4] - 平台设计精美且完全支持3D打印 组装时间约为60分钟[5][8] 硬件配置与成本 - 物料清单总成本约为600美元 具备极高的成本可及性[3][5] - 采用双机械臂设计并配备电动升降系统 垂直行程达0-60厘米[5][10] - 搭载5个720p USB摄像头构成感知阵列 包括顶置 前向 后置及双机械臂摄像头[10][13] - 核心部件包括16个Feetech STS3215伺服电机 单价13.89美元 以及树莓派5计算平台 单价60美元[13] - 移动系统采用3个全向轮 单价36美元 并配备2个12V锂离子电池包 单价32.99美元[13] 软件生态与开源策略 - 硬件与软件完全开源 原生兼容LeRobot框架可实现开箱即用的训练与部署[5][8][12] - 通过GitHub平台开放全部源代码与设计文件 促进社区协作与创新[3][6] - 采用现代极简设计理念 兼具功能性与美学价值[12]
小米的MiMo-Embodied,到底讲的是什么?整合自驾和具身任务,29项SOTA!
具身智能之心· 2025-11-22 16:03
文章核心观点 - 小米推出首个跨领域统一模型MiMo-Embodied,成功整合自动驾驶与具身智能两大领域,在29项相关基准测试中取得SOTA性能 [5] - 该模型解决了现有模型局限于单一领域、缺乏跨场景泛化能力的问题,为动态物理环境中的理解与推理提供了统一解决方案 [5][7] - 通过精心设计的四阶段训练策略,实现了自动驾驶与具身智能能力的正向迁移与相互增强,性能显著超越单一领域训练和直接混合训练的方法 [9][27] 模型解决的问题与核心能力 - **解决跨领域统一性问题**:首次将自动驾驶(户外场景)与具身智能(室内场景)任务整合进单一模型,突破现有模型跨场景泛化能力不足的局限 [5][7] - **全面覆盖核心能力**:同时支持自动驾驶的环境感知、状态预测、驾驶规划三大核心能力,以及具身智能的可用性预测、任务规划、空间理解三大核心能力 [8] - **构建统一评估体系**:弥补了现有基准仅针对单一领域部分能力测试的不足,提供了全面的跨具身能力评估 [5] 模型架构与训练策略 - **核心架构组件**:基于MiMo-VL的ViT视觉编码器、MLP投影器以及负责文本理解与逻辑推理的大语言模型,支持单图、多图、视频等多种视觉输入 [12][13] - **四阶段训练策略**: - 阶段1:融合通用数据集与具身智能数据集,建立基础理解能力 [21] - 阶段2:注入自动驾驶专用数据,强化动态环境理解与安全关键任务能力 [21] - 阶段3:思维链推理微调,增强模型逻辑连贯性与决策透明度 [21] - 阶段4:强化学习微调,针对短板场景优化,提升输出精度与可靠性 [21] - **训练参数配置**:前三个阶段批量大小为512,学习率为2×10⁻⁶,第四阶段批量大小为32,学习率为1×10⁻⁶,均采用AdamW优化器和Cosine学习率调度 [20] 性能表现与基准测试 - **具身智能基准测试(17项)**:在可用性预测、任务规划、空间理解等领域全面领先,其中在VABench-Point基准得分为82.30,在Part-Afford基准得分为69.81,显著优于Qwen2.5-VL、GPT-4o等对比模型 [22][24] - **自动驾驶基准测试(12项)**:在环境感知、状态预测、驾驶规划等任务中表现优异,在CODA-LM基准得分为76.14,在NAVSIM基准得分为83.58,超越RoboTron-Drive等专用模型 [24][25][26] - **消融实验验证**:四阶段训练策略使具身任务平均性能达62.4%(较混合训练提升4%),自动驾驶性能达63.3%(较混合训练提升8.1%),显著优于单一领域训练方案 [27][38] 真实世界应用展示 - **目标物体定位**:在具身导航任务中能够准确指示目标物体位置(如床、吸尘器、植物、马桶),定位精度显著高于GPT-4o、Qwen2.5-VL等对比模型 [31][32] - **复杂操作任务执行**:能够理解并执行"将锅盖放在锅左侧"、"将粉色勺子放入锅中"等多步骤操作指令,展现出强大的空间推理与任务规划能力 [33][34] - **跨领域泛化能力**:模型在部署到下游具身操作任务时表现出色,验证了其在真实物理环境中的实用性与可靠性 [33][34]
从零把π0和π0.5部署上去!
具身智能之心· 2025-11-22 16:03
产品定位与目标市场 - 公司推出专为具身智能科研领域设计的轻量级高性价比机械臂Imeta-Y1,旨在解决硬件选择中价格过高或低端产品难用的问题[3] - 该产品主要面向学生、教育工作者及机器人领域初学者,支持低成本、高效率的算法验证与项目开发[3] - 产品采用紧凑型结构与模块化接口,适用于嵌入式AI与机器人学习平台的开发与应用推广[7] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖数据采集、模型训练到推理部署全环节,支持视觉、力控等多模态数据融合[4][18][37] - 兼容TensorFlow、PyTorch等主流框架,并支持ROS1/ROS2开发环境,提供URDF模型实现仿真与真机无缝联动[4][18][20][23] - 提供Python/C++双语言接口,降低用户上手门槛,并承诺24小时快速售后响应[4][19][20] - 后期将陆续升级VLA、VA相关源码,新老客户均可享受升级服务[20] 机械臂技术参数 - 本体重量4.2KG,额定负载3KG,具备6自由度,工作半径612.5mm,重复定位精度达±0.1mm[9][20][21] - 供电电压24V,采用铝合金材质,通讯方式为CAN,控制方式支持轨迹跟踪、示教及API[9][20] - 各关节运动范围覆盖J1(-165°~165°)至J6(-150°~150°),最大运动速度达180°/s至220°/s[9][22] - 配套末端执行器重量631g-704g,行程0-80mm,定位精度±0.5mm,接口为电源+CAN XT30 2+2[11][12][14] 软件开发与生态支持 - 提供完整开源SDK,含驱动程序、API接口及示例代码,支持Python/C++等语言[30][31] - 已开源代码库包含y1_ros和y1_sdk模块,近期更新包括master/slave启动文件[32] - 模型推理时间测试显示单次推理耗时约30-36毫秒,适配ALOHA ACT算法可在RTX 4060显卡完成训练与推理[39][51] - 目前已适配RealSense D435系列、奥比中光DCW2相机,未来将扩展支持lerobot、act等开源模型[51] 交付与售后政策 - 产品交付周期为1-2周,质保期半年(非人为损坏),质保期后按市场价收费[49][50] - 明确表示不支持无理由退货或测试,仅针对产品质量问题提供售后支持[51]
移动操作的AlohaMini来啦!600美元成本,全开源
具身智能之心· 2025-11-22 03:07
产品核心定位 - 推出AlohaMini双臂移动机器人平台 旨在降低真实世界操作与具身AI研究的门槛[3][4] - 产品定位为面向家庭建造者和研究实验室的全栈开源机器人[4] - 平台设计支持完全3D打印 组装时间约60分钟[5][8] 产品核心特性 - 具备双机械臂和移动底盘 集成电动垂直升降系统 垂直行程0-60厘米[5][10] - 配备5个720p摄像头感知阵列 包括顶置 前向 后置及双机械臂摄像头[10][13] - 硬件与软件完全开源 原生兼容LeRobot生态系统实现即插即用[5][12] 成本结构与可及性 - 物料清单总成本约为600美元 极具成本效益[3][5] - 核心部件包括16个舵机 成本13.89美元/个 2块电机控制板及树莓派5计算平台[13] - 移动系统采用3个全向轮 成本36美元 机身框架依赖约4公斤3D打印线材[13]