Workflow
具身智能之心
icon
搜索文档
具身的创业者,赌的是这个市场远远比普通人想的要大......
具身智能之心· 2025-08-02 16:02
具身智能行业发展趋势 - 具身智能技术将渗透出行设备、服务设备、电子设备、陪伴设备及家电领域,实现"具身化"转型[1] - 2025年WAIC展会上展示类人尺寸双足机器人及移动操作机器人,已应用于医疗、工业、服务业及家居场景[1] - 北京、深圳具身公司研发陪跑机器人及情感机器人,覆盖多种尺寸和形态[1] - 自动驾驶汽车向"VLA化"发展,系统可结合导航与视觉语言输入执行复杂指令(如定位最近星巴克)[1] 具身智能应用场景 - 工业机器人实现多任务并行处理,单产线可完成分拣衣物、玩具、汽车零部件等多样化作业[2] - 零售业部署无人超市解决方案,单台机器人可管理100平米超市或200平米餐厅[2] - 搬运机器人替代人工,在堆放整齐度与分类准确度上达到人工水平[2] - 陪伴机器人形态多样化,包括仿生宠物、电子设备及具备陪伴功能的家电[2] 具身智能技术生态 - 行业形成40+开源项目、60+数据集及主流仿真平台的技术资源池[17] - 技术路线覆盖感知(3D视觉/触觉)、交互(抓取/检测)、导航(VLN/VLA)、大模型(理解/生成)等30+方向[17] - 强化学习与Diffusion Policy成为关键技术,支持LLM-based RL及任务应用[40][58] - sim2real技术加速机器人仿真到实体部署的转化[64] 行业人才与社区建设 - 具身智能之心知识星球汇聚斯坦福、清华等高校实验室及智元、优必选等头部企业资源[17] - 社区提供60+数据集汇总、机械臂抓取位姿估计等实战方案,缩短学习路径[17][67] - 建立企业内推机制,对接智驾转具身智能的求职需求[11][78][80] - 行业薪资呈现分化,初创公司强化学习岗位薪资达(N+6k)*15,高于传统SLAM岗位[79][80] 技术转型路径 - 自动驾驶从业者可通过视觉语言导航(VLN)或端到端导航技术切入具身领域[78] - SLAM工程师转向需补充大模型、强化学习技术栈,头部公司更关注DL替代传统算子能力[78][80] - 短期转型建议聚焦具身感知或VLA模型方向,利用仿真平台积累项目经验[77][79]
Spec-VLA:首个专为VLA推理加速设计的推测解码框架
具身智能之心· 2025-08-02 16:02
研究背景与动机 - 视觉-语言-动作(VLA)模型通过预训练视觉编码器或视觉语言模型(VLMs)在机器人动作生成任务中取得显著进展,例如OpenVLA等模型展现出高泛化性 [3] - VLA模型面临两大核心挑战:backbone VLMs参数规模庞大导致计算需求激增,以及自回归(AR)解码策略增加解码延迟 [3] - 现有加速方法存在局限,如模型架构重构或任务特定优化需大量资源,早期退出和雅可比解码等方法迁移到VLA时效果有限 [3] - 推测解码(SD)作为无损加速方案,在LLM中证明有效,但直接应用到VLA仅能带来微小速度提升,亟需针对性设计适配VLA的推测解码框架 [3] 核心框架:Spec-VLA - Spec-VLA是首个专为VLA推理加速设计的推测解码框架,核心是引入draft模型与验证模型的协同机制 [4] - draft模型基于融合的文本和视觉特征,通过自回归解码预测动作token,验证阶段采用松弛接受机制保证动作生成成功率 [4] - draft模型采用Llama解码器层,融合特征级和token级损失数据,接收验证模型的隐藏状态、文本嵌入及视觉嵌入 [5] - 验证模型(如OpenVLA)对draft模型生成的多路径token进行并行验证,确保生成质量 [5] 关键机制:松弛接受 - Spec-VLA提出基于动作token相对距离的松弛接受机制,定义松弛阈值量化draft动作token与验证模型预测token的允许距离 [7] - 当两者距离不超过阈值时接受draft token,否则以验证模型预测结果替换并终止后续token验证 [7] - VLA模型将连续动作维度离散为256个bins,映射为256个动作token,token间距离可通过bin ID的绝对差直接计算,几乎无计算开销 [7] 实验验证 - 在LIBERO模拟基准的四个任务集上评估,以微调后的OpenVLA作为验证模型,再生数据集训练draft模型,每个任务进行50次测试 [9] - 直接应用Eagle框架的加速比为1.08×-1.15×,引入松弛接受后加速比提升至1.22×-1.42×,接受长度从2.10提升至2.94,增幅达25%-44% [10] - 松弛阈值增大时接受长度显著提升(各数据集增幅50%-70%),成功率保持稳定,模型性能越好可容忍的松弛阈值越大 [11] - 案例分析显示松弛条件可减少迭代次数,如"将盘子推到炉子前"任务中非松弛条件需4-5次迭代,松弛条件仅需2-3次 [13] - 松弛接受条件下长序列占比显著提升,如LIBERO-Object中长度4的占比从0.56%增至6.22%,增幅11倍 [14] 结论与局限 - Spec-VLA通过适配VLA模型并引入松弛接受机制,实现1.42×的加速,接受长度提升44% [16] - 局限在于实验未在真实世界机器人场景中开展,受验证模型限制未探索动作分块策略 [16]
作为华为展台唯一机器人企业,它的实力究竟有多强?
具身智能之心· 2025-08-02 16:02
公司亮相世界人工智能大会 - 戴盟机器人作为具身智能技术领先企业参加2025世界人工智能大会(WAIC 2025),主题为"智联世界,共创未来"[2] - 公司成为华为生态展台唯一参展的机器人企业,展示基于华为云平台的技术实践[4] - 展台吸引大量观众驻足体验,Sparky 1机器人瞬时响应与无时延表现成为热门打卡点[6] 技术创新与突破 - 推出全球首款VTLA(视觉-触觉-语言-动作)具身操作大模型Daimon One,创新引入触觉感知技术[8] - 突破传统VLA模型局限,通过多模态输入直接预测动作输出,实现端到端闭环[8] - 加入华为云初创生态,利用华为云平台部署服务器试点和虚拟仿真环境[8] 产业合作与生态建设 - 正式加入中国移动具身智能产业合作计划,联合宇树、智元等生态伙伴推动产业化[9] - 作为视触觉传感技术代表参与具身智能技术突破,推动机器人从"能动"到"能用、可用、好用"[9] 产品商业化成果 - 展示多款核心产品包括DM-Tac W视触觉传感器、DM-Hand1五指灵巧手等[11] - DM-Tac W具备高灵敏触觉感知能力,成为行业标杆并获央视报道[13][14] - 穿戴式遥操作数据采集系统DM-EXton系列及人形机器人Sparky1展现商业化水平[11] 技术产业化突破 - 公司孵化于香港科技大学,专注触觉感知与灵巧手研发,由王煜教授领衔[15] - 独创单色光图案追踪视触觉传感器技术,突破厚度、算力和耐用性难题[15] - 实现"全球最薄"视触觉传感器产业化,率先完成国内商业化[15]
VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
具身智能之心· 2025-08-01 16:02
新加坡国立大学VLA-OS研究 - 首次系统解构机器人VLA模型任务规划与推理机制 提出任务规划表征与模型范式的统一对比框架 [2] - 构建包含10,000条多模态轨迹的标注数据集 覆盖2D/3D视觉、仿真/现实环境、单/双臂操作等多样化场景 [25][29] - 设计三大可组合VLA范式:ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA 实现公平对比 [23] 技术架构创新 - 采用Qwen 2.5 LLM基座构建0.5B-7B参数VLM家族 配合DINO+SigLIP混合视觉编码器 [20] - 开发标准化动作头与规划头模块 支持KV Cache提取技术实现三大范式灵活组合 [22] - 创新性定义语言/视觉/目标图像三种规划表征 建立32x32网格化空间语义标注体系 [26][30] 核心研究发现 - 视觉规划表征相比语言规划成功率提升13.2% 推理速度提高100倍 [43][58] - Hierarchical-VLA范式展现最强泛化能力 任务分解准确率比Integrated-VLA高4.5% [52][55] - 模型规模超过1B参数时性能下降 在5,000条数据场景下0.5B模型最优 [62][64] 行业应用指南 - 推荐视觉表征与目标图像规划为主 语言规划为辅的混合方案 [68] - 资源充足时优先选择Hierarchical-VLA 资源受限采用隐式Integrated-VLA [68] - 确认任务规划预训练有效性 但需注意持续学习中的遗忘问题 [67][73]
MuJoCo教程来啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-08-01 16:02
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体 [1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [4] - 通过MuJoCo,研究者可以构建高度逼真的虚拟机器人和环境,使AI系统在仿真中进行数百万次试验和学习,仿真速度比现实时间快数百倍 [6] - MuJoCo采用先进的接触动力学算法,精确模拟机器人与环境的复杂交互,支持高度并行化计算和多种感知模态 [6] - MuJoCo已成为学术界和工业界的标准工具,Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动的学习方式,涵盖从物理仿真原理到深度强化学习、机器人控制理论到Sim-to-Real迁移技术的完整知识体系 [9] - 课程设计六个层次递进的实战项目,包括智能机械臂控制、视觉引导抓取系统、强化学习驱动的运动技能等 [11][16] - 每个项目都配有详细的中文指导文档、参考代码和调试技巧,并来自中国机器人企业的实际应用场景 [30] 课程结构与学习目标 - 课程分为六个学习模块,每周有明确的学习目标和实践项目 [15] - 学习模块包括MuJoCo基础、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统与交互学习、Sim-to-Real迁移 [17] - 完成课程后,学员将熟练掌握MuJoCo各项功能、强化学习核心算法和机器人控制理论,具备完整的项目开发经验和创新能力 [32][33] 行业应用与前景 - 具身智能技术将在工厂精密装配、医院手术协助、家庭服务、危险环境救援等多个场景中发挥革命性作用 [1] - 课程设计的实战项目直接对接产业需求,帮助学员快速适应行业发展趋势 [30] - 掌握MuJoCo和具身智能技术将使学员成为该领域的复合型人才,具备技术开发和团队协作的核心能力 [33]
机器人不只会抓和放!北大x银河通用「世界-动作模型」赋能全面泛化的非抓握技能
具身智能之心· 2025-08-01 16:02
文章核心观点 - 北京大学与银河通用机器人公司联合提出自适应性【世界-动作】模型DyWA,旨在解决机器人非抓握操作中的复杂物理交互问题,该模型通过协同学习系统动力学和精细操作策略,显著提升泛化能力[4] - DyWA模型采用联合建模动作与未来状态的方法,使机器人具备"想象力",同时引入动力学自适应机制,从历史观测中推理隐含物理属性,实现自适应物理交互[9][10][11] - 该模型仅依赖单视角点云输入,通过大规模域随机化仿真训练后,可实现从仿真到真实机器人的零样本迁移,在多种复杂场景下展现全面泛化能力[12][18][22][24] 非抓握操作挑战 - 非抓握操作涉及连续接触、多变摩擦力等复杂物理交互,微小摩擦变化可导致完全不同的运动轨迹[6] - 现实感知系统面临单视角点云严重遮挡、多视角设置昂贵等问题,已有方法假设的多视角输入和位姿追踪模块在现实中难以部署[7] - 传统物理建模方法依赖精确的物体质量、摩擦系数等难以获取的参数,而现有学习方法缺乏对潜在动力学属性的建模能力[6] DyWA核心方法 - 采用teacher-student框架,将全知信息训练的教师策略蒸馏给仅接收点云输入的学生模型,同时预测动作带来的未来状态[9] - 引入动态适应模块,通过分析历史观测序列推理隐含物理属性,并通过FiLM机制调控世界模型中间特征[10][11] - 设计上仅依赖单个深度相机获取的点云输入,通过大规模物理参数随机化训练实现零样本迁移[12] 实验结果 - 在仿真benchmark中,DyWA在已知状态(三视角)、未知状态(三视角)和未知状态(单视角)三种设置下均显著优于基线方法,成功率超过80%[15][16] - 真机实验显示DyWA对物体几何形状和质量分布均具有泛化能力,能将未见过物体推到目标位姿,成功率接近70%[18] - 可适应各种摩擦面,在高摩擦瑜伽垫和低摩擦塑料板上都能维持操作鲁棒性,并展现强大的闭环自适应能力[22][24] 应用协同 - DyWA可与抓取策略及视觉语言大模型(VLM)协同工作,先通过非抓握操作调整物体姿态,再由抓取策略完成任务,提升复杂场景整体成功率[25]
准备扩大具身团队了,欢迎加入我们......
具身智能之心· 2025-08-01 16:02
具身智能行业发展 - 具身智能领域发展迅速,多家明星公司准备上市,行业处于快速发展阶段 [1] - 早期技术孤立和闭塞不利于产业发展,公司鼓励行业积极交流并致力于搭建汇聚人才的平台 [1] - 公司成立一周年后计划邀请更多行业大佬加入,共同推动行业进步 [1] 具身项目合作 - 公司正在北京、上海、深圳、广州、杭州、武汉建立项目研发团队,承接横向、纵向项目及企业咨询 [3] - 每个城市计划招募约10名具身领域学术与工程专家,需具备2年以上具身算法和机器人研究经验 [4] - 合作形式灵活,可兼职参与 [3] 具身教育研发与咨询服务 - 公司邀请具身领域专家共同开发在线课程、企业咨询及辅导业务 [5] - 重点招募方向包括大模型、多模态、强化学习、机器人运动规划、触觉感知等12个技术领域 [5] - 参与者需具备博士及以上学历或2年以上工业界研发经验 [6] 合作待遇 - 提供大比例分红和全行业资源共享机会 [7] - 支持兼职或全职合作模式 [7] 联系方式 - 通过扫码咨询负责人,需备注"具身智能之心+老师咨询" [8]
大话一下!具身里面视觉语言导航和目标导航有什么区别?
具身智能之心· 2025-08-01 10:30
机器人导航技术演变 - 技术路线从传统建图定位导航发展到基于大模型方案的导航,后者分为视觉语言导航(VLN)和目标导航两类 [1] - VLN是"听懂指令走对路",目标导航是"看懂世界自己找路",代表从被动执行到主动探索的跃迁 [1][7] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史信息表征、动作策略模块构成 [2] - 主流范式采用预训练视觉语言模型,利用LLM进行指令拆解和任务拆分 [2] - 序列决策过程中,隐式端到端方法用隐变量累积历史信息,显式端到端方法采用拓扑图/BEV语义地图等建模环境 [4] - 策略网络学习从数据标注转向LLM先验知识蒸馏,数据增强是关键 [4] 目标导航技术特征 - 需在陌生环境中仅凭目标描述(坐标/图片/自然语言)自主完成探索与路径规划 [5] - 需实现语义解析(识别空间特征与视觉属性)、环境建模(构建空间拓扑)、动态决策(避障)等复合能力 [7] 商业落地现状 - 终端配送领域:美团无人车实现动态路径重规划,Starship Technologies在欧美高校社区部署配送机器人 [9] - 服务领域:嘉楠科技、云迹科技、擎朗智能的机器人实现药品/文件/餐食配送,美国Aethon公司TUG系列投入应用 [10] - 人形机器人领域:宇树科技Unitree通过Habitat预训练,智元机器人集成工业导航模块,特斯拉Optimus展示端到端操作能力 [10] 行业人才需求 - 导航技术被公认为具身智能最先落地的子领域,相关岗位年薪达七位数 [10] 技术学习挑战 - 需融合自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识,存在知识碎片化与入门门槛高的问题 [11]
加入智源!具身大模型研究员岗位开放 (社招、校招、实习均可)
具身智能之心· 2025-08-01 00:03
岗位职责 - 负责具身智能大模型(VLA大模型或分层架构)的研究和开发 [3] - 设计并优化模型架构 完成数据处理 训练与真机部署工作 [3] - 调研具身智能领域前沿技术 跟踪业内大模型最新进展 探索技术应用可能性 [3] 职位要求 - 计算机科学 人工智能 机器人 自动化 数学等相关领域硕士及以上学历 [3] - 精通Python 具备深度学习基础 熟悉TensorFlow PyTorch等框架 [3] - 具备大模型研究经验 深入理解主流视觉与语言大模型 有预训练 微调 部署经验 [3] - 具备机器人控制经验 具身模型训练与部署经验者优先 [3] - 学习能力 英语水平 动手能力 团队协作能力优秀 [3] - 在机器人 NLP CV顶会发表论文者优先(RSS ICRA CVPR等)[3] 招聘范围 - 社招 校招 实习生岗位均开放 [3]
都说强化+VLA才是未来?相关工作汇总来啦
具身智能之心· 2025-08-01 00:03
视觉-语言-动作(VLA)模型与强化学习(RL)结合的新范式 - 视觉-语言-动作(VLA)模型与强化学习(RL)结合成为极具前景的新范式,能充分发挥环境试错交互和预收集次优数据的双重优势 [2] 无环境离线RL训练 - MoRE研究通过无环境离线RL训练提升四足机器人VLA模型的可扩展性,论文发表于ICRA2025 [3] - Q-Transformer通过自回归Q函数实现可扩展的离线强化学习,论文发表于2023年 [3] 有环境在线RL训练 - ReinboT通过在线RL增强机器人视觉-语言操作能力,论文发表于ICML2025 [5] - GeRM采用混合专家(MoE)架构构建通用四足机器人模型,项目已开源,论文发表于IROS2024 [5] - 离线Actor-Critic RL可扩展至大型模型,论文发表于ICML2024 [5] 基于仿真器的研究 - OctoNav致力于通用具身导航研究,项目已开源 [6] - TGRPO通过轨迹分组相对策略优化微调VLA模型 [6] - SimpleVLA-RL提供简化版VLA-RL实现,项目已开源 [6] - RFTF利用时序反馈进行具身智能体微调 [6] - VLA-RL通过可扩展RL实现通用机器人操作,项目已开源 [6] - RIPT-VLA采用交互式后训练方法改进VLA模型,项目已开源 [6] - iRe-VLA通过在线RL改进VLA模型,论文发表于RAL2025 [6] - Policy Agnostic RL支持任意类别和骨干网络的离线/在线RL微调,项目已开源 [6] - FLaRe通过大规模RL微调实现自适应机器人策略,论文发表于ICRA2025 [6] 基于真实世界的研究 - DYNA-1模型在性能和产品化方面取得突破,由Dyna公司开发 [9] - ConRFT通过一致性策略强化VLA模型微调,项目已开源 [9] - RLDG通过RL实现通用机器人策略蒸馏,项目已开源 [9] - Hume在VLA模型中引入系统2思维,项目已开源 [9] - 通过价值引导改进机器人基础模型,项目已开源 [9] RL对齐训练 - GRAPE通过偏好对齐实现机器人策略泛化,论文发表于ICLR2025 workshop [11] - SafeVLA通过约束学习实现VLA模型安全对齐,项目已开源 [12]