Workflow
具身智能之心
icon
搜索文档
仅需300美元!先进VLA模型与低成本硬件相结合
具身智能之心· 2025-11-11 00:02
文章核心观点 - 研究团队开发出低成本视觉-语言-动作系统,通过约311.98美元的6自由度机械臂与自适应视野集成器,在真实场景中实现超越现有方法的性能,推动机器人基础模型普及 [1] 关键创新 - 采用双动作头设计,联合训练离散自回归动作头和连续L1回归动作头,离散动作擅长高层语义推理,连续动作保障精细操作精度 [6] - 损失函数通过加权求和平衡交叉熵损失与L1损失,优化离散与连续动作 [6] - 自适应重规划机制通过计算两种动作预测的平均绝对差估计不确定性,差异超阈值时触发重规划,动态调整动作执行长度 [3] - 自适应视野集成器在空间任务中成功率96.8%,比次优集成器高出1.6%,避免传统集成器过度平滑动作流问题 [12][13] 低成本6DOF机械臂设计 - 核心参数包括成本约311.98美元,6个自由度,有效负载0.2kg,工作半径382mm,最大速度0.7m/s,重复定位精度≤10mm [5] - 硬件选型采用MG996R、DS3225等市售舵机,关节配置为roll-pitch-pitch-roll-pitch-roll,手腕3个舵机构成类球关节实现全姿态覆盖 [10] - 控制方案使用Arduino Uno搭配PCA9685 12位PWM驱动板,通过I2C通信实现精准控制,降低软件依赖,支持跨操作系统使用 [10] 自动化数据集与数据收集流程 - 数据集规模包含1200个任务演示样本,每个样本配对自然语言指令、RGB图像序列和末端执行器姿态数据 [10] - 任务覆盖拾取放置、环境操作(如开关抽屉)、堆叠等,通过参数化轨迹基元和通用语言模板快速生成多样化训练样本 [10] 实验结果与核心表现 - 在LIBERO仿真基准的空间、物体、目标、长时四大任务套件中,平均成功率达91.4%,仅落后最优基线3.9% [9][11] - 空间任务套件成功率96.8%,超越所有基线 [9][11] - 推理效率达54.2–108.4Hz,延迟仅0.0738秒,接近OpenVLA-OFT性能,额外开销仅来自自适应视野模块 [11][12] - 真实世界测试中,分布内任务平均成功率比现有方法高出49% [14] - 分布外任务在未见过的任务、环境及静态/动态干扰下,平均性能提升34.9%,动态干扰下性能仅下降10%,静态干扰下下降20% [16][17] 行业价值与影响 - 通过"低成本硬件+高效模型+开源数据集"组合打破VLA技术准入门槛,使家庭用户和小型研究团队能够接触机器人基础模型 [18] - 真实场景中的强泛化性和可靠性为家庭服务、教育科研等领域普及奠定基础 [18]
VLA+RL正在不断拉升着具身操作的上限!
具身智能之心· 2025-11-11 00:02
文章核心观点 - VLA与RL结合的技术路线正成为提升具身操作性能的关键方向,能有效弥补预训练模型与真实任务之间的差距 [1] - RL训练通过直接优化任务完成度这一终极目标,使模型具备处理意外情况的更强鲁棒性,并学习到更平滑的轨迹及与物理世界精细对齐的能力 [1] - 开源项目RLinf通过标准化接口支持主流VLA模型及CPU/GPU模拟器,并率先实现了对π0和π0.5模型系列的强化学习微调 [2][4] 技术性能评估 - 在LIBERO任务组评估中,π0模型在空间、物体、目标和长任务上的成功率分别为96.8%、98.8%、95.8%和85.2%,平均成功率达94.2% [5] - π0.5模型表现更优,在上述四项任务上的成功率分别为98.8%、98.2%、98.0%和92.4%,平均成功率达96.9% [5] - 采用Few-shot数据集SFT结合RL方法后,Flow-SDE π0.5模型在物体任务上达到100%成功率,整体平均成功率提升20.8个百分点至97.9% [5] - Flow-Noise π0.5模型在物体任务上同样达到100%成功率,整体平均成功率提升21.2个百分点至98.3% [5] 社区资源与生态 - 具身智能之心知识星球已汇聚近2000名成员,涵盖国内外知名高校实验室及机器人头部公司 [14] - 社区汇总了40多个开源项目、60多个具身智能相关数据集及行业主流仿真平台 [15] - 技术学习路线覆盖感知、交互、强化学习、VLA、VLN、多模态大模型等20多个专业方向 [15][16] - 社区提供产业研报、零部件品牌、开源数据、仿真平台等全方位资源汇总 [23][28][30][38] 技术发展前沿 - 社区内容涵盖数据采集、灵巧手、VLA模型、多传感器融合、分层感知操作等14个技术模块 [8] - 具体技术方向包括RoboDexVLM分层架构、BridgeVLA真机性能提升32%、具身4D世界模型EnerVerse等创新成果 [8] - 强化学习与VLA结合领域汇总了基于LLM的强化学习、可解释强化学习等主流方案 [40][58] - 多模态大模型方向涵盖理解与生成两大类应用,包括Image/Video/Audio/3D等多种模态组合 [51][53]
VLA方向,想再带几个同学冲一下具身的A会......
具身智能之心· 2025-11-10 10:00
文章核心观点 - 公众号"具身智能之心"正在招募视觉语言动作模型方向的研究人员进行论文辅导 重点关注VLA模型及其相关技术领域的深化研究[2] - 论文辅导名额有限 仅招募3名研究人员 以确保辅导质量[2] 行业研究方向 - 主要研究领域包括VLA模型基础研究 轻量化技术应用 VLA与触觉感知结合 VLA与世界模型整合 VLA与强化学习融合等前沿方向[2] - 研究团队已带领多名研究人员完成论文投稿 目前正陆续投递至相关学术会议[2]
聊聊在线强化学习是怎么微调π0和π0.5的?为什么性能最高能提升50%以上?
具身智能之心· 2025-11-10 03:30
文章核心观点 - 行业提出πRL开源框架 旨在解决基于流的视觉-语言-动作模型应用强化学习时面临的挑战 [5][6] - 该框架通过两种创新算法实现高效强化学习微调 在基准测试中性能提升显著 [7] - 该框架验证了在线强化学习在基于流的VLA模型中的有效性 展示了可扩展的多任务强化学习能力 [7] 技术方法与创新 - FlowNoise算法将去噪过程建模为离散时间MDP 通过可学习噪声网络实现精确对数似然计算 [7] - Flow-SDE算法将去噪过程与智能体-环境交互结合 构建采用ODE至SDE转换的双层MDP以实现高效探索 [7] - 框架在并行仿真中训练基于流的VLA模型 支持异构仿真环境下的可扩展训练 [7] 性能表现与评估 - 在LIBERO基准测试中 πRL将少样本SFT模型π0的性能从57.6%提升至97.6% [7] - 在LIBERO基准测试中 πRL将少样本SFT模型π0.5的性能从77.1%提升至98.3% [7] - 在ManiSkill的4352个抓放任务中 通过320个并行环境训练πRL 展示了多任务强化学习能力 [7]
机器人训练,北京男大有了技能玩法
具身智能之心· 2025-11-10 00:02
文章核心观点 - 介绍了一种名为COLA的全新强化学习方法,该方法使人形机器人仅依赖本体感知即可实现与人类协作搬运物体,无需外部传感器[11][18][26] - 该方法通过统一策略实现机器人在协作中领导者与跟随者角色的自主切换,提升了协作的流畅性和稳定性[19][20] - 该技术降低了硬件成本和系统复杂度,并在仿真、真实世界及人类用户实验中验证了其有效性[30][32][41] 技术方法与创新 - COLA方法的核心创新在于摒弃了摄像头、激光雷达等外部传感器,仅利用机器人自身的关节角度、力度反馈等本体感知数据进行交互决策[18][24][28] - 该方法采用统一策略,使机器人能根据人类施力情况和物体状态,自主、无缝地在领导者和跟随者角色间切换,无需人工干预[19][20] - 训练过程在高度动态的闭环仿真环境中进行,模拟了人类突然转向、物体重量变化等多种突发状况,以增强模型的鲁棒性[21][22] - 通过残差教师微调与仿真训练结合知识蒸馏的技术路径,先训练强大的教师模型,再将其能力迁移至轻量级的学生策略,适用于实体机器人[34] 实验验证与性能 - 在仿真实验中,以领导者思路设计的COLA-L比跟随者COLA-F表现更突出,能更好地分担人类负载并保持物体稳定[33][36] - 真实世界测试显示,COLA在面对箱子、担架等不同物体以及直线、转弯等运动模式时,均能实现稳健的协作搬运[37][38] - 由23名人类参与者进行的评估结果显示,COLA方法在高度跟踪和平滑性两项指标上均获得最高分,分别为3.96分[41][42] 研发团队背景 - 该研究由北京通用人工智能研究院、北京理工大学、香港大学等国内机构的研究人员共同完成[43] - 核心团队成员包括Yushi Du、Yixuan Li和Baoxiong Jia(通讯作者),其他通讯作者为Wei Liang、Yanchao Yang和Siyuan Huang[44][47][50] - 团队成员在计算机视觉、强化学习、人形机器人控制、具身智能等领域有深厚积累,并有相关顶会论文发表[46][49][56][59]
银河通用全新模型统一机器人导航任务,7B参数模型支持实时部署
具身智能之心· 2025-11-10 00:02
文章核心观点 - 提出NavFoM模型,旨在构建一个跨任务和跨本体的具身导航基座大模型,实现导航能力从“专用”到“通用”的技术跃进 [1][3][29] - 该模型统一了不同机器人的导航范式,通过“视频流+自然语言指令”预测动作轨迹,支持多任务、全场景和跨本体的应用 [3][29] - 模型在多个公开基准测试中实现了SOTA或可比拟SOTA的效果,且无需针对特定任务或机器人进行微调 [16][29] 统一导航范式 - 将不同机器人的导航任务统一为“机器人采集的流式视频 + 自然语言导航指令 -> 动作轨迹”的范式 [3] - 使用文本指令描述导航目标,用视频流表达导航历史,模型预测未来运动轨迹 [3] - 支持多任务(视觉语言导航、目标搜索、目标跟随、自驾)、全场景(室内、室外)和跨本体(四足、轮式、人形、无人机、汽车) [3] 模型架构与技术特点 - 采用TVI Tokens,通过端到端学习得到时间和角度两个系数,以兼容不同本体的相机设置(单目、环视等) [5][8] - 支持基于图像的问答和基于视频的问答混合训练,使模型保留对开放世界的理解能力,避免过拟合到导航任务 [9] - 采用双分支结构:导航任务时通过规划头输出由路径点组成的轨迹;问答任务时通过语言模型头进行下一个词预测 [9] 实时部署优化 - 提出预算感知的令牌采样策略,在有限算力约束下自适应采样关键帧,以支持7B参数模型的实时部署 [6][10] - 该策略基于遗忘曲线,越靠近当前帧采样概率越大,能根据视频帧数和令牌上限自适应调整分布 [10][11] - 实现了稳定的运行效率,具备处理长程导航任务和在真实机器人上高效运行的潜力 [11] 训练数据规模 - 训练数据量达800万条,涵盖视觉语言导航、目标导航、目标跟踪、自动驾驶、网络导航数据,涉及轮式机器人、四足机器狗、无人机和汽车 [12] - 额外使用了400万条开放世界的问答数据 [12] - 训练数据量是以往工作的约两倍,并通过图像缓存技术减少训练硬件需求 [15] 算法性能表现 - 在多个公开基准测试(涵盖不同任务和不同本体)上实现了SOTA或可比拟SOTA的效果 [16][29] - 无需对特定任务或机器人进行微调,仅通过修改指令和相机布局即可适配 [16] - 能够用同一套模型实现机器狗、轮式机器人、无人机的跟随任务 [19] 扩展应用验证 - TrackVLA++:在复杂环境中实现30分钟以上的稳定长程跟随 [23] - UrbanVLA:支持第三方地图引导的机器人自主城市出行 [25] - MM-Nav:实现360度纯视觉精确避障 [27]
具身的大小脑路线都在这里了......
具身智能之心· 2025-11-10 00:02
文章核心观点 - 具身智能是通往通用人工智能AGI的关键方向 强调智能体与物理环境的交互与适应能力[1] - 具身智能的核心模块由大脑负责思考感知和小脑负责执行构成[1] - 技术演进经历了从低层感知到高层任务理解与泛化的持续发展 当前进入VLA模型与强化学习、世界模型等融合的第四阶段[6][7][9] - 产业界正加速布局 国内外科技巨头通过投资与合作推动技术落地 双方进入关键竞赛阶段[3][5] 国内外相关领域产业分析 - 近2年多家具身明星团队从实验室走向商业和工业界 例如星海图、银河通用、逐际动力等[3] - 国内华为于2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流与家庭服务场景能力[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动落地 国外巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 具身智能的技术演进 - 第一阶段技术聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 机器人借助专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[6] - 第三阶段自2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成 支持零样本或小样本快速泛化[6][7] - 第四阶段自2025年开始探索VLA模型与强化学习、世界模型、触觉感知等模块融合 以弥补现有局限[9] - VLA+强化学习提升长时任务中的试错与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉信息推动精细安全操作[11][12]
迭代模型与累积数据才是正解!灵巧智能软硬全系列平台亮相25年世界互联网大会
具身智能之心· 2025-11-10 00:02
公司核心业务与产品 - 公司是一家以灵巧操作为核心科技的具身机器人企业,致力于推动人形机器人和工业机器人产业发展,研发、生产和销售通用智能多模态触视感知的灵巧操作系统[7] - 公司在过去1年半内推出三款灵巧手产品:轻量级、工业级可靠的DexHand021 S(价格不足万元),五指绳驱、集成驱动、运动、感知、控制四大模块的DexHand021,以及高灵巧度、16主动+4被动关节、集成0.1N级微力控制多维力觉反馈的DexHand021 Pro[8] - 公司研发了小默、大默、Venus R系列等高性价比复合机器人操作平台,配备灵巧手,具备视觉、力觉、触觉及语音交互能力,可实现移动、巡检、抓取、叠衣服、餐饮服务、物流分拣等任务[13] 行业核心挑战与公司解决方案 - 高质量、大规模数据的缺乏,特别是包含力控的数据,是制约具身智能规模化落地的最大瓶颈,仿真数据与真实场景数据存在鸿沟,真实数据采集成本高昂且稀缺[16][17][18] - 仿真数据可达百万甚至亿万级别,但真实场景泛化成功率有的甚至达不到70%,真实力觉数据采集成本更高,现有数据集不足以支持大规模预训练[19] - 公司开源DexCanvas大规模人手操作动作数据集,弥补了开源数据集力和触觉信息缺失,每条轨迹均有完整的多指力/接触标注,并开源所有处理代码[20][21] - 公司推出DexCap外骨骼数据采集系统,实现高帧率、高精度的数据采集,为行业提供低成本、高质量的灵巧操作数据解决方案[23][26] 技术闭环与产业化路径 - 公司已实现从数据采集、硬件、平台、软件算法到下游应用的全链条闭环,能够提供从数据到灵巧手再到整机和应用的完整服务[28] - 硬件层提供3指/5指夹爪执行器,具备0.1N级微力控制精度,软件算法层通过DexCanvas实现仿真到真机的快速训练迁移部署,不依赖特定机器人形态[29] - 工程化能力与大规模高质量灵巧数据的积累是量产的决定因素,需通过反复迭代优化处理各类案例,才能逐步实现场景落地[31] - 公司的灵巧手及数据采集等标准化产品已为多家臂商或机器人本体制造商供货,推动工业、养老、医疗、服务等行业进步[15]
史上规模最庞大、最多元的真实世界操作数据集!具身领域的Scaling Law来了~
具身智能之心· 2025-11-09 14:08
文章核心观点 - GEN-0是一种新型具身基础模型,专为直接基于高保真原始物理交互进行多模态训练构建,其能力随真实物理世界交互数据实现可预测的持续增长 [5][6][9] 模型架构与核心特性 - 架构继承视觉语言模型优势并实现突破,原生设计可捕捉人类级条件反射与物理常识 [5] - 核心特性"谐波推理"使模型接受同步思维与行动的无缝训练,在异步连续时序的感知与行动标记流之间建立谐波互锁 [5][6] - 架构原生支持不同机器人平台,已在6自由度、7自由度及16+自由度半人形机器人完成验证 [6] 规模化能力与扩展定律 - 在机器人领域海量数据环境中,观察到70亿参数临界点出现相变,较小模型呈现固化态势,而更大模型持续提升 [6][11] - GEN-0已扩展至100亿+参数规模,并展现出用越来越少训后数据快速适应新任务的能力 [6] - 模型展现出强扩展定律,更多预训练数据与算力持续且可预测地提升模型在多任务中的训后表现 [6][17] - 预训练数据规模与下游微调性能之间存在显著幂律关系,增加预训练数据能系统性地提升所有下游任务的模型性能 [18][20] 关键性能发现 - 70亿以上参数模型能够内化大规模机器人预训练数据,仅需数千步微调即可将知识迁移至下游任务 [15] - 60亿参数模型开始从预训练中获益,展现出强大的多任务处理能力 [15] - 10亿参数模型在预训练阶段难以消化复杂多元的感觉运动数据,模型权重随时间推移逐渐丧失吸收新信息的能力 [15] 数据规模与基础设施 - GEN-0基于超27万小时真实世界异构操控数据进行预训练 [6][22] - 数据集正以每周1万小时的速度持续扩张且不断加速,由覆盖全球的硬件网络及数千台数据采集设备与机器人共同驱动 [6][22] - 公司正在构建史上规模最庞大、最多元的真实世界操作数据集,涵盖人类能设想的所有操作任务 [24]
西湖大学最新!RobustVLA:面向VLA模型的鲁棒性感知强化后训练方法(优于SOTA方案)
具身智能之心· 2025-11-08 04:00
文章核心观点 - 视觉-语言-动作模型在机器人操作中展现出强大的通用性,但在存在环境扰动的分布外场景中泛化能力受限 [1][5] - RobustVLA是一种轻量级的在线强化学习后训练方法,通过引入双正则化策略,旨在明确增强VLA模型对环境不确定性的鲁棒性 [1][4] - 实验结果表明,RobustVLA在观测扰动、动作扰动及联合扰动场景下的平均成功率均显著优于其他先进方法,验证了其有效性 [20][21][23] 当前行业痛点 - 尽管VLA模型得益于大规模多模态预训练,但在部署时面临观测噪声、传感器误差或执行扰动等不可避免的干扰,导致其在分布外场景中无法可靠泛化 [1][5] - 现有的基于强化学习的后训练方法主要强调奖励最大化,但忽视了应对环境不确定性的鲁棒性,使得模型在真实环境中易因微小扰动出现性能大幅下降 [1][5] RobustVLA的设计逻辑与理论基础 - 方法针对环境不确定性,重点考虑了观测噪声和动作噪声及其联合效应 [4] - 通过系统的鲁棒性理论分析,确立了误差放大界限、回报漂移控制以及鲁棒稳定性保证,并由此推导出正则化优化目标 [4][11][13][18] - 核心设计包括双正则化策略:雅可比正则化用于降低模型对观测噪声的敏感性,平滑性正则化用于在动作扰动下稳定策略 [7][8] - 整体优化目标融合了PPO的优势优化以及两种正则化项,由超参数α和β分别控制其强度 [9][10] - 采用自适应噪声调度机制,基于模型的平滑成功率动态调整注入的噪声强度,避免训练初期不稳定并逐步提升抗扰动能力 [15] 核心实验结果 - 在观测扰动场景下,RobustVLA和RobustVLA-C的平均成功率分别达到82.5%和82.2%,显著优于OpenVLA-OFT的80.6%和RIPT-VLA的80.8% [20] - 在动作扰动场景下,RobustVLA和RobustVLA-C的平均成功率均约为54.7%,超过OpenVLA-OFT的53.5%和ARFM的50.1% [21][22] - 在联合扰动场景下,RobustVLA-C以82.1%的平均成功率大幅领先,显示出在线强化学习方法与双正则化策略的协同优势 [23] - 迁移学习实验显示,RobustVLA在“开抽屉”和“放碗”等任务中,相较于零样本迁移分别提升8.0%和16.0%,展现出更强的分布外适应能力 [25] - 消融实验证明,移除任一种正则化都会导致性能下降,双正则化是鲁棒性提升的关键;可视化分析表明RobustVLA的观测表征在扰动下更稳定 [27]