Workflow
具身智能之心
icon
搜索文档
Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
具身智能之心· 2025-09-03 00:03
扩展定律的历史溯源 - 扩展定律(Scaling Laws)的核心观点是将模型性能与算力等资源投入相关联 成为构建先进大模型的重要参考标尺[2] - 康奈尔大学博士生Jack Morris指出扩展定律的真正探索者是贝尔实验室 其研究可追溯至1993年[3] - OpenAI联合创始人Greg Brockman认为贝尔实验室的研究结果跨越多个数量级和数十年时间 揭示了深度学习的根本[7] 贝尔实验室的扩展定律研究 - 1993年NeurIPS论文提出通过预测分类器性能来优化算力分配 避免高成本训练过程[12] - 研究证明模型错误率与训练数据量在对数曲线上呈现规律性 并适用于单层和多层网络[12] - 实验显示经过12000种模式训练后 新网络性能优于旧网络 证明模型规模扩大可提升智能水平[16] 论文作者贡献 - 一作Corinna Cortes论文引用量达104,248次 与Vladimir Vapnik共同提出支持向量机(引用77,000+次)并参与构建MNIST数据集[19][21] - 二作Lawrence D Jackel曾与Yann LeCun合作完成高引用研究 包括反向传播论文[23] - 三作Sara A Solla最高引用论文《Optimal brain damage》运用信息论优化神经网络规模[25] - 四作Vladimir Vapnik引用量335,349次 提出统计学习理论VC理论[27] - 五作John S Denker涉足多个领域 包括量子物理 计算机安全及神经网络 并拥有多项专利[29][30] 扩展定律的早期探索 - 心理学领域最早研究学习曲线概念[36] - Vladimir Vapnik在1960年代已研究样本大小的扩展定律[37] - Frank Rosenblatt在1958年感知器论文中清晰描述学习曲线[38] - 日本学者甘利俊一1992年论文证明学习曲线渐进行为 显示预测熵收敛规律与参数数量相关[40][41] 研究脉络总结 - 扩展定律的发展是跨学科跨时代的累积过程 从心理学 感知器到系统化研究 最终通过大规模实验验证[43] - 该定律并非突发顿悟 而是数十年理论与实践反复印证的结果 体现科学探索的长期积累[43]
XDog:具身低成本科研平台,四足机械狗+单臂(含VLA/强化学习/仿真/sim2real教程)
具身智能之心· 2025-09-02 02:00
产品定位与核心功能 - Xdog是一款低成本多功能四足机械狗+机械臂开发平台 专为具身智能开发者设计 涵盖机器狗二次开发、仿真强化学习和sim2real迁移部署等技术栈 [1] - 平台已实现语音控制、目标识别与跟踪、机械臂自主抓取、强化学习步态控制等核心功能 支持ROS1开发环境 [2] - 机械狗与机械臂通过ROS通信 机械臂和总系统由PC控制 正上方抓取高度达0.85米 基座周围抓取范围0.4米 [6][7] 硬件配置参数 - 机械狗采用蔚蓝品牌 尺寸25cm×20cm×30cm 总重7kg 配备Allwinner H616四核1.6GHz主控芯片 4G内存和32G存储 [3][4][11] - 单腿自由度3个 电池能量93.24Wh 综合续航120分钟 最大前进速度7.2公里/小时 最大旋转速度450度/秒 [5][11] - 配备SO101机械臂 采用20KG总线舵机 搭配9-12.6V输入驱动板和12V/7A电源适配器 [12] - 深度相机采用主动双目红外+结构光技术 深度分辨率1280×800@30fps 工作距离0.2-10米 RGB分辨率1080p@30fps [14] 软件与控制系统 - 支持语音控制(TCP协议)、键盘控制、视觉控制和强化自主运动等多种控制方式 [15] - 开发语言以Python为主 系统基于ROS1 推荐使用2080ti及以上显卡进行推理 [16] - 集成主流大模型实现低延迟高准确性语音交互 支持二次开发 [17] - 实现机械臂MuJoCo仿真映射、目标跟随算法协同控制和自主抓取(ACT)功能 [18][19][20] 课程体系与技术支持 - 课程涵盖ROS基础、Mujoco仿真、IsaacGym环境配置、强化学习算法(PPO/DreamWaQ)和YOLO目标识别等核心内容 [22][23] - 配备5人专业讲师团队 涵盖硬件设计、视觉算法和强化学习等领域 含港大博士生技术支持 [22] - 提供增值课程包括乐鑫开发板应用和机器人大模型语音控制系统开发 [23] 配套服务与交付 - 配套赠送专用遥控器和充电器套装 开发接口包含千兆以太网、WiFi/BT和USB2.0等 [5] - 建议配置为2080ti及以上GPU和i7及以上CPU进行二次开发 [24] - 付款后3周内完成调试交付 提供1年售后服务期 视频和源码在硬件收货后立即提供 [25][26]
还在卷端到端模型?Embodied-R1另辟蹊径:用“指向”+强化学习实现SOTA性能!
具身智能之心· 2025-09-02 00:03
点击按钮预约直播 点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 通用具身智能的发展长期受限于一个核心难题:"视觉到行动的鸿沟"(seeing-to-doing gap)。这一鸿沟源于两大挑战: (a) 数据稀缺 ,有限的机器人数据难以将语言和视觉与物理动作充分关联; (b) 形态异构 ,多样的机器人形态阻碍了知识的有效迁移。 尽管现有的视觉-语言-动作(VLA)模型在模仿专家演示方面表现出色,但在新环境中,其性能往往会急剧下降。无论是端到端模型存在的知识遗忘问题,还是 模块化模型易于出现级联故障的弊端,都未能有效解决这一根本性问题。如何让机器人真正"理解"它所看到的,并将其转化为精准的物理操作,是推动通用机器 人发展的关键。 在机器人研究中,如何让"看到的"顺利转化为"做到的",一直是一个难题。虽然近年来的视觉语言模型(VLM)和视觉语言动作模型(VLA)大幅提升了机器人 理解场景与指令的能力,但当机器人真正要操作物体时,性能常常大打折扣。VLM本身具有强大的环境感知和视觉理解能力,但基于VLM进行继续训练的端到 端VLA却几乎完全失去了零样本的操作能力 ...
穆尧团队最新!离散扩散引入VLA,支持精确动作建模和一致性训练
具身智能之心· 2025-09-02 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhixuan Liang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 当机器人看到 "把勺子放在毛巾上" 的指令,如何精准理解图像中的物体位置、解析语言含义,并生成连贯动作?视觉 - 语言 - 动作(VLA)模型正是解决这一问 题的核心技术,但当前方案却陷入两难:自回归模型像 "念课文" 一样逐字生成动作,速度慢还改不了错;连续扩散模型虽能处理复杂动作,却要在主模型外 "外 挂" 模块,训练难、兼容性差。 Discrete Diffusion VLA 提出的 "离散扩散视觉 - 语言 - 动作模型",直接打破了这一困局!它把离散扩散技术首次引入 VLA 动作解码,用一个 Transformer 就统一 了视觉、语言、动作三模态——既不用额外训练扩散模块,又能像 "做拼图" 一样并行解码动作,还能通过 "先拼简单块、再补复杂处" 的策略修正错误。 在 Franka Panda 机械 ...
国内最大的具身社区,开学季招生了!!!
具身智能之心· 2025-09-02 00:03
社区概况 - 具身智能之心知识星球是国内首个具身全栈技术社区 集视频、图文、学习路线、问答、求职交流为一体 目前规模近2000人 目标未来2年内达到近万人规模 [4][16] - 社区成员分布包括头部具身公司、互联网企业具身实验室、顶级高校实验室和传统机器人公司 形成工业界与学术界互补的态势 [1] - 社区内部分享大量技术内容 涵盖VLA、强化学习、世界模型、VLN、数据采集、遥操作、仿真等主流方法论 并形成系统技术路线 [1] 技术内容体系 - 社区汇总近30+技术路线 包括benchmark、综述和学习入门路线 覆盖具身智能感知、交互、强化学习、VLN、VA/VLA、多模态大模型、Diffusion Policy等方向 [5][17] - 提供近40+开源项目、60+具身智能相关数据集、行业主流仿真平台汇总 包括机器人仿真、抓取、控制、交互、感知等领域 [17][31][39] - 汇总国内外具身智能高校实验室和公司 涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向 [19][21] 前沿技术研究 - VLA模型方向包括交错图文指令框架、泛化差解决方法、安全建模框架 BridgeVLA方案在CVPR夺冠且真机性能提升32% [6] - 具身世界模型与空间智能包括跨实体世界模型、首个具身4D世界模型EnerVerse 以及空间泛化ScalingLaw研究 [6] - Sim2Real与泛化方向包括具身视频基座模型Vidar、真实-仿真-真实统一框架 以及世界增强助力小模型规划方案 [6][7] 多模态与感知技术 - 多传感器融合感知包括视-触/力觉融合的模仿学习框架RDP 触觉感知涵盖仿真平台及视触语言动作大模型初探 [6][7] - 视觉语言导航(VLN)包括新的记忆表征方法和高效3D视觉定位方案TSP3D [6] - 协同感知方向推出协同具身智能基准数据集RoboTwin [6] 机器人系统与模型 - 机器人模型包括人形机器人运动智能与通用感知 全球最大的双臂机器人扩散大模型 以及面向具身推理的强化微调框架Reason-RFT [6] - 机器人操作系统涵盖具身大小脑协同解密、异构多机器人系统EMOS 以及基于时空约束的错误检测新范式 [6] - 灵巧手技术包括硬件与结构设计、触觉传感器、自由度设计以及夹具与灵巧手集成方案 [8] 人才招聘与职业发展 - 多模态大模型岗位base北京/深圳 月薪40k-80k 方向包括移动操作、导航、VLA 要求硕士以上学历且具机器人感知/导航/操作经验 [9][10] - 强化学习岗位base北京 月薪40k-80k 方向包括强化学习、VLA 参与研发下一代智能机器人 [11] - 社区与多家具身公司建立内推机制 第一时间对接简历 涵盖学术进展、工业落地、求职交流等多领域闭环服务 [5][7] 行业资源整合 - 汇总具身智能研报 包括大模型、人形机器人等行业研究报告 第一时间了解行业发展与工业落地情况 [24] - 汇总机器人相关书籍 覆盖导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向PDF资源 [27] - 汇总机器人零部件品牌 包括芯片、激光雷达、相机、IMU、底盘等知名制造厂商技术资料 [29] 技术交流与案例 - 社区定期举办圆桌论坛和直播 分享本体、数据到算法全链路内容 探讨人形机器人模仿学习、VLA难点、VLA+RL融合等前沿问题 [5] - 实际案例解答包括自动驾驶SLAM转型具身智能的建议 推荐视觉语言导航、端到端导航等过渡方向 强调技术栈通用性 [76][78][79] - 提供具身智能课程学习路线 帮助从业者系统提升 覆盖从基础到进阶的全栈技术内容 [17][78]
上海交大具身导航中的感知智能、社会智能和运动智能全面综述
具身智能之心· 2025-09-02 00:03
文章核心观点 - 提出TOFRA框架将具身导航过程分解为状态转移、环境观测、信息融合、奖励策略构建和动作执行五个关键阶段[2] - 首次系统性整合计算机视觉、经典机器人和仿生学三大领域在具身导航方面的研究成果[2] - 指出领域面临的四大核心挑战:自适应时空尺度、联合优化、系统完整性和数据任务泛化性[2] - 详细总结具身导航相关平台工具和评估指标,包括仿真环境和真实硬件平台[2] 研究背景 - 具身智能源于图灵理念,强调通过自我感知和交互获取知识,是通向人工通用智能的重要途径[2] - 具身性体现在以自我为中心的感知方式和分布式计算能力,区别于传统基于全局地图的导航方式[2] - 人工智能进步推动导航从"路径驱动"向"智能驱动"转变,形成具身导航新范式[2] 具身导航核心特征 - 具备三类智能:感知智能通过多模态自我中心感知获取空间认知[3] - 运动智能支持高度自由度的运动技能和适应性物理交互[10] - 社会智能能够理解人类高层语义指令,支持复杂任务执行[10] 现有研究局限 - 计算机视觉方向侧重社会智能但忽视真实感知不确定性[5] - 机器人学方向聚焦感知智能但缺乏高级语义理解[6] - 神经形态方向模仿生物机制但覆盖不足社会智能和运动智能[6] - 现有综述未能统一涵盖感知、社会与运动三个维度[6] TOFRA框架详解 状态转移(Transition) - 利用动力学模型、运动认知和端到端神经网络推算下一状态[14] - 方法包括IMU积分、零速检测和活动识别等技术[21][22][23] - 发展趋势从单节点到高自由度、从几何推算到认知增强[26][29] 环境观测(Observation) - 通过外部传感器(RGB、深度、LiDAR等)感知环境[17] - 包括低层次特征提取、高层次语义认知和多智能体协作感知[27][31][39] - 多智能体协作可扩大感知覆盖范围,克服单传感器局限性[40] 信息融合(Fusion) - 经典贝叶斯方法包括卡尔曼滤波器和基于优化的方法[47][49] - 神经融合方法采用多层网络和Transformer架构[50] - 混合方法结合经典方法可解释性和神经网络学习能力[51] 奖励策略构建(Reward) - 单任务导航包括点目标、图像目标、物体目标和探索任务[54][55] - 多任务导航通过持久记忆机制减少重复探索[56] - 视觉语言导航利用大型语言模型处理自然语言指令[58] 动作执行(Action) - 基础动作技能包括轮式机器人和足式机器人的运动控制[64] - 组合技能涉及顺序技能组合和腿臂协同操作[66] - 形态协作包括轮腿机器人、陆空机器人和空陆水机器人[68] 应用场景分析 具身自动驾驶 - 依赖外部GPS和地图信息,重点学习端到端策略[76] - 输入包括环视摄像头、3D激光雷达和雷达等多模态数据[75] - 输出为车辆控制,系统隐式建模复杂OFRA流程[80] 具身室内导航 - 完全依赖自身传感器,无GPS支持[77] - 使用语义特征或神经辐射场构建世界模型[80] - 需要更强大的感知和决策能力应对复杂环境[80] 复杂地形导航 - 专注于穿越不平坦地形,通常使用四足机器人[78] - 输入包括关节传感器数据和地形深度图[75] - 输出为速度命令或直接关节控制命令[80] 平台与评估体系 仿真平台 - AI2-THOR专注于社交/语言任务和操作[83] - Habitat系列支持建筑尺度导航和语言指令[83] - ThreeDWorld扩展户外场景并提供力反馈[83] 真实硬件平台 - 标准轮式平台包括TurtleBot系列和Clearpath Robotics产品[82] - 复杂地形平台包括Boston Dynamics Spot和ANYbotics ANYmal[82] 评估指标 - 社交维度采用Success Rate和SPL等指标[84] - 感知维度包括Absolute Trajectory Error和Map Accuracy等[85] - 运动维度评估Energy Consumption和Path Deviation等[86] 发展趋势 - 从固定模型转向自适应进化智能[88] - 从专门组件转向集成系统优化[88] - 从工程解决方案转向语言引导行为[88] - 平台向高保真"数字孪生"和可微分环境发展[87] - 评估指标从单一任务扩展到多维度平衡计分卡[87]
具身智能之心合伙人招募来啦!具身数采/算法/仿真/硬件多个方向
具身智能之心· 2025-09-01 10:00
课程讲师招募 具身智能之心课程讲师招募开始啦!如果您是大模型/多模态大模型、Diffusion、VLA、VLA+RL、sim2real、 端到端、具身交互、视觉语言导航、强化学习、机器人运动规划、机器人框架、抓取点预测与位姿估计、导航 建图、触觉感知、大模型部署与量化感知推理、机器人仿真等方向,欢迎加入我们; 主要工作:开发具身相关的视频课程,负责群内答疑等; 待遇丰厚(底部添加微信了解),除了现金激励,我们共享全行业具身资源、职位等。 科研辅导老师 待遇优厚,高于行业水平,既能发论文,又能赚零花钱! 机器人硬件开发合伙人 如果您正在从事机械臂抓取系统、双足机器人、四足机器人、轮式机器人、大模型部署等软硬件的开发工作, 期望和我们一起推动具身教育的发展,欢迎联系我们; 我们将会提供合伙人的身份,一起开创更大的具身教育场景,推动行业发展。 联系我们 具身智能相关方向科研辅导老师招募开始啦!如果您是diffusion policy、VLA、VLA+强化、sim2real、强化学 习、具身仿真、具身感知、具身交互、视觉语言导航、目标导航、触觉感知、大模型/多模态大模型、大模型 量化、机械臂抓取、位姿估计、大模型部署 ...
穆尧团队最新!Discrete Diffusion VLA离散扩散引入VLA,支持精确动作建模和一致性训练
具身智能之心· 2025-09-01 10:00
文章核心观点 - 离散扩散视觉-语言-动作模型(Discrete Diffusion VLA)通过引入离散扩散技术至动作解码,解决了现有自回归模型速度慢和连续扩散模型训练复杂的问题,实现了视觉、语言和动作三模态的统一处理,并在多个机器人任务中展现出显著性能优势 [1][6][7] 技术方案与架构 - 采用单一Transformer架构统一处理多模态输入,包括视觉token(通过SigLIP+DINOv2 ViT编码)、语言token(通过Llama 2 tokenizer编码)和离散化动作token,无需额外扩散模块 [6][12][13] - 训练阶段通过随机掩码动作token并计算交叉熵损失,与视觉-语言模型的掩码语言建模目标完全兼容,可直接复用预训练优化器和训练管线 [12][14] - 推理阶段通过迭代去噪和自适应重掩码策略(默认12轮迭代),实现动作序列的并行解码和错误修正,比自回归模型减少4.7倍函数评估次数 [15][16][18] 性能表现 - 在LIBERO任务的Franka Panda机械臂上实现96.3%平均成功率,其中Object套件98.6%、Spatial套件97.2%、Goal套件97.4%、Long套件92.0%,较自回归模型OpenVLA(76.5%)提升19.8%,较连续扩散模型π₀(94.2%)提升2.1% [8][21][22] - 在Google机器人的SimplerEnv任务中视觉匹配率达71.2%,显著优于π₀(58.8%)和π₀+FAST(61.9%),整体成功率达64.1% [23][24] - 在WidowX机器人的真实-模拟迁移场景中整体成功率达49.3%,较连续扩散基准π₀(27.8%)提升21.5%,较π₀+FAST(39.5%)提升9.8% [25][26] 创新点与实验验证 - 首次将离散扩散技术引入视觉-语言-动作模型的动作解码,支持并行解码和渐进式优化,无需外挂扩散模块 [6][7][12] - 自适应解码策略(基于最大置信度排序)在LIBERO-Goal套件上实现97.4%成功率,较并行解码策略(95.6%)提升1.8% [27][29] - 衰减温度调度(Temp=1-t)通过早期高温度探索和后期低温度确定性优化,成功率97.4%,较硬采样(96.2%)提升1.2% [28][29] 研究团队与背景 - 由香港大学、上海人工智能实验室、上海交通大学和华为云计算技术有限公司联合提出,论文发表于arXiv平台 [3][4]
RLinf开源!首个面向具身智能“渲训推一体化”的大规模强化学习框架
具身智能之心· 2025-09-01 04:02
文章核心观点 - 清华大学、北京中关村学院和无问芯穹联合推出面向具身智能的大规模强化学习框架RLinf 该框架通过创新的混合式执行模式、统一编程接口和自适应通信机制 在具身智能训练场景下实现系统提速超120% 模型性能提升40%-60% 同时支持数学推理大模型训练并取得SOTA性能[5][7][9][24][29] 技术架构设计 - 系统采用六层级抽象架构 包括用户层、任务层、执行层、调度层、通信层和硬件层 支持混合式执行模式[7] - 提出宏工作流到微执行流映射机制(M2Flow) 实现过程式编程灵活性与声明式编程优化能力的结合[14] - 支持三种执行模式:共享式(组件常驻或交替使用GPU)、分离式(组件流水线执行)、混合式(自定义组合放置形式)[15][17] 性能表现 - 在具身智能训练中相比分离式执行模式系统提速超120%[7][24][27] - OpenVLA模型在Maniskill3任务中成功率从SFT后的30%-50%提升至80%-90% 涨幅40%-50%[24][28] - OpenVLA-OFT在LIBERO测试平台平均成功率97.3% 相比SFT模型提升62.4%[24][26] - 1.5B数学推理模型在AIME24/AIME25/GPQA-diamond数据集分别达48.44%/35.63%/38.46% 平均40.84%[29][30] - 7B数学推理模型在相同数据集达68.33%/52.19%/48.18% 平均56.23% 均实现SOTA[29][31] 系统优化特性 - 集成两套后端:Megatron+SGLang/vLLM支持已收敛模型架构 FSDP+HuggingFace支持未收敛模型架构[21] - 自适应通信库包含四项优化:自适应CUDAIPC/NCCL通信、负载均衡传输队列、多通道并发通信、快速通信重配置[19][22][25] - 自动化调度模块支持秒级在线扩缩容 70B模型1秒完成5D并行动态扩缩[23] - 支持LoRA训练、断点续训、多可视化工具集成 正在集成SFT模块提供一站式服务[18] 应用范围 - 专门支持Vision-Language-Action Models(VLAs)+RL训练 集成OpenVLA、OpenVLA-OFT、Pi 0等主流具身大模型[24] - 支持百余类具身智能任务 涵盖CPU-based和GPU-based仿真器[24] - 率先实现Pi 0的大规模强化学习微调 相关算法将于9月底发布[24] - 框架设计具通用性 可快速支持其他非具身智能应用场景[29]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-09-01 04:02
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用,涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务,并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据,显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合(输入层直接拼接)、中期融合(特征层交互如注意力机制)和后期融合(决策层整合),现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构(如DeepLabv3+)、基于注意力的Transformer(如MRFTrans)和图神经网络方法(如MISSIONGNN) [12] 3D目标检测 - 多模态融合结合相机(丰富纹理)和LiDAR(精准几何),解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合(早期/中期/后期)、融合内容(特征图、点云、BEV视图)及融合方法(从非注意力型到基于注意力的跨模态交互) [17] - 技术演进从早期MV3D、AVOD到TransFusion(Transformer建模跨模态依赖)和BEVFusion,并扩展雷达-相机融合(如CenterFusion)和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航(依赖视觉语义与空间先验)、指令跟随导航(结合自然语言理解)和基于对话的导航(主动交互与动态调整),体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav(零样本规划)和NaVid(视频驱动泛化),强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合(如DeepVO、D3VO)和自监督学习解决光照变化、遮挡及动态场景中的定位问题,神经隐式表示(如NeRF)压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM(几何精准)和V-SLAM(语义丰富)向多模态融合(如V-LOAM、LIC-Fusion)和神经化转型(如UVIO用Transformer建模时序) [34][35] - 未来方向包括轻量化、自监督与感知决策一体化,提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型(VLA) - VLA模型整合视觉感知、语言理解和动作生成,实现从"感知"到"执行"的闭环,代表方法包括RT-2(预训练对齐)、RoboMamba(动作动态建模)和3D-VLA(三维点云融合) [36][37][39] - 高效化趋势明显:OpenVLA通过LoRA降低训练成本,DeeR-VLA采用动态退出机制减少计算开销,VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息(位置、形态),触觉补充局部反馈(接触力、滑动),提升抓取精度与稳定性,如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态,避免滑动或掉落,并通过时空注意力(如Li等人方法)或自监督学习(如MimicTouch)优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习(如CLIP)或自监督方法对齐多模态表示,实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习(拉近相关样本)、自监督学习(掩码预测)和跨模态生成(如DALL·E),解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2,支持多模态(图像、文本、音频)和结构优化(MoE、稀疏注意力),增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求,以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升,以及发展具备长期学习能力的认知型VLM架构 [58]