Workflow
具身智能之心
icon
搜索文档
机器人「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证
具身智能之心· 2025-07-21 08:42
机械臂技术发展 - 传统机械臂功能局限于简单抓取和小任务如制作冰淇淋和咖啡 [2] - 复杂任务如布置餐桌和组装自行车对感知、理解和动作控制协同要求极高 [3] - 视觉-语言-动作(VLA)模型推动机器人整合多模态信息执行复杂任务 [3] 大型行为模型(LBM)突破 - LBM基于扩散模型策略构建,整合视觉、语言和本体感知输入,输出20维动作序列 [18][19] - 在1700小时机器人数据上训练,完成1800次真实评估和47000次模拟部署 [13] - 仅需数百小时多样化数据和少量演示即可显著提升性能 [14] LBM性能优势 - 微调后LBM在"已见任务"上优于单任务基线模型且对分布偏移更具鲁棒性 [31][32] - 在"未见任务"中,微调LBM仅需不到30%任务特定数据即可达到单任务模型效果 [39] - 预训练使LBM用3-5倍更少数据学习新任务且性能随数据量持续提升 [16][43] 实验验证 - 采用Franka Panda FR3双臂平台和最多六个摄像头进行物理和模拟测试 [22] - 评估指标包括成功率(Success Rate)和任务完成度(Task Completion) [26] - 在仿真和现实环境中验证LBM对复杂任务的执行能力 [25][30] 数据规模与效果 - 混合数据集包含468小时双臂数据、45小时模拟数据、32小时UMI数据和1150小时开源数据 [23] - 预训练规模法则显示性能随数据量增加呈稳定上升趋势 [41][42] - 当前数据规模虽未达"互联网级"但已显现显著性能收益 [14]
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 08:42
视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE,基于GRUTopia构建,可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API,支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙,新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%,暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著,人形机器人表现最佳而四足机器人最差(相机高度0.5米时几乎失效)[36][37] - 联合训练三种机器人数据的模型实现最佳性能,验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%,而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL),反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能,显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳,但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率,较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率,证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%,卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型,显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid,验证多样化训练分布的价值[30]
没发论文?秋招会惩罚每一个本末倒置的研究生!
具身智能之心· 2025-07-21 08:42
就业与科研建议 - 毕业生应校招社招两手抓,注重资源整合与复盘查漏补缺 [1] - 在读学生需主动积累科研成果以增强就业或深造竞争力 [1] - 具身智能之心提供系统性科研辅导课程助力成果产出 [1] 成功案例 - 研二学员在导师散养情况下通过3个月辅导完成SCI论文 [2] 公司背景与优势 - 具身智能之心为国内最大AI技术自媒体平台,覆盖自动驾驶/具身智能/3D视觉等领域 [3] - 拥有300+专职导师,均来自QS前100高校,顶会/子刊发表经验丰富 [3] - 近3年辅导400+学员,中稿率达96% [3] 科研辅导流程 - 12周标准化流程:从选题到投稿分阶段完成(第1周定方向,第2-3周文献综述,第4-6周实验设计,第7-8周初稿,第9-10周修改,第11-12周投稿) [5] 服务解决的问题 - 突破导师放养困境,建立科研思维与完整知识体系 [6] - 系统掌握经典/前沿算法,避免零散学习 [6] - 提升实践能力,实现baseline到论文的深化拓展 [10] 目标用户群体 - 计算机硕博生、职称晋升需求者、AI从业者、考研申博留学生 [11] - 需求涵盖论文产出、科研能力提升、投稿技巧、实验设计等11项具体目标 [11] 服务特色 - 提供个性化1v1指导,覆盖CCF-A/B/C、SCI1-4区、EI会议全类别 [12] - 包含选题至中稿全流程服务,导师实时互动+录播回看+24h答疑 [12][16] - 优秀学员可获名校推荐信或名企(如阿里达摩院、华为诺亚方舟)内推机会 [15] 课程形式与保障 - 班主任全程督学,腾讯会议1v1授课+微信群答疑 [13][16] - 零基础学员通过6个月基础课程可完成小论文 [14] - 精准匹配系统从300+导师中筛选3-5位契合人选 [14] - 预收定金可试听,不满意可更换导师或退款 [15]
果然!秋招会惩罚每一个本末倒置的研究生!
具身智能之心· 2025-07-21 08:24
就业与科研建议 - 针对毕业生建议校招社招两手抓 注重资源整合与查漏补缺 [1] - 在读学生需主动积累科研成果以增强就业或深造竞争力 [1] - 具身智能之心提供系统性科研辅导课程助力成果产出 [1] 公司背景与资源 - 具身智能之心为国内最大AI技术自媒体平台 旗下拥有自动驾驶之心等知名IP [3] - 拥有300+专职导师团队 均来自全球QS前100高校 发表过顶会/子刊论文 [3] - 近3年辅导学员超400名 SCI论文中稿率达96% [3] 科研辅导服务流程 - 12周标准化论文产出流程 包含选题至投稿全环节 [5] - 第1周确定3个备选课题 第11-12周完成选刊投稿 [5] - 解决导师放养问题 帮助建立科研思维与体系化知识 [6] 目标用户群体 - 计算机硕博生 需论文创新思路或科研流程指导 [11] - 人工智能从业者 需提升竞争力或职称评审材料 [11] - 考研申博群体 需增强简历含金量 [11] 服务特色与附加价值 - 提供清北/MIT名校推荐信 优秀学员可获实验室实习或名企内推机会 [15] - 精准匹配系统从300+导师筛选3-5位定向辅导 [14] - 1v1在线授课+微信群答疑 含录播回看与24小时答疑 [12][16] 课程效果承诺 - 零基础学员通过6个月辅导可产出小论文 [14] - 协助完成模型代码实践与baseline深化拓展 [10] - 覆盖CCF-A/B/C至EI会议全类别论文辅导 [12]
具身学习专属!硬件结构迭代12版,这款双足机器人平台稳定性提升了300%......
具身智能之心· 2025-07-21 08:24
产品概述 - TRON1是一款专为教育科研设计的一体化研究平台 支持验证人形运动控制、强化学习、VLN任务和VLA任务 [1] - 采用双足、双点足和双轮足"三合一"模块化设计 可快速切换和自由组合 满足不同科研需求 [1] - 一套产品可同步验证点足运动控制、双足人形运动控制和轮式运动控制 实现"买一得三" [1] 产品版本 - 提供基础版本和EDU版本 EDU版本支持二次开发和外设加装 [4] - 支持外接各类操作、感知、语音交互组件及GPU等算力资源 [4] 核心功能 - 作为仿人形步态开发平台 支持人形运控研究和强化学习论证 [6] - EDU版本可外设深度相机或RGB相机 支持目标导航和感知功能开发 [6] - 支持加装机械臂 实现VLA功能验证 包括导航+抓取 [6][11] - 支持C++和Python两种开发语言 降低使用门槛 [6] 技术特性 - 提供完整清晰的URDF模型 Sim2Real差距小 支持NVIDIA Isaac、Mujoco、Gazebo等主流平台 [9] - 可集成激光雷达+深度相机 预调最优安装方案 支持三维建图、重定位、导航及动态避障 [13] - 搭载英伟达NX高算力模组 支持语音唤醒和控制功能 增强拟人感和场景适应力 [18] 硬件配置 - 感知拓展套件配备NVIDIA Ampere架构GPU 提供157 TOPS(稀疏)/78 TOPS(稠密)AI算力 [16] - 采用8核Arm Cortex-A78AE CPU 16GB LPDDR5内存 256GB固态存储 [16] - 激光雷达支持200000点/秒 深度相机分辨率达1280x720 RGB相机分辨率1920x1080 [16] - 标准版和EDU版均采用48V电池供电 续航≥2小时 支持快速换电 [26] - 最大运动速度:双轮足≥5m/s 双足和双点足<1m/s 最大爬坡角度≥15° [26] 应用场景 - 支持复杂地形运动和移动操作+机械臂任务 [20] - 可用于感知模块的建图、定位、测量和重建 [21] - 适用于语音模块+动作执行场景 [22] 开发支持 - 提供完善的SDK和开发文档 支持二次开发 [34] - 支持在线更新软件和模型结构下载 [36] - 提供完整的说明手册和开发指南 实现一键部署 [37] - 自验收后提供1年售后服务 [40]
VLFly:基于开放词汇目标理解的无人机视觉语言导航
具身智能之心· 2025-07-20 01:06
视觉语言导航框架VLFly - 提出针对无人机的视觉语言导航框架VLFly,实现开放词汇目标理解及零样本迁移,仅需自然语言指令和单目相机视觉信息即可导航 [8] - 框架由三大模块组成:自然语言理解、跨模态目标定位、可导航航点生成,有效弥合语义指令与连续控制命令的差距 [7][8] - 在模拟和真实环境中验证显示,VLFly在无人机VLN任务中泛化能力优于所有基线方法(成功率最高达86.4%)[8][14] 技术实现细节 - 指令编码模块使用LLaMA模型将指令转换为结构化文本提示(如"Goal Image: a photo of backpack")[11] - 目标检索模块通过CLIP模型计算文本-图像相似度,从预定义池中选择最相关目标图像(相似度分数公式见原文)[11] - 航点规划模块融合当前观测与目标图像特征,通过Transformer解码器生成未来航点轨迹(输出步数预测及相对航点)[11][12] 性能对比数据 - 在简单/中等/复杂场景中,VLFly成功率分别为86.4%/82.5%/77.3%,显著高于Seq2Seq(35.1%/21.2%/8.9%)和PPO(90.4%/11.8%/0%)[14] - 真实世界测试中,对直接指令成功率83%,间接指令70%,克服光照变化和背景杂乱等挑战 [16][18] - 导航误差(NE)在简单场景仅1.57米,优于Hybrid-APF(2.42米)和CMA(4.28米)[14] 与传统方法对比 - 传统SLAM/SfM方法无法处理高级语义意图 [9] - 端到端学习方法样本效率低且泛化能力受限 [9] - 现有VLN方法多针对地面机器人,假设离散动作空间,不适用于无人机连续控制 [9] 模块化设计优势验证 - 移除指令编码模块后间接指令性能显著下降 [20] - 替换为统一VLM模型(如BLIP)无法有效处理间接指令 [20] - 强化学习策略在未知环境中表现不佳,验证航点规划模块的泛化必要性 [20]
分析了102个VLA模型、26个数据集和12个仿真平台
具身智能之心· 2025-07-20 01:06
视觉-语言-动作(VLA)模型综述 核心观点 - VLA模型通过整合视觉感知、自然语言理解和机器人控制,实现跨模态智能决策,是机器人技术的变革性突破[3] - 当前已梳理102个VLA模型、26个基础数据集和12个仿真平台,形成完整技术生态[3] - 未来发展方向包括可扩展预训练协议、模块化架构设计和稳健多模态对齐策略[3] 技术架构 - **主流架构范式**:采用基于Transformer的视觉/语言骨干网络,通过跨模态注意力融合多模态输入,典型代表包括RT-2、OpenVLA等[9] - **三流编码设计**: - 视觉编码器处理RGB图像(ViT/DINOv2等)[13] - 语言编码器嵌入指令(LLaMA/PaLM等)[15] - 状态编码器处理机器人本体感受数据[11] - **动作生成机制**:扩散策略(Octo)和自回归Transformer(Gato)成为主流解码方式[15] 数据集发展 - **演进趋势**: - 早期:EmbodiedQA等简单状态-动作映射数据集[22] - 中期:ALFRED等引入多模态感官流[22] - 当前:Open X-Embodiment整合22个机器人实体和500+任务数据[5] - **评估框架**:通过任务复杂性和模态丰富度二维指标量化数据集质量,最高分Kaiwu兼具极高任务复杂性和七种模态[23][29] 仿真平台 - **关键功能**: - AI2-THOR:逼真室内场景生成[34] - NVIDIA Isaac Sim:支持激光雷达/IMU等多传感器[35] - MuJoCo:高精度接触力建模[35] - **技术瓶颈**:物理准确性不足、语言接地API缺失制约仿真到现实的迁移效果[47] 应用领域 - **六大方向**: - 操作与任务泛化(RT-2/Octo)[37] - 自主移动(NaVILA)[38] - 人机交互(RoboNurse-VLA)[38] - 专用机器人平台(QUAR-VLA)[38] - 虚拟环境(JARVIS-VLA)[38] - 边缘计算(Edge VLA)[38] 技术挑战 - **架构层面**:模态融合不充分、跨实体泛化能力弱[43][44] - **数据层面**:任务多样性不足、模态不平衡[45] - **仿真层面**:视觉-物理保真度难以兼顾[47] 未来方向 - 开发可学习的分词器统一多模态输入[49] - 构建长视距跨域基准测试体系[49] - 推进可微分物理引擎和标准化语言接口[50]
加利福尼亚大学!EgoVLA:从第一视角人类视频中学习VLA模型
具身智能之心· 2025-07-20 01:06
研究背景与核心思路 - 传统机器人模仿学习受限于硬件和操作成本,难以突破数据规模和任务多样性 [3] - 人类操作行为构成海量潜在训练数据,全球数十亿人在机器人期望工作的场景中持续活动 [3] - 核心突破在于人类与机器人的动作空间差异可通过几何变换近似,无需直接基于机器人数据训练视觉-语言-动作模型 [3] - 先在人类第一视角视频上训练模型,再通过少量机器人演示微调,实现技能迁移 [3] 模型架构与动作空间设计 - 以NVILA-2B为基础框架,输入包括当前及历史第一视角视觉观测、语言指令、动作查询token和人类本体感觉 [5] - 动作头预测未来1秒内的动作序列,采样频率30 Hz [6] - 动作空间采用人类手腕位姿和MANO手模型的前15个PCA主成分,兼顾紧凑性与表达力 [8] - 通过3D变换对齐坐标系,结合逆运动学转换为机器人末端执行器位置 [11] 数据组成与训练 - 整合四个来源的第一视角视频,形成约50万图像-动作对的大规模人类操作数据集 [12] - 数据集涵盖TACO(23%)、HOI4D(25%)、HoloAssist(39%)、HOT3D(13%),涉及33种刚性物体 [12] - 训练损失函数包括L2损失(针对手腕平移和手部关节角回归)和rot6D旋转损失 [10] 评估基准与实验结果 - 基于NVIDIA IsaacSim构建仿真基准,包含12个任务,通过世界坐标系相机位姿解决标注不一致问题 [14] - 人类数据预训练的EgoVLA在短视距和长视距任务中成功率提升约20% [16] - 在seen视觉背景下,EgoVLA的成功率和进度率显著优于无预训练的基线 [18] - 在unseen视觉背景下,EgoVLA短视距任务成功率仅小幅下降,而无预训练模型下降23% [20] 数据规模与多样性影响 - 人类数据多样性越高,模型泛化越好,整合多数据集的模型在短视距任务上的表现显著优于单一数据集训练的模型 [23] - 仅用50%机器人演示数据的EgoVLA性能明显下降,尤其长视距任务 [23] - 依赖带手腕和手部姿势标注的人类数据,当前数据获取仍有局限 [23] - 需少量机器人数据微调才能部署,零样本迁移能力不足 [23]
IROS 2025 Oral|无界智慧推出3D-MoRe:助力空间理解,提升复杂三维环境中的推理能力
具身智能之心· 2025-07-19 09:46
3D-MoRe模型技术突破 - 模型采用"生成-融合-推理"一体化范式,集成多模态嵌入、跨模态交互与语言模型解码器,显著提升3D场景理解与推理能力[3][4][9] - 通过自适应多模态数据融合技术生成62,000个问答对和73,000个物体描述,覆盖1513个室内场景,数据规模远超原始ScanQA和ScanRefer数据集[3][6][9] - 在ScanQA任务中CIDEr评分提升2.15%,ScanRefer任务中CIDEr@0.5指标提升1.84%,性能超越Chat-3D V2等现有模型[3][9][23] 核心技术创新 - 提出分层跨模态交互推理架构(CMIM),包含多模态嵌入模块、交叉注意力融合模块和LLM解码器三大组件,实现文本、视觉提示与3D场景的高效融合[15][21][24] - 开发语义质量控制技术,采用BERT嵌入量化语义相似度,结合RoBERTa推断评估语义一致性,确保数据生成质量[11][12] - 应用同义词替换、逻辑反转、顺序重排等数据增强技术,配合T5模型进行文本转换,显著提升模型泛化能力[12][13] 行业应用价值 - 该模型可扩展至视觉定位、具身导航等3D多模态任务,为服务机器人系统提供通用技术框架[30] - 团队已面向康养场景开发智能陪护机器人,部署于养老院、社区等多场景,推动具身智能商业化落地[29] - 公开的代码库与大规模数据集(62K+73K)有效降低行业研究门槛,加速3D-语言交叉领域技术突破[9][30] 研发团队背景 - 核心团队由CMU、MBZUAI、中科院等机构研究人员组成,在CVPR、ICML等顶会发表论文数百篇[29] - 技术负责人曾提出基于空间可供性操作大模型A0和视频具身导航大模型NaVid,拥有29篇一作/通讯论文含3篇ESI高被引[2] - 当前重点研发基于时空智能的通用具身大模型,持续推动人形机器人技术迭代[29]
突破户外RGB SLAM尺度漂移难题,精确定位+高保真重建(ICCV'25)
具身智能之心· 2025-07-19 09:46
户外SLAM技术突破 - 香港科技大学(广州)提出S3PO-GS框架,首次实现RGB单目SLAM的全局尺度一致性,被ICCV 2025接收 [2] - 在Waymo、KITTI和DL3DV三大户外基准测试中,S3PO-GS刷新新视角合成SOTA纪录,DL3DV场景跟踪误差降低77.3% [2][6] - 该技术针对户外单目SLAM的尺度漂移问题,解决无界户外环境中深度先验缺失和帧间尺度不一致的双重瓶颈 [4][5] 核心技术方案 - 自洽跟踪模块:利用3DGS渲染生成尺度自洽的3D点云图,建立精准2D-3D对应关系,消除位姿估计漂移误差 [6] - 动态建图机制:提出基于局部patch的尺度对齐算法,动态校准预训练点云图与3DGS场景的尺度参数 [6][10] - 联合优化架构:通过点云替换策略与几何监督损失函数,同步提升定位精度与场景重建质量 [6][11] 性能表现 - Waymo数据集PSNR指标达到26.73,KITTI数据集ATE降至1.048,DL3DV数据集ATE仅0.032 [16] - 位姿估计迭代次数减少至传统方法的10%,在复杂数据集上实现精确相机追踪 [22] - 渲染图像精准捕捉车辆纹理和建筑结构,深度变化复杂区域精度显著提升 [17][21] 技术原理 - 地图初始化阶段通过1000步迭代优化MASt3R预训练点云图,构建初始3D高斯场景表示 [7] - 动态双向校准机制:基于局部patch尺度对齐和几何-尺度解耦融合,实现尺度统一且几何完备的场景先验 [12][13] - 联合优化阶段形成定位与重建相互强化的闭环,实现高精度定位与高保真重建的协同跃升 [11] 应用前景 - 技术适用于自动驾驶、机器人导航及AR/VR等前沿领域,提升SLAM系统鲁棒性 [3] - 未来将探索回环检测和大规模动态场景优化,拓展户外SLAM应用边界 [24]