具身智能之心
搜索文档
VGGT4D:无需训练,实现4D动态场景重建
具身智能之心· 2025-12-18 00:07
研究背景与问题 - 以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色,但在处理包含移动物体(如行人、车辆)的动态4D场景时,性能显著下降,动态物体的运动会干扰背景几何建模并导致严重的相机位姿漂移 [6] - 现有解决方案面临两类挑战:一是计算或训练成本高,依赖繁重的测试时优化或需要在大规模4D数据集上进行微调;二是依赖外部先验,需要引入光流、深度估计或语义分割等额外模块,增加了系统复杂性 [14] 核心洞察与方法论 - 研究团队提出核心设想:能否在不进行额外训练的前提下,直接从预训练的3D基础模型中挖掘出4D感知能力 [7] - 通过对VGGT注意力机制的可视化分析,发现VGGT的不同网络层对动态区域表现出截然不同的响应模式,表明VGGT虽然是基于静态假设训练的,但其内部实际上已经隐式编码了丰富的动态线索 [8][10] - VGGT4D的核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制,该方法深入特征流形内部,利用Gram矩阵和梯度流实现了高精度的动静分离 [12] 技术细节:潜在运动线索的挖掘与解耦 - 研究团队分析了标准注意力图的局限性,由于Query和Key向量来自异构的投影头,其特征分布存在天然的分布间隙,导致Cross-Attention主要响应语义对齐,而运动引起的微小特征扰动容易被掩盖 [15] - 为解决此问题,VGGT4D引入了自相似性Gram矩阵来替代,通过在同构潜在分布内计算相似度,使运动引起的方差成为主导信号,模型通过在时间窗口内聚合不同层级的统计矩(均值S与方差V),构建了动态显著性场 [15] - 为了解决Attention Map分辨率不足导致的边界模糊问题,VGGT4D引入了投影梯度感知精修,该方法利用3D点几何投影残差关于3D坐标的梯度(依赖于投影雅可比矩阵和深度图的空间梯度)所包含的强边界信息,在动态物体边缘处呈现显著高频响应,从而实现对动态掩膜的亚像素级锐化 [17] - 在推理阶段,VGGT4D提出了一种分布内早期掩膜策略:仅在浅层抑制动态Token的Key向量,这种设计既在早期切断了动态信息对深层几何推理的影响,又保证了深层Transformer Block依然在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性 [19] 实验验证:动态物体分割性能 - 在动态物体分割任务上,VGGT4D在DAVIS-2016和DAVIS-2017数据集上均达到了最优性能,即使没有经过任何4D特定的训练,仅基于预训练的VGGT模型即可取得优异结果 [21] - 具体数据:在DAVIS-2016数据集上,VGGT4D的JM指标为62.12,JR指标为76.80,FM指标为56.04,FR指标为67.49;在DAVIS-2017数据集上,JM为56.45,JR为65.62,FM为51.09,FR为56.85 [22] - 定性分析表明,基线方法如Easi3R的掩码较为粗糙且遗漏细节,DAS3R倾向于过度分割并渗入静态背景,MonST3R则常常分割不足,而VGGT4D生成的掩码更加准确且边界更加清晰 [23] 实验验证:相机位姿估计 - 原始VGGT已经是一个非常强大的基线,其自身就优于MonST3R、DAS3R等许多专门的4D重建方法,表明VGGT的预训练隐式地使其对动态物体具有一定的鲁棒性,但这种鲁棒性并不完美 [25] - VGGT4D在所有数据集上均持续改进了VGGT基线,例如在VKITTI数据集上,VGGT4D的ATE(绝对轨迹误差)仅为0.164,而MonST3R高达2.272 [25] - 在极具挑战性的长序列Point Odyssey基准测试中,VGGT4D在所有指标上均取得了最佳结果,同时保持了高度效率,许多其他4D方法由于内存不足错误甚至无法在该500帧序列上运行 [26] - 具体数据:在Point Odyssey上,VGGT4D的ATE为0.019,RTE为0.009,RRE为0.290,均优于FastVGGT(0.026, 0.017, 0.380)和原始VGGT(0.022, 0.015, 0.344) [27] 实验验证:4D点云重建质量 - 在DyCheck数据集上的评估显示,VGGT4D在所有重建指标(准确度、完整度和距离)上均取得了最佳性能 [28] - 与VGGT基线相比,中位准确度误差从0.009降低到0.004,平均距离从0.150降低到0.123,这证明了该方法不仅实现了精准的动静分离,更能实质性提升几何重建质量 [28] - 具体数据:VGGT4D的位姿估计ATE为0.010,RTE为0.007,RRE为0.374;重建准确度均值为0.022,中位数为0.004;完整度均值为0.051,中位数为0.012;距离均值为0.123,中位数为0.050 [29] 研究结论与意义 - VGGT4D提出了一种无需训练的新范式,成功将3D基础模型的能力扩展至4D动态场景 [32] - 该工作证明了通过合理挖掘模型内部的Gram相似度统计特性,可以有效解耦动态与静态信息,这不仅为低成本的4D重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力 [32]
具身智能的数据困境?简智正以闭环飞轮推进解决
具身智能之心· 2025-12-17 10:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 "模仿学习(如看视频)必要,但真正掌握技能,真机数据是关键。" 香港大学李弘扬近期在多场具身智能行 业论坛上的发言,精准戳中了赛道发展的核心痛点。这一观点在行业内已形成广泛共识——智源研究院院长 王仲远就曾直言, "数据,尤其是高质量的数据,决定模型能力的上限" ,而当前具身智能最突出的困境正是 高质量真机数据的极度匮乏。2025年,具身智能融资热度飙升、政策持续加码,可数据基建的滞后却成了行 业规模化落地的"绊脚石"。做过具身智能研究的人都清楚, 真机数据稀缺、采集效率低下、处理链路冗长 , 这些问题足以让多数企业陷入"巧妇难为无米之炊"的困境。 这片蓝海市场中, 简智机器人 在赛道中逐渐崭露头角。作为专注于 具身智能全链路解决方案 的科技企业, 其核心理念是"具身智能源于人、回归人",并凭借全栈自研的"产品+产线"双轨战略,搭建起 "人类技能数字 化 - 云端AI数据治理 - 机器人应用"的完整闭环。 行业痛点如何破解?简智给出了自己的答案 自变量机器人 CTO 王昊曾直言,具身智能领域正面临显著的"数据困境"。在行业内,Aloha设备已是常见的真 机采 ...
支持pi0与pi0.5部署!现在又适配了Lerobot框架了
具身智能之心· 2025-12-17 03:50
产品定位与目标市场 - 公司推出一款名为Imeta-Y1的轻量级高性价比机械臂,专门面向具身智能科研领域,旨在解决该领域硬件选择中价格高昂或难以使用的问题 [2][3] - 该产品主要目标用户为学生、教育工作者以及刚踏入机器人领域的开发者,旨在帮助他们以低成本、高效率的方式完成算法验证与项目开发 [3] 核心功能与近期进展 - 该机械臂近期成功适配Lerobot,实现了夹取方块并精准放入胶带圈的流畅操作,配套代码将正式开源 [1] - 产品提供从数据采集、模型训练到推理部署的全流程开源工具链和代码示例,支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架,实现端到端智能算法落地 [4][18][37] - 产品支持Python和C++双语言接口,并兼容ROS1与ROS2,提供URDF模型,可实现仿真与真机的无缝切换 [4][19][20] 硬件性能参数 - 机械臂本体重量为4.2公斤,额定负载为3公斤,拥有6个自由度,工作半径为612.5毫米,重复定位精度为±0.1毫米 [9][20][21] - 供电电压为24V,采用CAN通讯方式,控制方式支持轨迹跟踪、示教和API [9][20] - 各关节运动范围与最大速度详细:J1轴为-165°至165°,速度180°/s;J2轴为-180°至0°,速度180°/s;J3轴为0°至180°,速度180°/s;J4轴为-95°至86°,速度220°/s;J5轴为-90°至90°,速度220°/s;J6轴为-150°至150°,速度220°/s [9][22] 软件与开发生态 - 公司提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [30][31] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,以降低开发风险与调试成本 [18][23] - 后期计划陆续升级更新VLA、VA相关的源码,新老客户均可享受升级 [20] 配套服务与支持 - 公司提供24小时快速售后响应服务 [4][20] - 产品交付周期为1至2周,提供半年质保(非人为损坏),质保期后按市场价支付售后费用 [49][50] - 支持批量采购,并提供基于该产品的项目开发与教学培训支持 [20] 适配与兼容性信息 - 机械臂已适配的相机包括Realsense D435系列和奥比中光DCW2 [51] - 目前已开源适配的算法模型有Lerobot和ACT,Robotwin、pi0等模型将逐步适配并开源给用户 [51] - 对于硬件配置要求,运行SDK和MoveIt等工具对电脑配置要求不高,但适配的ALOHA ACT算法在NVIDIA GeForce RTX 4060显卡上即可进行训练和推理 [51]
最近具身界的一些进展......
具身智能之心· 2025-12-17 03:50
行业动态与趋势 - 融资方面,下半年本体零部件公司融资金额增大、公司数量增多,除明星公司外,创业公司也带着订单来融资 [2] - 量产方面,多家公司试点逐步推进,头部人形机器人开始探索工业级产品部署 [2] - 产品设计方面,机械臂产品设计逐渐收敛,移动操作和人形机器人在结构与尺寸上持续创新,行业普遍在压低成本,供应链管理能力成为后期竞争关键 [2] - 模型泛化方面,基于强化学习的优化思路增强了模型泛化能力,相关工具箱日益完善,真机部署变得更加便利 [3] - 部署方面,地瓜机器人推出S600助力边缘侧部署,Thor开始应用于人形机器人与移动操作,2000T以上算力逐渐成为参考配置 [4] 社区资源与内容 - 社区已搭建包含技术路线分享、直播、问答、求职、赛事等多个版块的交流平台,形成了产业、学术、求职的闭环 [6] - 社区提供持续的直播分享,包括圆桌论坛,内容涵盖本体、数据到算法,探讨行业现状与待解决问题 [8] - 社区为入门者整理了完整的技术学习路线 [10] - 为已从事相关研究的成员提供有价值的产业体系与项目方案 [14] - 社区与多家具身公司建立岗位内推机制,可第一时间对接企业 [16] - 社区汇总了国内外知名高校的具身智能实验室,供深造参考 [19] - 社区汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向 [22] - 社区汇总了大模型、人形机器人等行业相关研报,以便了解行业发展与工业落地情况 [24][25] - 社区汇总了机器人导航、概率机器人、动力学与运动学等多个方向的PDF书籍供基础学习 [27][28] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [30] - 社区汇总了机器人仿真、抓取、控制、感知等多个领域的开源项目,助力快速上手 [32] - 社区汇总了国内外知名ToF厂家、相关产品、技术手册与综述 [34] - 社区汇总了数据采集方案与开源数据集,涵盖遥操、动作捕捉、AR等领域 [36][38] - 社区汇总了通用及真实场景机器人仿真平台 [40] - 社区汇总了强化学习、视觉语言模型与强化学习结合等主流方案与应用 [40][43] - 社区汇总了具身感知、交互、导航、多模态大模型理解与生成、模型微调与量化、大模型部署等详细技术路线与资源 [42][45][47][49][51][53][55][57][59][61][63][65][67][70][72][74] - 社区内部成员可自由提问交流,并获得来自产业界和学术界嘉宾的解答 [76] 社区规模与构成 - 社区已有近3000名具身领域成员,包括来自斯坦福大学、加州大学、清华大学、上海交大等国内外知名高校实验室,以及智元机器人、有鹿机器人、优必选、小米等近200家机器人头部公司与机构的成员 [16][86]
统一视觉多模态!港科大团队发布视频生成模型,加速真实世界理解
具身智能之心· 2025-12-17 00:05
文章核心观点 - 由港科大、港中文、清华大学和快手可灵团队提出的统一多模态多任务视频生成模型UnityVideo,通过联合训练多种视觉模态(如深度图、光流、骨骼、分割掩码等),显著提升了模型对物理世界的理解能力、生成视频的质量与可控性,并展现出强大的零样本泛化能力 [1][4][10][13] 模型动机与核心观察 - 现有视频生成模型大多局限于单一RGB视频学习,限制了模型对物理世界的全面理解 [9] - 核心观察:当模型同时学习多种视觉模态时,其在RGB视频生成任务上的收敛速度显著加快,最终性能也明显提升 [10] - 不同视觉模态提供了互补的监督信号,联合学习使模型能真正开始“理解”物理世界的运作规律 [12] 技术创新 - **动态任务路由**:在单个架构中无缝统一支持三种训练范式:条件生成、模态估计和联合生成 [16][17][18] - **动态噪声调度策略**:每个训练迭代随机选择一种训练模式并对相应token施加不同噪声,避免了灾难性遗忘,并设置了不同任务的采样概率以平衡学习进度 [20][21] - **模态切换器**:包含两个互补设计 - 上下文学习器:通过为不同模态注入特定文本提示,让模型在语义层面理解当前处理的模态 [23] - 模态自适应切换器:在架构层面为每种模态学习独立的调制参数,实现即插即用的模态选择能力 [25][26][27] - **渐进式课程学习策略**:采用两阶段训练,先在单人场景数据上训练像素对齐的模态建立基础,再引入所有模态和多样化场景数据 [29] 数据集与评估基准 - 构建了包含130万个多模态视频样本的OpenUni数据集以支持统一训练范式 [31] - 构建了包含3万个样本的UniBench评估基准,其中200个高质量样本来自Unreal Engine渲染,提供了ground truth深度和光流 [31] 实验结果:定量性能 - **文本生成视频**:在所有指标上均获得最佳结果,背景一致性达97.44%,美学质量达64.12% [33][35] - **可控生成**:在动态程度上表现卓越,达到64.42%,远超其他方法 [33][35] - **模态估计**:在视频分割任务上mIoU达到68.82%,在深度估计上Abs Rel仅为0.022,显著优于专门的单任务模型 [33][35] 实验结果:定性优势与消融验证 - **定性优势**:在物理现象理解、可控生成质量、模态估计精度和泛化能力上均展现出优势 [38][39][40] - **多模态互补性验证**:相比单模态训练,统一多模态训练在成像质量和整体一致性上获得更大增益,证明了互补监督信号的相互增强作用 [41][42][43] - **多任务训练必要性**:统一多任务训练能够恢复并超越单独训练可控生成任务导致的性能下降,证实了任务间的协同效应 [44][46] - **架构设计有效性**:上下文学习器和模态切换器各自都能有效提升性能,结合使用时能获得额外的显著增益 [47] 用户研究与泛化能力 - **用户研究**:在物理质量、语义质量和整体偏好三个维度上均获得最高评分,物理质量得分达到38.50%,显著超过商业模型Kling1.6的10.15%和HunyuanVideo的24.15% [49][50] - **零样本泛化**:模型在“two persons”的分割任务上训练后,能够自然地泛化到未见过的“two objects”场景 [52][55] - **跨模态知识迁移**:随着模型学习更多模态,RGB视频中的运动理解和语义响应都得到了改善,跨模态注意力交互逐渐增强 [56][58][62] 行业意义与启示 - 提升模型能力不仅仅依赖于增大参数量和数据量,更重要的是如何组织和利用多样化的学习信号 [62] - 视觉模型可以通过统一多种模态和任务来涌现更强的世界理解能力,正如LLMs通过统一多种文本任务涌现出推理能力 [62] - 简单堆叠不同模态不够,需要精心设计的机制来让不同模态真正互相促进 [63] - 评估需要多维度,更关键的是模型获得了跨任务、跨模态的泛化能力和更深层的世界理解 [63] - 为构建真正理解物理世界的视觉大模型奠定了坚实基础,展示了AI向通用智能演进的清晰路径 [64][65]
近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
具身智能之心· 2025-12-17 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chao Xu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 这篇综述对视觉 - 语言 - 动作(VLA)模型进行了全面剖析,是该领域极具价值的导航指南。核心结论是:VLA 模型正推动机器人技术变革,其发展遵循 "基础模 块→历史里程碑→核心挑战" 的逻辑,五大核心挑战(表征、执行、泛化、安全、数据与评估)是当前研究的关键突破口,相关结构与关键信息可通过文中图表直 观呈现。 核心定位与结构设计 文章以研究者的自然学习路径为框架,从基础到前沿层层递进,既适合新手入门,也为资深研究者提供方向。 基础模块:VLA 模型的核心构成 VLA 系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势,各模块的关键技术选型与代表模型可参考相关数据集与里程碑表格。 论文标题 :An Anatomy of Vision-Language-Action Models: From Modules ...
56倍加速生成式策略:EfficientFlow,迈向高效具身智能
具身智能之心· 2025-12-17 00:05
点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 本文共同第一作者为西安交通大学硕士生常建磊和博士生梅若风。柯炜为西安交通大学副教授。论文通讯作者为西安交通大学教授许翔宇,其研究方向涵盖三维 视觉、生成式 AI 与具身智能(个人主页:https://xuxy09.github.io/)。 生成式模型正在成为机器人和具身智能领域的重要范式,它能够从高维视觉观测中直接生成复杂、灵活的动作策略,在操作、抓取等任务中表现亮眼。但在真实 系统中,这类方法仍面临两大「硬伤」: 一是训练极度依赖大规模演示数据,二是推理阶段需要大量迭代,动作生成太慢,难以实时控制。 针对这一核心瓶颈,西安交通大学研究团队提出了全新的生成式策略学习方法 EfficientFlow 。该方法通过将 等变建模与高效流匹配(Flow Matching)深度融合 , 在显著提升数据效率的同时,大幅压缩推理所需的迭代步数 ,在多个机器人操作基准上实现了 SOTA 的性能,并将推理速度提升一个数量级以上。 ...
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 00:05
【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 CCF-A到CCF-C 先看看具身的一些方向,vln、vla、强化、还有一些real2sim2real。很多小白不知道如何下手,选择强化学 习还是vla?传统slam还是vln?哪些方向需要较大算力,哪些不需要?除此之外,什么样的本体适合自己研 究,预算不够怎么办?仿真可以吗? 对正在从事slam的同学,vln和vla都是一个比较好的切入方向。如果有机械臂,展开vla是一个不错的选择。 除此之外,没有硬件的同学可以尽量在仿真里面或者使用低成本的so-100等硬件完成实验。也有很多低成 本的科研平台,比如移动操作平台。四足和人形更适合强化,vla难度过高。 剩下就是一些方法论的问题了,有好的idea至关重要。对很多新人研究者,一个好的idea需要踩很多次坑。 如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了 最近收到很多小伙伴的咨询,其中不乏大模型、传统机器人、机械方向的同学。 ✅ 顶会/顶刊 ...
具身的半壁江山都在VLA了......
具身智能之心· 2025-12-16 09:25
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近看到了很多HR的职位需求,list很长,但VLA算法是很"急需"。这一点,也体现在论文数量上。每天带着 很多小朋友看论文,也几乎都和VLA"挂钩"。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 本文只做学术分享,如有侵权,联系删文 一些团队开源了相关的技术框架,比如LeRobot,非常适合入门学习。近2年来,从ACT到OpenVLA,再到 π0、π0.5、π0.6,各类新的方法层出不穷,性能是越来越高。基于RL的优化方案,也让VLA模型越来越丝滑。 开源本体也多种多样,能够支持各类研究的需求。比如机械臂有SO-100、双臂操作有openarm、移动操作也有 XLeRobot等。 ★ ★ ★ 但VLA貌似"很伤",不好调,数据采集麻烦。这个事情,是很多同学持续在吐槽的。 不少同学说,相当多的时间"浪费"在踩坑上了。 只看论文而没有真机实验,在仿真里面做了好久,也不知道动起来啥样子。确实,具身和其它领域都有所不 同,太注重本体,即使是算法也极其依 ...
NBA球星,成为英伟达副总裁
具身智能之心· 2025-12-16 00:02
编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 【导读】 一家市值世界第一的5万亿美元公司,CEO亲自带36位高管,同时不安排固定一对一,敢这样管事的人不多。英伟达的一份内部名单显 示,黄仁勋的直管团队从去年的55人缩至36人,这背后是信息直达与效率极限的博弈。本文用一张「组织透视镜」,带你看清这36人的角色分工、 黄仁勋的管理逻辑,以及它对AI时代公司的启发。 当身高近两米的前NBA球星霍华德·赖特(Howard Wright)推开英伟达的会议室门,他不再是篮下护框者,而是黄仁勋麾下扶持全球1.9万家初创的 Inception负责人——同事们戏称的「最强壮的投资人」。 从球场到高通、英特尔、AWS,再到英伟达,这条跨界轨迹正是这家公司高管群像的缩影:出身各异,却被拉上同一条信息高速路,直接连到CEO。 在英伟达,这条高速路有一个激进的设置:黄仁勋以扁平化直管36位高管,鼎盛时甚至多达55位,规模远超硅谷常规。 黄仁勋 笃信「信息即权力」,每 ...