Workflow
具身智能之心
icon
搜索文档
厦门大学曹刘娟团队FastVGGT:四倍速度提升,打破VGGT推理瓶颈并降低累积误差!
具身智能之心· 2025-09-10 06:18
核心观点 - 提出FastVGGT方法 通过分析VGGT模型推理效率瓶颈并引入token merging技术 在保持3D重建精度的同时实现最高4倍加速 显著提升大规模3D视觉任务实用性[5][26] 主要贡献 - 系统分析VGGT推理速度瓶颈 首次将token merging引入前向3D模型[5] - 基于工程优化使VGGT在单GPU(80G VRAM)处理能力从300张提升至1000张输入图像[5] - 在1000张图像推理任务中实现4倍加速 同时降低累积误差[5] 瓶颈分析 - 推理效率问题: Global Attention计算量随帧数增加占据主要时间消耗 时间复杂度保持O(n²d)量级[6] - 累积误差问题: 全局注意力机制在跨帧关联时放大细微错误 导致预测结果漂移和重建稳定性下降[6] 冗余观察 - 全局注意力存在大量冗余 同一Block下不同token注意力图几乎重合 出现token collapse现象[7] - 全局退化反映场景一致性 但带来计算冗余 为优化提供空间[7] 方法设计 - Token划分采用三种策略: 参考系约束(第一帧作为destination token) 关键token保留(特异性最高token) 基于区域采样(确保采样均匀性)[11] - Token Merging通过计算余弦相似度将source token合并到最相似destination token[12][13] - Token Unmerging机制恢复输入token数量 保证密集3D重建输出完整性[15] 实验结果 点云重建性能 - ScanNet-50数据集: 1000帧输入下推理时间从724.6秒降至180.7秒 加速4倍 Chamfer Distance从0.471改善至0.425[18][19] - 7Scenes数据集: Stride 3设置下推理时间从76.7秒降至28.0秒 Normal Consistency从0.611提升至0.617[21] - NRGBD数据集: Stride 3设置下推理时间从136.1秒降至53.1秒 Normal Consistency从0.727提升至0.730[21] 相机位姿估计 - 1000帧输入时ATE从0.196降至0.164 ARE从4.636降至3.860[23][24] - RPE-rot从0.997降至0.667 RPE-trans从0.039降至0.029[24] - 有效缓解长序列推理过程中的误差累积问题[23] 结论 - FastVGGT作为training-free加速方法 在ScanNet-50 7Scenes NRGBD等数据集验证实用性[26] - 在保持VGGT精确度的同时实现最高4倍推理加速 适用于大规模3D视觉系统[26]
上海交大发布U-Arm:突破成本壁垒,实现超低成本通用机械臂遥操作系统
具身智能之心· 2025-09-10 03:31
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yanwen Zou等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与核心需求 在双机械臂策略学习中,大规模高质量的真实世界操作数据一直是瓶颈——相比仿真或纯人类数据,真实 机械臂数据对训练鲁棒政策的直接适用性最强。而当前获取这类数据的主要方式仍是 人类演示 ,这就需要 可靠的遥操作接口支撑。 现有演示接口主要分两类: 正是为解决"高兼容性"与"低成本"的矛盾,U-ARM应运而生:目标是打造一款开源、超低成本、易适配的 主从遥操作系统,让研究者能快速为各类商用机械臂搭建数据收集 pipeline。 现有方案的痛点与U-ARM的定位 为更清晰体现U-ARM的价值,可先对比现有主流遥操作设备的核心特性(如Table 1所示): 末端执行器轨迹记录设备 (如DexCap、UMI、OpenTelevision):虽轻便易用,但收集的数据常出现运 动学奇点、超出机械臂工作空间、精度不 ...
大赛报名中|2025无锡国际人工智能创新应用大赛,66万奖金聚焦具身智能赛道
具身智能之心· 2025-09-10 00:03
赛事概况 - 2025无锡国际人工智能创新应用大赛于8月25日开赛 面向全球开放算法赛道和具身智能创新应用赛道双赛道 召唤算法开发者 创新团队 科研院所和企业共同参与具身AI大赛 实现人工智能技术创新与应用 [1] - 大赛聚焦具身智能领域 算法赛道参赛者使用极市平台和DISCOVERSE具身仿真平台进行算法开发角逐 [3] - 具身智能创新应用赛道面向具身智能创新应用企业 具身生态链企业 智能终端企业 创业团队 科研院所团队和个人 基于具身智能进行创新和应用开发 提出并实现具有创新性和实用价值的解决方案 [4] - 赛事官网为https://cvmart.net/cv_landing/list/wuxi2025 提供详情和报名入口 [5] 算法赛道详情 - 算法赛道包含机器人原料识别和积木拼装挑战两个赛题 均设置初赛 复赛和决赛三个环节 [11][19] - 机器人原料识别赛题致力于精准识别生产线或特定场景中的原料 通过视觉系统获取物料图像 运用图像处理与分析技术辨别原料 结合机器学习模型对原料类型 形状 位置等特征进行分类与定位 机器人依据算法结果实现自动化整理 为制造业等领域智能化管理提供支持 [8] - 积木拼装挑战赛题致力于提升机器人在复杂空间认知与精密操作方面的综合能力 机器人通过视觉感知系统获取积木散件图像 运用深度学习与计算机视觉技术精准识别不同形状和尺寸的积木块 分析几何特征 空间位置和拼装属性 根据给定目标图样自主完成积木拼装 [12] - 初赛在极市平台完成计算机视觉算法开发 复赛在DISCOVERSE具身仿真平台完成算法开发(提供大赛baseline) 决赛为仿真作品得分评比加线下算法方案答辩 [11] - 决赛设置机械臂真机比赛环节 让虚拟算法在现实世界中接受检验 [7] 具身智能应用方案赛道详情 - 具身智能创新应用赛题聚焦具身智能的实际应用 鼓励参赛者提出并实现具有创新性和实用价值的应用解决方案 [14] - 赛道方向涵盖具身智能整机系统 关键零部件与执行机构 感知模块 决策控制模块 具身大模型 垂直领域专用模型等软件架构 具身智能在感知识别 移动导航 精准操作 智能决策 人机交互 自主学习等方面的技术能力 以及集成具身智能核心技术的智能终端产品及机器人系统 [14] - 应用场景包括工业制造 医疗健康 居家服务 社交娱乐 科学研究 教育培训 交通运输 仓储物流 公共安全等领域 [14] - 赛题设置初赛和决赛两个环节 初赛需提交参赛表和具身智能应用方案PPT 决赛为线下路演和答辩 [17] - 决赛前安排线下真机培训环节 决赛为线下真机比赛加算法方案答辩 [15] 奖项设置 - 算法赛道(包含机器人原料识别和积木拼装挑战共2个赛题)冠军共2支队伍 每支队伍35,000元奖金加荣誉证书 亚军共2支队伍 每支队伍25,000元奖金加荣誉证书 季军共2支队伍 每支队伍16,000元奖金加荣誉证书 优胜奖共6支队伍 每支队伍8,000元奖金加荣誉证书 [19] - 具身智能创新应用赛道冠军共1支队伍 每支队伍100,000元奖金加荣誉证书 亚军共2支队伍 每支队伍60,000元奖金加荣誉证书 季军共3支队伍 每支队伍40,000元奖金加荣誉证书 优胜奖共10支队伍 每支队伍12,000元奖金加荣誉证书 [20] 附加支持 - 大赛设置创赛基金 对参与大赛的优秀企业和团队给予资金支持 鼓励将方案转化为实际应用 并提供投融资对接 推动方案的开发和产业化落地 [20] - 大赛配备AI人才专项奖 申请入口为https://doc.weixin.qq.com/smartsheet/form/1_wpf2ziCAAAAkeaqlXg1UMqzDQ0NSm14A_e59633 [25]
3个月,为大家梳理清了整个具身技术路线......
具身智能之心· 2025-09-10 00:03
在通往通用人工智能(AGI)的探索中,具身智能逐渐成为关键方向之一。相比于传统的预设动作序列不 同,具身智能强调智能体与物理环境的交互与适应,聚焦于如何让智能体具备在物理世界中感知环境、理 解任务、执行动作并反馈学习的能力。 而具身智能领域最重要的两个部分:大脑和小脑构成了具身机器人最重要的模块,如果类比于人,大脑负 责思考感知(主导语义理解和任务规划),小脑负责执行(高精度的运动执行)。 国内外相关领域产业分析 近2年,许多具身明星团队陆续出来创业,成立了多家非常有价值的公司。星海图、银河通用、逐际动力等 团队陆续从实验室走向商业和工业界,推动具身本体和大小脑技术的不断进步。 国外方面,Tesla/Figure AI在工业与物流机器人应用上持续推进,而美国投资机构也积极支持 Wayve、 Apptronik 等公司落地自动驾驶与仓储机器人。总体而言,国内企业以产业链投资与综合平台驱动具身智能 落地,国外科技巨头则侧重基础模型、模拟环境与类人机器人原型研发,双方在该领域正加速进入关键竞 赛阶段。 具身智能的技术演进 国内传统大厂,华为于2024年底启动"全球具身智能产业创新中心",与乐聚机器人、大族机器人等企 ...
光刻机巨头ASML,108亿控股了一家大模型公司
具身智能之心· 2025-09-10 00:03
编辑 丨量 子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 光刻机巨头 ASML ,也来投大模型了。 就在刚刚,荷兰半导体设备巨头ASML正式成为法国AI明星公司 Mistral AI 的第一大股东,一口气砸下13亿欧元(约108亿元人民币)真金 白银。 这次ASML领投Mistral AI 的C轮融资总额17亿欧元(约142亿元人民币),直接把这家成立时长两年半的公司估值推高到100亿欧元(约835 亿元人民币),一举成为欧洲最值钱的AI公司。 更有意思的是,ASML不仅要掏钱,还要求 进董事会占一个席位 。 全球唯一能造EUV光刻机的半导体巨头,正式和"欧洲的OpenAI"深度绑定了。 Mistral的开挂之路 根据知情人士透露,这笔交易的谈判过程相当低调,双方都签了保密协议。 美国银行作为ASML的财务顾问,在整个过程中发挥了重要作用。 就在几周前,彭博社报道就透露Mistral AI的估值可能达到140亿美元(约119亿欧元或1000亿元 ...
CoRL 2025 | SafeBimanual: 基于扩散的安全双手操作轨迹优化
具身智能之心· 2025-09-10 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Haoyuan Deng等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 1.前言 双手操作(Bimanual Manipulation)是机器人在家庭服务、制造业以及医疗等场景中不可或缺的能力。相比单臂操作,双臂机器人能够通过协调配合完成更复杂 的任务,例如烹饪、组装和物品搬运。 2.简介 目前的扩散式策略生成方法虽然能够在高维动作空间中实现稳定的动作建模与生成,但其 核心问题是缺乏安全性意识 。现有方法往往只关注如何高效完成任 务,却没有在轨迹生成过程中引入明确的物理安全约束,从而导致一系列危险行为: Figure1 双手操纵不安全模式分类 忽视物理约束 :现有扩散策略直接从去噪分布中采样动作,缺乏对双臂空间位置与动态关系的约束,容易导致机械臂轨迹交叉、两臂动作错位、末端执行器 不一致等情况。 存在危险交互 :常见的风险模式包括双臂夹具互相碰撞、在操作刚性物体时发生撕裂、夹具对物体 ...
π0.5开源了!!!
具身智能之心· 2025-09-09 06:45
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 π0.5开源了!!! π0.5模型是π0的升级版本,通过知识隔离( knowledge insulation)训练获得更强的开放世界泛化能 力!今天看到了项目主页上更新了0.5的信息。 项目链接:https://github.com/Physical-Intelligence/openpi | πο-ALOHA- | Inference | πο model fine-tuned on public | gs://openpi- | | --- | --- | --- | --- | | pen-uncap | | ALOHA data: can uncap a pen | assets/checkpoints/pi0_aloha_pen_uncap | | | | που το 19 model fine-tuned for the | | | ...
我们正在找具身领域的合伙人......
具身智能之心· 2025-09-09 04:00
最近收到越来越多合作伙伴和中小公司的诉求,期望具身智能之心团队能够在方案和数采、技术升级、 企业培训等多个方向上赋能。 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,要推动大的行业进步,需要更多优 秀的伙伴加入我们。 现面向全球的具身领域从业者发出邀请函,具身智能之心期望能够和您在技术服务、培训、课程开发与 科研辅导等多个领域展开合作。 我们将提供高额的酬金与丰富的行业资源。 主要方向 包括但不限于:VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态 大模型、仿真、运动控制、端到端、3D感知等多个方向。 岗位说明 主要面向具身方案研发、硬件研发、培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多 学生、求职类人群)。 联系我们 感兴趣的可以添加微信oooops-life做进一步咨询。 ...
VLA与强化学习技术交流群来啦!
具身智能之心· 2025-09-09 04:00
添加小助理微信AIDriver005进群,备注: 强化学习/VLA+加群+昵称。 具身智能之心VLA和强化学习交流群来啦!欢迎正在做四足、人形、机械臂相关运控的同学加入!我 们旨在为行业搭建一个技术交流与分享的平台。 ...
花了很长时间,汇总了大模型相关的技术栈......
具身智能之心· 2025-09-09 04:00
从今年上半年具身VLA、自驾VLA/VLM这些方向大火以来,很多同学都对大模型这个领域感兴趣,咨询我 们一些前沿大模型技术的学习路线。我和峰哥也商量了一下,决定把大模型的社区做起来。筹备了半年时 间,今天也终于和大家见面了~ 大模型技术是诸多前沿领域发展的基础。最具代表性的是RAG和AI Agent,企业对掌握 RAG、Agent 等技 术的人才需求高涨,这些技能已成为 AI 从业者的核心竞争力。算法开发、工具链开发、后端、产品经理、 架构师等等相关岗位需求非常旺盛,算法核心岗位的年薪更是一骑绝尘! 开源大模型生态为学习者提供了绝佳机会。国外有Meta的LLaMA 3;国内有DeepSeek采用完全开源模式, 其衍生项目已经超过800个,通义千问衍生模型数破10万,居世界第一。开源不仅降低研发门槛,还促进技 术共享与创新,让开发者能在现有基础上快速迭代。 学习大模型也是适应大趋势的必然。『大模型之心Tech知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的大模型社区。我们期望未来2年内做到近万人的规模。给大家打造一个交 流+技术分享的聚集地,是许多初学者和进阶的同学经常 ...