Workflow
具身智能之心
icon
搜索文档
机加篮球有没有搞头?港科大解锁全球首个真实篮球机器人Demo!
具身智能之心· 2025-11-26 00:05
技术突破与核心观点 - 香港科技大学研究团队展示了全球首个能在真实场景中完成篮球动作的机器人demo,标志着具身智能在复杂物理交互任务上的重大进展[5][50] - 该技术突破基于团队此前在仿真环境中的系列研究,包括PhysHOI、SkillMimic和最新的SkillMimic-V2,实现了从虚拟仿真到现实应用的快速跨越[7][36][50] - 核心技术创新在于解决了从稀疏、含噪且覆盖不足的演示数据中学习鲁棒且可泛化交互策略的难题[11] SkillMimic-V2技术细节 - SkillMimic-V2通过引入拼接轨迹图(STG)、状态转移场(STF)和自适应轨迹采样(ATS)三大关键技术,有效应对演示数据的稀疏性、不连贯性和噪声问题[11][14][22] - 在困难技能(如上篮Layup)上的成功率从0%显著提升至91.5%,技能转换成功率(TSR)从2.1%飙升至94.9%,性能提升显著[26][27] - 该方法能够实现运球到投篮等复杂技能间的自然转换,并具备从干扰状态中恢复的能力,展现出强大的鲁棒性和泛化性[21][24] SkillMimic技术框架 - SkillMimic框架采用统一HOI模仿奖励与分层技能复用架构,在单一奖励配置下成功训练出掌握多样化篮球技能的交互策略[30][32] - 基于构建的BallPlay-V和BallPlay-M数据集(约35分钟篮球交互数据),该方法在运球、上篮等任务上的成功率(如79.6%和99.1%)显著高于DeepMimic和AMP等传统方法[33][34] - 分层架构包含低层的交互技能策略和高层的高级控制器,能够有效组合基础技能以完成长程复杂任务[32] 技术演进与基础研究 - PhysHOI作为早期工作,提出了基于物理仿真的动态人-物交互模仿学习框架,并引入接触图(Contact Graph)概念以优化运动学模仿奖励[36][38][43] - 系列研究的核心研究人员王荫槐(香港科技大学博士)在PhysHOI、SkillMimic和SkillMimic-V2中均担任关键角色,体现了技术发展的延续性和深度[46][49] - 技术发展速度迅猛,从2023年的仿真环境研究快速推进至真实环境中的机器人演示,显示出该领域强大的创新活力[50]
除了27万小时的真实世界操作轨迹和GEN-0 ,Generalist AI还有哪些亮点值得深扒
具身智能之心· 2025-11-26 00:05
文章核心观点 - Generalist AI公司发布了其Gen-0具身基础模型,该模型基于公司自建的、当前具身领域规模最大的真实世界操作数据集(27万小时)进行预训练,在数据规模上实现了难以撼动的领先 [3] - 该模型在6段公开视频中展示了其在处理复杂、多样化、贴近现实的长程操作任务时的高泛化能力和精细操作水平 [5][8][11] - 公司的核心团队由来自Google DeepMind、波士顿动力、OpenAI、Waymo等顶尖机构的资深研究人员组成,其愿景是“部署通用机器人”,将体力劳动的边际成本降至为零 [4] 数据规模与基建 - Gen-0模型基于27万小时的真实世界操作轨迹进行预训练,该数据集是当前具身领域规模最大的,仅在衣物处理的轨迹数就达到了3亿条 [3] - 该数据集的原始数据量级达数十PB(1 PB相当于10万条10GB的高清视频),且数据采集速度能实现每周上传1万小时,并持续提升 [7] - 数据量的指数级增长对算力投入和数据质量把控提出了极高要求,新进入者若想复刻此数据规模,仅数据采集“爬坡”就需至少半年到一年时间,不包括搭建数据基建的过程 [7] 模型能力与任务表现 - 模型展示了处理复杂、多轴铰链任务(如折叠外卖盒子)的高泛化能力,该任务需处理多个相互关联的运动自由度,构成一个多轴联动系统 [8] - 视频中操作的对象均为现实生活中常见、非特制的真实物品,涵盖各类纸盒、带胶带封装的包装物、不同形态的玩具、线缆、柔性材质物品等,任务环境高度贴近真实世界 [11] - 模型展现了处理刚性、柔性、可变形结构等不同物性物体的能力,其面对多样化、高自由度、多物理属性物体时的适应性与泛化能力令人印象深刻 [8][9] 硬件设计与创新 - 采用了双臂加夹爪的工业设计思路,其使用的协作机械臂在稳定性、臂长上接近人类,从替换人的角度考虑是合理的设计 [12] - 夹爪进行了精细化设计,不再是常见的二指平行夹爪,而是具有更大量程(类似剪刀结构)和尖锐末端的创新设计,使其能完成如同时接触物体前后两个面、分拣精细条状物体等灵巧操作 [15][18] - 机械臂具备力控功能,在视频中表现出丝滑的操作效果,硬件设计上的创新突破值得行业关注和学习 [15][20] 团队背景与行业启示 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,CTO Andrew Barry来自波士顿动力,首席科学家Andy Zeng也来自Google DeepMind,核心团队还包括来自OpenAI、Waymo等公司的资深研究人员 [4] - 公司的愿景是创造出无所不能的机器人,将体力劳动的边际成本降为零 [4] - 此次发布启示行业,海外领先公司在硬件创新结构设计上同样具有显著优势,值得国内从业者学习 [20]
ActDistill:同济大学提出动作引导蒸馏框架,机器人推理速度提升1.67倍
具身智能之心· 2025-11-26 00:05
文章核心观点 - 提出一种名为ActDistill的新型高效蒸馏框架,旨在解决Vision-Language-Action模型在机器人等具身智能场景中因计算开销大、推理延迟高而难以实时部署的问题 [2][3] - 该框架的核心思路是以动作预测为导向,将大型教师模型的动作中心语义迁移到轻量化学生模型,实现效率与保真度的平衡 [4] - 实验验证表明,该框架能在计算量减少50%以上、推理速度提升最高1.67倍的同时,保持接近全量模型的任务成功率 [9][12][24] 研究背景与核心问题 - Vision-Language-Action模型在机器人操作、视觉导航等场景中表现出强大的多模态推理能力,但其庞大架构和频繁的跨模态交互导致计算开销大、推理延迟高,难以部署在实时或资源受限的系统中 [2] - 现有高效VLA策略多沿用视觉-语言模型的优化思路,优先压缩视觉-语言相关性,却忽略了动作预测的核心目标,容易造成关键信息损耗和动作语义不连贯两大问题 [2] 核心方法:ActDistill框架 - 框架包含两大核心模块:图结构封装和动作引导自衍生蒸馏 [4] - **图结构封装模块**通过动态关系图构建、消息传递与语义胶囊生成,显式建模动作语义的层级演化,分离任务相关交互与冗余背景信号 [6] - **动作引导自衍生蒸馏模块**通过自衍生学生模型与动态路由,在效率约束下复现教师的决策过程,训练时采用软门控联合优化,推理时通过阈值离散化以仅保留动作相关计算 [8] 实验验证 - **性能与效率平衡**:在LIBERO基准上,平均成功率为73.95%,仅比全量模型(74.95%)低1.0%,但计算量减少50.5%(FLOPs为49.5%),推理速度提升1.59倍 [9][12] - 在SIMPLER基准的视觉匹配场景中,平均成功率为74.08%,接近全量模型的74.75%,速度提升1.67倍,计算量仅为原模型的42.3% [10] - **消融实验**:图结构封装至关重要,将其中的GAT替换为MLP后,平均成功率从74.08%降至64.53%,抽屉操作任务性能暴跌25.4% [13] - **可视化分析**:适度跳过中间层可在保持73.9%成功率的同时将延迟降至28.3ms,且生成的机器人轨迹平滑,能有效规划无碰撞路径 [14][16] 关键结论与未来方向 - 该研究提出了首个以动作预测为导向的通用蒸馏框架,打破了视觉-语言模型的效率优化范式 [24] - 方法融合了图结构封装与动态路由,在自回归与扩散基VLA架构上均有效,计算量减少50%以上,速度提升最高1.67倍 [24] - 未来方向包括探索无教师或强化学习引导的变体,以及将长时序推理融入路由机制 [24]
快3000人了,这个具身社区有点干货~
具身智能之心· 2025-11-26 00:05
文章核心观点 - 文章旨在推广一个名为“具身智能之心”的垂直社区,该社区专注于具身智能领域,为行业人士、学者和学生提供技术交流、资源汇总和职业发展平台 [1] - 社区已汇集近3000名成员和200家相关公司与机构,形成覆盖产业、学术、求职的闭环生态 [17][87] 行业资源汇总 - 社区汇总了行业内在具身大脑和本体研发方面活跃的公司及实验室,并包含行业研报以判断发展周期 [1] - 汇总了近40+开源项目、近60+具身智能相关数据集、行业主流仿真平台及各类技术学习路线 [18] - 汇总了国内外具身智能高校实验室,涉及斯坦福大学、清华大学等知名机构,供升学参考 [17][20] - 汇总了国内外各类具身相关机器人公司,业务覆盖教育、宠物、工业、救援、物流等方向 [23] - 汇总了大模型、人形机器人等行业相关研报,以了解行业发展与工业落地情况 [25][26] - 汇总了机器人导航、动力学等方向的PDF书籍,以及机器人零部件制造厂商信息 [29][31] 技术模块与产品 - 本体方面推荐了SO-100系列、openarm系列、XLerobot系列等适合科研的产品 [2][4][6] - SO-100系列能上VA和VLA算法并实现常见功能,Openarm为双臂任务框架但缺乏移动能力,XLerobot具备一定移动能力适合移动操作任务 [2][4][6] - 其他开发平台如方舟无限、星海图等成本较高,需要较大资金投入 [8] - 算法层面收拢了VLA、VLN、运控、仿真、触觉感知等多个方向的技术路线 [9] - 部署层面目前主要集中在云端推理,边缘侧基于索尔的VLA模型方案逐渐落地,小鹏等公司基于自研芯片完成VLM/VLA部署 [9] 社区服务与活动 - 社区提供持续的直播分享,内容包括圆桌论坛,覆盖本体、数据到算法等主题 [11] - 直播主题目录涵盖数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、机器人模型、Sim2Real、具身世界模型等前沿领域 [12] - 为入门者整理了完整的技术路线和栈,为研究者提供产业体系和项目方案 [13][15] - 建立了与多家具身公司的岗位内推机制,帮助成员求职 [17] - 社区内部设有问答交流功能,成员可自由提问并获得行业专家解答 [77]
达摩院最新!RynnVLA-002:统一VLA与世界模型
具身智能之心· 2025-11-25 00:03
技术方案与核心创新 - 提出“视觉-语言-动作模型与世界模型双向增强”的核心思路,以解决现有方案在动作生成、环境理解与未来预测方面的单向能力瓶颈[3][4] - 采用统一多模态编码,使用四类Tokenizer将图像、文本、状态、动作信息编码到规模为65536的统一词汇表中,打破模态间的信息壁垒[7][8] - 设计双向增强架构,使VLA模型的视觉理解能力提升世界模型的场景预测精度,世界模型学到的物理动态规律优化VLA模型的动作规划逻辑,实现协同闭环[10][14] - 创新混合动作生成机制,包含针对模拟场景优化的离散动作生成和针对真实场景优化的连续动作生成,通过动作注意力掩码策略避免误差累积[11][12][17] 模型性能与实验结果 - 在LIBERO模拟基准测试中,无预训练状态下连续动作版本平均成功率达97.4%,其中空间任务成功率99.0%、物体任务成功率99.8%[19][20] - 离散动作版本在LIBERO基准平均成功率为93.3%,长序列任务成功率达87.6%[20] - 在真实机器人SO100机械臂任务中,“将方块放入圆圈”任务在多目标场景成功率90%,含干扰物场景成功率80%[23][24] - “将草莓放入杯子”任务在单目标与多目标场景成功率均达80%,展现出强鲁棒性[23][24] - 关键消融实验表明,世界模型的融入使模拟场景中连续动作成功率从91.6%提升至94.6%,真实场景成功率从不足30%突破至80%以上[27][28] 技术优势与产业价值 - 该方案实现了“感知-理解-行动-预测”的全链路打通,为机器人操控技术从实验室走向产业化提供了参考范本[3][37] - 模型不依赖大规模机器人预训练数据,降低了真实场景应用门槛,无预训练也能实现高效落地[19][23][40] - 混合动作生成设计兼顾了模拟场景的高精度需求与真实场景的泛化与速度要求,实现场景全覆盖[11][40] - 架构通过双向增强激活双模型潜力,解决了单一模型“能做不能想”或“能想不能做”的行业痛点[37][40]
Meta再推WorldGen,一句话「盖」出50×50米一座城
具身智能之心· 2025-11-25 00:03
文章核心观点 - Meta公司推出名为WorldGen的突破性生成式AI系统,能够仅通过一段文本提示生成完整、可交互、可导航的3D世界,覆盖面积达50x50米,并在整个区域内保持风格和几何结构的一致性[12][13][19] - 该技术融合了程序化推理、扩散模型3D生成以及面向对象的场景分解,代表了生成式AI从2D内容创作向复杂3D环境构建的重大跨越[13][17] - WorldGen的输出可直接兼容Unity、Unreal等主流游戏引擎,无需额外转换,展示了在游戏开发、仿真和沉浸式社交环境等领域的巨大应用潜力[22][29] 技术方法与创新 - 系统采用多阶段流程:规划(程序化blockout生成、导航网格提取)、重建(图像到3D基础模型)、分解(场景部件提取)、精修(网格与纹理优化)[21] - 与基于Gaussian Splatting等技术(如World Labs的Marble)相比,WorldGen以网格为基础输出几何结构,原生支持物理模拟、碰撞检测和导航,功能性更强[29] - 传统方法通常从单一视角向外扩展,移动3-5米后质量骤降,而WorldGen能生成50x50米完整纹理化场景并保持一致性[18][19] 应用前景与行业影响 - 该技术有望大幅降低3D内容制作门槛,使普通人无需编写代码即可从文本提示创建虚拟世界,推动内容创作大众化[22][30] - 对游戏开发、技术美术和关卡设计师等工作流程将产生变革,从业者可从手动建模转向使用AI提示词驱动并筛选编辑输出[30][31] - 生成过程算力需求较高,开发者需评估本地与云端渲染能力以确定合适部署方式[31] 当前状态与发展方向 - WorldGen目前仍处于研究阶段,尚未对开发者开放,但已展示出跨行业节省时间和成本的潜力[22] - 未来版本计划支持更大规模世界生成并降低生成延迟,进一步提升实用性[20][22]
新国立提出VLA-4D:4D感知VLA模型,实现时空连贯的机器人操作
具身智能之心· 2025-11-25 00:03
文章核心观点 - 提出VLA-4D模型,通过融合3D空间与1D时间信息,将4D感知嵌入视觉-语言-动作模型,旨在解决通用机器人任务中时空连贯操作的瓶颈问题 [2][4][5] - 该模型的核心创新在于双重视空融合,通过4D感知视觉表征和时空动作表征,统一提升机器人操作的视觉推理精细度和动作规划的时间连贯性 [4][5] - 在LIBERO基准测试中,VLA-4D模型在多项任务上取得显著领先性能,平均成功率高达97.4%,远超现有2D、3D及4D模型 [19] 模型提出的背景与动机 - 现有2D VLA模型依赖单帧图像输入,存在视觉推理粗糙和2D-3D坐标不匹配问题,导致动作空间精度不足和时空不连续 [6] - 3D VLA模型虽提升了空间平滑性,但缺乏对时间维度的显式建模,易出现动作卡顿、抖动等时间连贯性问题 [6] - 核心目标是通过融合空间与时间信息,同时增强视觉推理和动作规划的精细度,实现机器人操作的空间平滑性与时间连贯性统一 [4] 核心设计与技术细节 - 整体框架采用双重视空融合,将4D信息嵌入视觉表征用于推理,将时间变量融入动作表征用于规划,通过多模态对齐让大语言模型输出时空连贯的动作指令 [5] - 4D感知视觉表征设计包含3D空间与1D时间编码,以及交叉注意力融合机制,生成兼具语义、几何与时空特性的视觉表征 [7][10] - 交叉注意力融合策略相比拼接和加权策略表现更优,在LIBERO-Spatial任务中成功率高达97.9%,完成时间仅4.1秒 [11] - 时空动作表征在传统空间动作参数基础上新增时间变量Δt,用于调控动作执行节奏,形成完整的时空动作表征 [12] 数据集与训练流程 - 基于LIBERO数据集进行扩展,新增时间标注,最终包含40个子任务、15万组视觉-语言-动作样本,覆盖四大场景 [16] - 采用两阶段训练策略:第一阶段进行4D视觉-语言对齐,第二阶段进行机器人任务微调 [15][22] - 两阶段训练相比单一微调能显著提升性能,在LIBERO-Goal任务中成功率从90.7%提升至97.8% [17][18] 实验验证与性能表现 - 在LIBERO基准测试中,VLA-4D在空间推理、物体理解、目标达成和长时规划任务的成功率分别为97.9%、98.6%、97.8%、94.8%,平均成功率97.4%,完成时间仅5.8秒 [19] - 在零样本任务中仍保持高成功率和短执行时间,证明时空表征具有较强的泛化能力 [19] - 动作轨迹全局平滑、局部速度稳定,无卡顿或抖动,时空规划质量显著优于对比模型 [21] 消融实验与关键发现 - 视觉表征模块中,空间嵌入、时间嵌入、特征融合三者缺一不可,同时启用时空间推理任务成功率从89.4%提升至97.9%,完成时间从5.7秒缩短至4.1秒 [24] - 动作表征模块加入时间参数后,完成时间从5.0秒降至4.1秒,效率显著提升 [27] - 视频输入+4D线索是核心,单图像输入的成功率仅85.9%,验证了视频和4D信息的重要性 [27] - 特征分布分析显示,4D视觉特征形成连续的时空流形,对应的动作特征时空连贯,实现高成功率与短耗时的统一 [25]
把具身开发变简单,地瓜机器人S600与一站式平台正式亮相
具身智能之心· 2025-11-25 00:03
核心观点 - 公司于11月21日举办开发者大会,发布S600具身智能机器人大算力开发平台和一站式开发平台,旨在通过“软硬结合、端云一体”的全链路开发体系,加速具身智能机器人的开发、部署和商业化落地 [1] 战略愿景与定位 - 公司CEO认为具身智能是驱动产业变革的新生产力,公司将通过全链路开发基础设施帮助客户和开发者降低门槛、提升效率,并与行业伙伴共研共创以加速技术转化和商业闭环 [2] - 公司致力于重新定义机器人开发底座,从算力到效率进行全面优化 [4] 产品与技术平台 - 公司推出“软硬结合+端云一体”的全链路开发体系:端侧依托BPU架构提供旭日与RDK双系列产品矩阵;云端提供一站式开发平台,整合数百种可直接部署的机器人智能算法 [5] - 旗舰产品S600具身智能机器人大算力开发平台算力达560 TOPS (INT8),采用大小脑架构设计,大脑配置18核A78AE CPU和全新BPU Nash,支持多种大模型算法端侧部署,在适配Pi0和Qwen2.5-VL-7B时性能超越主流平台2.3倍和2.2倍;小脑专为人形机器人优化运动控制能力 [8][9] - 一站式开发平台提供三大服务:数据闭环系统(支持数据生成、标注及模型训练-仿真评测-硬件在环);具身智能训练场(提供全链路支持,曾支撑CVPR等顶尖赛事);Agent开发服务(如RDK Agent可实现一句话完成应用开发与部署) [11] 算法创新 - 公司自研双目算法行业领先,包括精度媲美激光雷达的双目Depth、智能驾驶级别的双目OCC避障、以及业界首个多双目全景Occupancy感知方案Omni-OCC [14] - 自研的VO-DP纯视觉抓取方案性能超越行业SOTA,成功率和泛化性达到工业场景应用要求 [14] 生态合作与市场进展 - 公司宣布傅利叶、加速进化、广汽集团等成为S600全球首批战略客户 [20] - 公司与知行科技、立讯精密等汽车产业Tier1厂商成为S600生态首批合作伙伴,共同打造机器人控制器 [22] - 公司与超60家产业链伙伴合作,推出高度集成的软硬一体化解决方案 [24] - 公司RDK已覆盖全球20多个国家,服务10万+开发者,通过DGP地心引力计划赋能500+中小团队,并携手产学研界构建教育和科研生态 [27] 未来发展方向 - 公司围绕三大方向推进:赋能已量产机器人产品迭代升级;加速机器人在各类场景下的广泛落地;为通用具身智能机器人打基础 [24] - 公司将继续以生态建设为核心、以开发者为中心,与全球伙伴共同推动具身智能规模化应用 [29]
不知道选择哪个作为具身科研平台?别人已经把π0.5部署上了.......
具身智能之心· 2025-11-24 10:02
产品定位与核心优势 - 公司推出专为具身智能科研领域设计的轻量级高性价比机械臂Imeta-Y1,旨在解决该领域硬件选择中价格过高或低价产品难用、难上手的问题 [3] - 产品定位为面向学生、教育工作者及机器人领域初入行开发者的低成本、高效率算法验证与项目开发工具 [3] - 核心优势在于融合高精度运动控制(重复定位精度±0.1mm)、低功耗设计与开放软硬件架构,支持仿真到真机的无缝联调 [6][20][45] - 产品采用紧凑型结构与模块化接口,重量为4.2KG,额定负载3KG,工作半径612.5mm,特别适用于嵌入式AI与机器人学习平台 [7][9][20] 技术规格与性能参数 - 机械臂本体具备6个自由度,供电电压24V,通讯方式为CAN,控制方式支持轨迹跟踪、示教及API [9][20] - 各关节运动范围覆盖J1轴-165°至165°,J2轴-180°至0°,J3轴0°至180°,J4轴-95°至86°,J5轴-90°至90°,J6轴-150°至150° [20][22] - 关节运动最大速度达J1/J2/J3轴180°/秒,J4/J5/J6轴220°/秒 [20][22] - 末端执行器(如夹爪)重量约631g至704g,行程0-80mm,定位精度±0.5mm [11][12][14] 开发支持与工具链 - 提供全流程开源工具链与代码示例,涵盖数据采集、模型训练到推理部署,支持视觉、力控等多模态数据融合 [4][18][37] - 软件开发工具包兼容Python与C++双语言接口,并支持ROS1与ROS2开发框架 [4][19][20] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,实现算法仿真验证后一键部署至物理设备 [18][23] - 工具链兼容TensorFlow、PyTorch等主流AI框架,目前已开源适配ACT算法示例,未来将陆续升级VLA、VA相关源码 [18][20][51] 售后服务与市场应用 - 公司提供24小时快速售后响应,产品交付周期为1-2周,非人为损坏质保半年 [4][49][50] - 产品支持批量采购优惠,并可用于项目开发与教学培训等场景 [20] - 硬件已适配Realsense D435系列、奥比中光DCW2等相机,软件层面用户可自行微调所有开源模型,公司正逐步适配并开源lerobot、act、robotwin、pi0等模型 [51]
VLA+RL方向的合伙人招募了~
具身智能之心· 2025-11-24 10:02
招聘背景与需求 - 公司收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入的内容讲解[1] - 公司向全平台粉丝招募该方向课程和项目辅导老师 共同输出高质量内容[1] 岗位要求 - 研究方向需聚焦视觉语言动作与强化学习领域[2] - 学术界应聘者需博士及以上学历 拥有相关方向顶级会议成果[2] - 工业界应聘者需具备实战经验和真机调试经验[2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区 聚集大量视觉语言动作与强化学习方向人才[3] - 公司将提供高于行业平均水平的薪酬待遇[4] - 公司将提供丰富的行业资源支持[4] 联系方式 - 详细招聘内容可通过指定微信账号进行咨询[5]