Workflow
具身智能之心
icon
搜索文档
重磅直播!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-30 12:17
直播和内容获取 - 直播和内容获取需转到具身智能之心知识星球 [1]
UCLA提出PEVA:具身Agents的世界模型时代
具身智能之心· 2025-06-30 03:47
背景与动机 - 具身智能体面临理解物理动作与视觉感知关系的根本挑战,人类通过全身动作主动改变第一人称视角的视觉输入,这对环境交互和长期规划至关重要 [3] - 现有世界模型(如基于速度控制的导航模型)存在显著局限,阻碍智能体在真实场景中的物理交互能力 [3] - 研究提出PEVA模型,首次将全身3D姿态作为条件信号预测第一人称视频,为具身智能提供物理基础更扎实的仿真环境 [3] 核心创新点 结构化全身动作表征 - 将动作定义为48维向量,融合全局身体运动(骨盆位移)与局部关节旋转(15个上半身关节的欧拉角变化),通过运动学树结构保留层次关系 [4] - 区别于二维导航控制,该表征在运动自由度上提升24倍,支持从步行到抓取的精细控制 [9] - 动作定义为相邻帧间的位姿变化量,直接关联物理运动与视觉结果 [9] 条件扩散Transformer架构创新 - 轻量级动作嵌入:直接拼接动作向量输入AdaLN层,在保持性能的同时降低计算负载 [8] - 随机时间跳跃:训练时随机采样间隔帧(如16帧覆盖32秒视频),将时间间隔作为附加条件,解决长时动作建模的计算效率问题 [10] - 序列级训练:采用自回归扩散损失,通过前缀序列并行训练保持时序连贯性,克服单帧预测的碎片化问题 [10] 分层评估协议 - 提出四级评测框架:长时预测(16秒视频连贯性分析)、单帧预测(2秒间隔的感知质量与语义一致性)、原子动作解构(关节级控制精度)、规划能力(反事实模拟选择最优动作序列) [11][12] 方法实现 模型架构与训练 - 输入编码:视频帧通过VAE编码器压缩为潜变量,动作向量按Xsens骨架标准化拼接 [16] - 扩散过程:基于DDPM框架,定义状态转移,损失函数融合简化损失与变分下界 [17][20] - 推理优化:自回归滚动物理动作序列,通过交叉熵法优化动作候选,注意力掩码限制跨帧交互提升推理效率 [20] 关键结果 全面超越基线 - PEVA在LPIPS(0.303)、DreamSim(0.193)、FID(62.29)上优于CDiT与Diffusion Forcing [19] - 长时预测中FID增长最缓,证明时序一致性优势 [19] 原子动作控制 - 手部运动预测误差比导航任务低15%(如右手下移DreamSim 0.248 vs. 前移0.329) [22] - 旋转动作预测仍是挑战(左转DreamSim 0.269),反映全局位姿建模难度 [22] 消融实验 - 上下文窗口从3帧增至15帧,DreamSim提升3%(0.199→0.193) [25] - 动作直接拼接比嵌入层更有效(DreamSim 0.193 vs. 0.202) [25] 规划应用 - 通过反事实模拟筛选动作序列,如排除走向水槽/户外的动作,选择打开冰箱的序列 [26] - 当前规划仅支持单臂12维控制,未实现全身协调 [26] 局限与展望 - 场景约束:依赖静态环境假设,动态物体交互未建模 [27] - 规划简化:仅基于图像相似度的开环优化,未整合高层语义目标 [27] - 计算开销:CDiT-XXL模型训练成本高,实时应用受限 [27] - 未来方向:结合物体中心表征提升交互真实性,探索闭环控制与多智能体协作 [27]
具身智能入门必备的技术栈:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-30 03:47
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体[1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域[1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业[1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境[4] - MuJoCo能够加速学习过程,仿真速度比现实时间快数百倍,并支持极端情况下的试验而不用担心硬件损坏[6] - MuJoCo采用先进的接触动力学算法,支持高度并行化计算,提供丰富的传感器模型,并具有出色的稳定性和数值精度[6] - MuJoCo已成为学术界和工业界的标准工具,被Google、OpenAI、DeepMind等科技巨头广泛使用[7] 具身智能实战教程 - 课程系统性讲解MuJoCo技术细节,涵盖物理仿真原理、深度强化学习、机器人控制理论、Sim-to-Real迁移技术等[8] - 课程采用项目驱动学习方式,学员将构建多个机器人应用,从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等[8] - 课程提供丰富的实践机会,使用最新工具和框架如MuJoCo、Stable Baselines3、PyTorch等[9] 课程模块与项目设计 - 课程分为六个学习模块,每周有明确的学习目标和实践项目[10] - 六个实战项目包括智能机械臂控制系统、视觉引导的抓取系统、强化学习驱动的运动技能、模型预测控制、多机器人协作系统、Sim-to-Real迁移验证[11][14][16][18][20][21][23] - 每个项目配有详细的中文指导文档、参考代码、调试技巧和扩展建议,来自中国机器人企业的实际应用场景[24] 学后收获与职业发展 - 学员将掌握MuJoCo各项功能、强化学习核心算法、机器人控制理论与实践、Sim-to-Real迁移技术[27] - 学员将具备完整的项目开发经验,熟悉现代AI开发工具链,培养良好的工程习惯[28] - 职业发展方向包括技术专家(机器人算法工程师、AI研究工程师、仿真技术专家)和产品经理路径,年薪可达30-150万[30] 课程安排 - 开课时间为2025年7月15日,每周更新一章,6周结课,采用离线视频教学和VIP群内答疑[32]
港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)
具身智能之心· 2025-06-29 09:51
核心观点 - 香港科技大学团队提出Omni-Perception框架,通过直接处理原始LiDAR点云数据,实现四足机器人全向避障能力,解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略,形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法,成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**:分层处理近场和远场点云,近场采用最远点采样(FPS)和GRU提取局部动态特征,远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**:支持4096个并行环境,渲染速度比Isaac Sim提升300%,并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**:将避障任务建模为马尔可夫决策过程,直接输出关节控制信号,跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**:包含本体状态(关节位置、速度)、外感知状态(10帧LiDAR历史点云)和任务指令(目标速度) [10] - **奖励函数**:结合避障速度追踪奖励(36个扇区障碍检测)和距离最大化奖励(LiDAR射线优化),辅以稳定性惩罚项 [12][13][14] - **训练参数**:PPO算法,4096个并行环境,学习率1e-3,折扣因子γ=0.99 [19] 性能优势 计算效率 - 相比传统SLAM+规划流水线,减少中间处理环节,计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出,速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**:成功率76.7%,碰撞率56.7%,显著优于FPS+MLP(33.3%)和FPS+GRU(30.0%) [23][24] - **空中障碍**:成功率70%(传统方法0%),静态障碍成功率100% [27] - **极端场景**:密集植被中成功率60%,细长障碍(直径<1cm)需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**:输入垂直角度θ>阈值的点云,输出187维特征向量,监督信号为特权高度信息 [18] - **远场路径**:输入θ<阈值的点云,输出64维特征向量,关注全局路径规划 [18] - **动作网络**:4层全连接(1024→512→256→128),输出12维关节目标位置 [19] 域随机化策略 - **物理参数**:附加质量-1.0kg至5.0kg,质心位置偏移±0.2m,电机强度缩放0.8-1.2倍 [20] - **环境参数**:地面摩擦系数0.4-1.0,重力偏移±1.0m/s²,LiDAR噪声率10% [20] 验证结果 - **真实数据对比**:仿真复现了LiDAR非重复扫描模式和自遮挡效应,几何结构匹配度高 [21] - **多场景测试**:在动态障碍场景中,传统高程图方法成功率0%,而Omni-Perception有效应对 [24][27]
下半年CCF-A/B类会议窗口期收窄,发一篇具身论文还来得及吗?
具身智能之心· 2025-06-29 09:51
下半年CCF会议投稿机会 - 错过上半年顶级会议投稿窗口可能导致研究成果发布延迟和错失学术交流机会 下半年CCF会议提供了关键替代渠道[1] - 高效利用投稿机会面临核心挑战 包括时间压力下确保论文质量 选题新颖性 实验严谨性 写作规范性和投稿策略匹配度[1] - 提供1v1指导课程帮助解决上述挑战 通过资深导师介入论文撰写与修改过程 提供个性化解决方案以提升论文竞争力[1] 论文辅导面向的痛点人群 - 计算机专业本硕博学生面临导师放养 缺乏科研指导[4] - 有科研需求需积累经验提升职称或学术成就的人群[4] - 人工智能领域从业者希望通过科研提升职场竞争力[4] - 考研申博留学需提升简历含金量的群体[4] 论文辅导解决的问题 - 解决导师放养导致的科研指导缺失问题[3] - 帮助建立科研思维和系统知识体系[3] - 掌握经典与前沿算法 形成清晰知识框架[3] - 实现模型理论与代码实践结合 提升实践能力[3] - 将baseline深化拓展形成个人论文成果[3] 论文辅导阶段与交付成果 - 选题阶段:导师引导构思或直接提供论文idea[5] - 实验阶段:全程指导实验设计 模型搭建 调参和idea验证[7] - 写作阶段:指导完成高质量论文写作 符合审稿人要求[9] - 投稿阶段:推荐合适期刊 提供精准投稿建议[14] - 录用阶段:确保论文在周期内完成录用[15] 辅导过程具体内容 - 选题阶段:梳理研究成果 提供文献 指导创新点构思[11] - 实验阶段:完成实验设计 数据处理 代码实现和结果分析[12] - 写作阶段:剖析优秀案例 搭建论文框架 润色论文内容[13] - 投稿阶段:筛选期刊会议 指导回复审稿意见[17] 课程服务与支持 - 腾讯会议在线1v1上课 微信群日常答疑[18] - 班主任全程督学跟进学习进度[16] - 私人群提供与主讲导师直接沟通渠道[24] - 线上语音会议结合文字/语音答疑[24] 课程交付成果 - 产出一篇目标区位的高质量论文[19] - 掌握完整科研流程和论文写作技巧[19] - 提升科研能力和专业素养[19] - 获得投稿选刊技巧和前沿技术认知[23] 课程指导周期 - 总周期=核心指导期+维护期 根据论文区位3-18个月不等[22] - CCF A/SCI 1区:核心36次课+9个月维护[22] - CCF B/SCI 2区:核心28次课+6个月维护[22] - CCF C/SCI 3区:核心28次课+6个月维护[22] - EI期刊/会议:核心24次课无维护期[22] - 硕士论文周期以学员需求为准[26] 课程特色亮点 - 主讲导师为顶会审稿人 提供全方位指导[24] - 每周1次45分钟1v1会议指导课[25] - 维护期通过微信群进行审稿意见答疑[25] - 提供基础课程供学员自主学习[28] - 专属沟通群配备导师和班主任答疑[28]
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 09:51
核心观点 - 文章从人类运动技能学习角度系统总结了VLA模型的后训练策略,提出环境、具身、任务三维分类框架,并探讨神经科学对机器人学习的启发[4][5][6] - VLA模型需通过后训练从通用预训练转向特定任务适配,类似人类从遗传能力到专项技能的转化过程[8][9] - 类脑视角下,后训练技术可划分为环境感知增强、具身认知优化、任务理解深化及多组件集成四大方向[10][12] VLA模型与后训练重要性 - VLA模型整合视觉、语言与动作生成模块,实现"看-听-动"闭环,但预训练模型在真实场景中需后训练提升精度与鲁棒性[8] - 后训练利用少量目标场景数据微调模型,使其适应机器人物理特性与任务需求,解决"开箱即用"性能不足的问题[9] 三维后训练策略 环境维度 - 引入可供性线索强化模型对环境交互可能性的理解,如物体功能暗示(门把手提示抓握)[12] - 优化视觉编码器与多模态感知融合,提升环境细节记忆与抗遗忘能力[12][13] 具身维度 - 建立机器人正向/逆向运动学模型,模拟人类前馈-反馈控制机制实现精准动作规划[14] - 借鉴小脑多内部模型协同机制,设计分层动作控制模块[14] 任务维度 - 通过人类示范数据注入专家知识,加速任务理解[14] - 采用层次化策略分解长程任务为可管理子步骤,对应人类分而治之的神经处理模式[14][17] 技术挑战与趋势 - 数据效率:需开发课程学习、主动采样等类人策略降低训练数据需求[22] - 多模态扩展:触觉/深度传感等新模态输入可提升环境交互真实性,但面临传感器融合难题[22] - 持续学习:当前离线微调易导致遗忘,需借鉴人类记忆机制开发终身学习框架[22] - 开放泛化:从实验室性能优化转向未知环境适应能力建设[22]
具身智能之心sim2real交流群来啦!
具身智能之心· 2025-06-28 07:58
行业交流群 - 交流群专注于sim2real及sim2real2sim技术在机械臂、双臂、四足、人形等领域的应用讨论 [1] - 群内严格禁止广告宣传,违规者将被拉黑清除 [1] - 群满后可添加指定微信并备注"sim2real加群"以获取邀请 [1]
清华90后博士厨房机器人融资数千万,获北京首张具身智能餐饮许可证
具身智能之心· 2025-06-28 07:48
公司融资与背景 - 享刻智能完成数千万元Pre-A轮系列融资,投资方包括世纪长河科技集团、启迪之星、网龙天映创投、广华创投等[2] - 公司累计已完成亿元级规模融资,天使轮投资方包括真格基金、中关村智友科学家基金、九阳股份、振邦智能等[16] - 创始人陈震为连续创业者,拥有北航计算机学士、清华计算机硕士学位,目前是清华大学未来实验室博士生[3] - 陈震此前创办的速感科技被九阳母公司JS环球生活全资收购[4] 产品与技术 - LAVA机器人已获得北京市首张具身智能机器人食品经营许可证,成为全国首个"持证上岗"的AI厨师[6] - 机器人能2分钟炸好一盘薯条、做汉堡,未来还将学会做冰淇淋和调饮品[7] - 通过视觉识别食材并自主判断烹饪时间,能学习掌握新菜品制作方法[8] - 已实现连续190天无间断运行,单日处理订单峰值达1,732单,累计完成超10万次无故障炸制任务[8] - 平均40秒/单的制作效率,能耗较传统设备降低62%,管理效率提升40%以上[8] 商业化进展 - 已与海外知名连锁品牌签订千台级量产订单,将于下半年启动海外部署交付[10] - 专注西式快餐领域,因其标准化程度高更易实现自动化[12] - 采用"三机一体"架构升级:强化机器感官、机器认知和机器关节[12] 产业合作 - 与清华珠三角研究院签署合作协议,共建机器人核心技术联合研发平台[15] - 九阳股份在并购陈震的速感科技后,又作为天使投资方参与新项目[17] - 核心团队来自原速感科技、Shark Ninja及九阳团队,拥有10年以上研发管理经验[18] 创始人理念 - 强调"在真实场景中创造价值"的理念,深入理解厨房、餐饮等商业化服务场景[20] - 提出"在无数次试错中进化"的创业方法论[20] - 团队从2013年研究vSLAM技术到2018年实现百万台级量产销售,积累了12年技术产业化经验[19]
数据、算法和本体,小白入门很难绕开任何一个部分......
具身智能之心· 2025-06-28 07:48
具身智能技术要素 - 入门具身智能需要三大要素:数据采集+算法+硬件本体,其中数据采集依赖高成本遥操方案(机械臂适用VR+动捕手套方案),算法涉及VLN/VLA/Diffusion Policy/强化学习等技术栈,硬件预算从20-30万专业设备到3D打印自制方案不等 [1] - 数据采集方案中遥操质量最高但成本高,VR遥操+动捕手套适用于人形机器人,需进行前处理和后处理 [1] - 算法技术更新快需持续跟踪paper reading,硬件选择受预算限制明显,仿真环境是低成本替代方案 [1] 社区资源与生态建设 - 社区目标3年内聚集万人规模,已整合40+开源项目、60+数据集及主流仿真平台,覆盖感知/交互/导航等15+技术路线 [9][15][17] - 搭建学术-产业桥梁,成员来自斯坦福/清华等顶尖高校及优必选/小米等头部企业,提供课程/硬件/问答闭环体系 [6][2] - 汇总国内外30+具身公司及零部件品牌,涵盖芯片/传感器/机械臂等供应链资源,配套行业研报与岗位对接 [15][21][17][5] 技术学习体系 - 建立16类专项学习路线,包括强化学习/多模态大模型/机械臂抓取等,配套PDF书籍与开源项目代码 [9][19][23] - 数据集覆盖触觉感知/导航/机械臂控制等8大领域,仿真平台包含通用与真实场景两类解决方案 [27][29] - 直播分享与实时答疑机制支持技术交流,重点探讨sim2real/VLM应用/分层决策等行业难题 [60][12][63] 行业应用方向 - 技术落地聚焦人形机器人模仿学习、视觉-语言-动作模型部署、四足/轮式+机械臂系统开发等前沿场景 [47][56][58] - 研究热点包括Diffusion Policy生成控制、大模型轻量化推理、触觉感知多模态集成等创新方向 [49][52][39] - 产业应用覆盖教育/医疗/物流等7大领域,配套企业招聘与项目对接服务实现生态闭环 [15][5][13]
北航×新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
具身智能之心· 2025-06-28 07:48
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统仅依赖"小脑"模型难以胜任家庭级复合操作,需要"大脑"VLM进行长期规划、记忆管理与自我反思 [7] - 现有基准平均任务长度不足500步,缺乏对大小脑协作闭环能力的考察,模型难以应对遮挡、跌落或目标迁移等场景 [8] - 提出RoboCerebra基准,面向长时序、多扰动、强记忆约束的任务,配套发布Hierarchical Planning & Execution (HPE)框架 [8][10] RoboCerebra数据集 - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 任务平均长度2,972.4步,是现有长时序数据集的6倍,最长超3,500步 [13][18] - 涵盖饮品准备、物品归置、餐具整理等家庭场景,定义12种离散动作类别,10%任务包含五类以上动作 [17][18] - 引入六类子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 数据生成流程 - 采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重闭环验证 [13][17] - 符号推理器检查前置与后置条件,GPT-4o检查场景合理性,失败则重新生成 [17] - 人类专家录制400小时标准操作轨迹,独立标注团队进行200小时人工质检 [17] 评测协议 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 预设"锚点"同步机制确保不同方法在子计划执行时序对齐 [21][26] - 成功率基于自动化谓词检测,计划匹配精度评估高层符号计划一致性 [21] Hierarchical Planning & Execution框架 - 高层VLM-Planner低频率处理环境观测生成子目标序列,低层VLA-Controller高频率执行动作指令 [22][26] - 通过Memory Bank共享任务状态与中间子目标,实现自适应replanning [22][26] - 在Memory Execution场景中任务成功率提升幅度超过70% [27] 实验结果 - GPT-4o在规划准确率、任务成功率和计划效率上全面领先,平均成功率16.04% [28][29][30] - 在Memory Exploration阶段,GPT-4o探索成功率80%,探索效率0.32,显著优于Qwen2.5-VL [31] - 在Memory Execution阶段,GPT-4o决策准确率30%,优于Qwen2.5-VL的10% [31]