具身智能之心
搜索文档
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型
具身智能之心· 2025-12-19 00:05
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 本文第一作者郝一鸣,香港中文大学(深圳)GAP-Lab 在读博士生。本文共同第一作者为许牧天,于香港中文大学(深圳)取得博士学位。导师韩晓光教授,为 本文通讯作者。 在 个性化 视觉生成的实际应用中,通用视觉基础模型的表现往往 难以满足精准需求 。为实现高度定制化的生成效果,通常需对大模型进行针对性的自适应微 调,但当前以 LoRA 为代表的主流方法,仍受限于定制化数据收集与冗长的优化流程,耗时耗力,难以在真实场景中广泛应用。 为此,港中大(深圳)GAP-Lab 提出全新框架 LoFA ,从上重塑个性化视觉生成的技术路径。该框架能够 在数秒内根据用户指令前馈式直出对应的 LoRA 参数 , 使大模型快速适配到个性化任务中 —— 无需漫长优化, 效果却媲美甚至超越传统 LoRA ,真正推动大模型适配进入 "即时获取" 的新时代。 论文名称:LoFA: Learning to Predict Pe ...
Google 新作背后:机器人测评Evaluation范式正在发生变化
具身智能之心· 2025-12-19 00:05
具身纪元 . 以下文章来源于具身纪元 ,作者具身纪元 见证具身浪潮,书写智能新纪元 编辑丨 具身纪元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 姚顺雨的在人工智能下半场的文章《The Second Half》,他说:在AI的下半场,技术方案已经很成熟,瓶颈变成了评估。 在具身智能的下半场,模型评估更加重要,也更加复杂。 完整评估单一策略,本身就不容易。 传统的评估方法需要在真机上去测试 ,困难也接踵而至: 第一点,成本高 :在真实硬件上进行大规模测试既费时又费力 尤其是当需要对比多个不同的策略版本时。 如果要提升测试效率,多个硬件的部署在所难免,这又是额外的成本。 控制测评变量的沉默成本也不小,比如要减轻光照的影响,要挑同样光线的情况去做测评 第二点,覆盖面有限: 测评需要设置不同的情况来测试模型是否能够依旧表现出色,但在真实场景中很难穷尽所有现实的情况,比如干扰物、杂乱的桌面和光线等 第三点,安全性风险: 测试机器人的安全性,往往意味着要给机器人去尝 ...
领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?
具身智能之心· 2025-12-19 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Haoyuan Deng等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 Vision-Language-Action(VLA)模型通过融合视觉、语言与动作,为机器人带来了强大的零样本与跨任务泛化能力。但仅依赖模仿学习的 VLA 在真实世界 OOD 场 景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。 强化学习(RL)正成为连接 VLA 预训练与真实部署的关键桥梁。 由南洋理工大学、北京邮电大学、清华大学联合推出, 本综述系统梳理了 RL-VLA 在"学习—优化—部署"全生命周期中的核心方法与挑战,并从四个维度构建了 完整技术图景:架构、训练范式、真实世界部署以及评估。 一、RL-VLA 架构:从开环推理到闭环优化 RL 通过奖励驱动的策略更新,使 VLA 从"复现示范"转向"结果导向"的闭环决策: 动作建模 A 论文链接(每月更新) :https://doi.org/10.362 ...
堆方块,这款机械臂丝滑跑出了pi0与pi0.5,支持Lerobot框架~
具身智能之心· 2025-12-19 00:05
想让算法快速落地实战的同学,不妨了解一下我们这款机械臂! 成功适配Lerobot啦~ 新手也能轻松解锁的精准实操! 继打通pi0与pi0.5任务后,Imeta-Y1轻量级机械臂现已适配Lerobot ,成功 实现夹取方块精准放入胶带圈的流畅操作,配套代码也将正式开源! 从识别抓取,到稳定搬运,再到对准放置,每一步都见证了算法的持续迭代与机械臂执行表现的稳定性。 让科研更贴近实战,让想法更快得到验证。Imeta-Y1与你一同进步,在具身智能的道路上,走得更稳、更 远。 面向具身科研领域打造的轻量级高性价比机械臂 还在为具身智能领域的硬件选择发愁吗? 太贵的机械臂买不起,太便宜的又难用、难上手? 别担心,Imeta-Y1 来了——这是一款专为新手和科研初学者设计的轻量级高性价比机械臂。 无论你是学生、教育工作者,还是刚踏入机器人领域的开发者,Imeta-Y1 都能帮你低成本、高效率地完成 算法验证与项目开发。 对小白尤其友好的是: ✅ 提供全流程开源工具链+代码示例,从数据采集到模型部署一气呵成; ✅ 支持 Python / C++ 双语言接口,无论你擅长哪种语言都能快速上手; ✅ 兼容 ROS1 / ROS2, ...
一起创造价值!具身智能之心招募运营和销售的同学了(全职&实习)
具身智能之心· 2025-12-18 09:30
具身智能之心招募运营和销售岗位了,欢迎和我们一起在具身与AI领域持续创造价值。 现开放4个坑位,2个全职2个实习 base:上海,薪资open~ 自媒体运营岗(1个全职+1个实习岗位) 负责科技自媒体平台的运营(自动驾驶、具身智能、机器人、大模型等方向),包括小红书、bilibili、公众号、视 频号、社群等。 职位介绍: 1. 负责各个自媒体平台的涨粉、活跃度提升、社群的运营; 2. 负责在线课程、其它教育产品的推广; 1. 具备公众号等自媒体平台运营的经验; 2. 具备一定推广销售的能力; 3. 熟悉办公软件、视频制作软件; 产品销售岗位(1个全职+1个实习岗位) 负责教育产品的销售(自动驾驶、具身智能、机器人、大模型等方向),包括课程、论文辅导、求职辅导、硬件 等。 职位介绍: 1. 负责平台课程、硬件和其它配套教育产品的销售; 3. 负责视频剪辑、海报制作,负责直播宣传等; 职位要求: 3. 和运营团队对接,提升月咨询量和销售额; 职位要求: 1. 具备在线产品销售的经验; 2. 具备线下产品推广的能力; 3. 熟悉办公软件,大模型使用等; 联系我们 薪资比较open,感兴趣的同学可以添加峰哥微信oo ...
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-18 09:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 昨天看到了复旦&港大团队关于移动操作上的工作wholebodyvla。结合近期分享的很多方法,vla算法 貌似正在爆发式增长,许多框架和工具(比如RL)也帮助VLA模型实现更加泛化的性能。 数据和采集设备逐渐多元化,百万级的开源数据陆续开放,评测标准逐渐统一。这一切,表示着产业 化可能很快到来。 作为核心模块,vla与将会覆盖更多场景上的应用,下游合作伙伴会越来越多,更多优秀的人才将陆 续加入进来。 但VLA貌似"很伤",不好调,数据采集也麻烦,很多同学频频吐槽。特别是对正在从事、入门vla 领域的同学。 虽然觉得这个方向很有意思,但无从下手,经常踩坑 只看论文而没有真机实验,在仿真里面做了好久,也不知道动起来啥样子。确实,具身和其它领域都 有所不同,太注重本体,即使是算法也极其依赖硬件。 不少同学说,相当多的时间"浪费"在踩坑上了。 确实,真实 ...
全球首条!具身智能机器人在宁德时代电池产线实现规模化落地
具身智能之心· 2025-12-18 04:00
核心观点 - 全球首条实现人形具身智能机器人规模化落地的新能源动力电池PACK生产线在宁德时代投入运行 标志着具身智能在智能制造领域取得里程碑式突破 [2] - 人形机器人“小墨”成功替代了长期依赖人工的高压、高风险、柔性要求高的电池包最终测试工序 实现了效率、质量与安全性的显著提升 [2] - 该成果是产业链协同的产物 由宁德时代生态企业研发并搭载公司自研电池 为具身智能机器人的规模化部署奠定了基础 未来公司将以此为基础深化智能制造与产业协同 [5] 技术突破与应用成效 - 机器人搭载先进的端到端视觉-语言-动作模型 具备强大的环境感知与任务泛化能力 能自主应对来料位置偏差等不确定性并实时调整 [2] - 机器人具备柔性操作能力 在插拔柔性线束时可动态调节力度 确保连接可靠且不损伤部件 [2] - 在实际运行中 机器人插接成功率稳定在99%以上 作业节拍已达到熟练工人水平 [2] - 机器人不仅能自主检测线束连接状态并上报异常以降低不良品率 还能在作业间隙主动切换至巡检模式 [4] - 面对多型号电池连续生产任务 机器人单日工作量实现了三倍提升 且一致性与稳定性表现卓越 [4] 行业影响与未来规划 - 被替代的EOL与DCR工序具有“多品种、小批量、高柔性”特点 长期依赖人工操作存在高压打火风险及效率与质量不稳定等问题 [2] - 公司联合多个部门深入产线调研 将实际场景需求转化为工程技术指标 制定了兼具前瞻性与落地可行性的开发方案 [5] - 未来公司将以此次成功落地为起点 全面提升PACK线的自动化及智能化水平 [5] - 公司将持续深化智能制造与绿色动力的产业协同 推动具身智能大模型在更广泛场景中应用 助力全球零碳战略目标实现 [5]
EVOLVE-VLA:VLA模型测试时训练,突破模仿学习瓶颈
具身智能之心· 2025-12-18 00:07
研究背景与动机 - 当前主流的视觉-语言-动作模型采用监督微调训练范式,存在高标注成本和脆弱的轨迹记忆两大根本性局限[2] - 监督微调范式适配新任务需收集数百条演示数据,成本随任务数量线性增长,难以扩展到通用机器人场景[5] - 模型仅模仿演示轨迹,无法泛化到训练分布外的场景,执行出现偏差容易导致任务彻底失败,缺乏错误恢复能力[5] - 人类掌握操作技能的核心是通过实践学习,这与静态模仿学习形成对比,让模型在部署阶段通过环境交互实现持续学习成为关键方向[2] 核心挑战 - 测试时训练的核心障碍是缺乏Oracle奖励信号,即训练时的模拟器真值成功信号在部署时不可用[3] - 直接使用朴素的进度估计器会产生噪声信号,可能误导政策优化,在长视野任务中噪声累积会严重影响学习效果[3] 核心创新点与方法框架 - 提出测试时自主反馈机制,用预训练的进度估计器替代Oracle奖励,提供密集、连续的反馈信号,解决测试时无监督信号的问题[4] - 设计噪声信号驯服策略,包括累积进度估计和渐进式视野扩展两大核心机制[4] - 累积进度估计通过区间里程碑采样、增量进度计算和累积聚合,将噪声点估计平滑为稳定可靠的反馈信号[6] - 渐进式视野扩展分阶段逐步增加最大探索视野,让模型先掌握简单子任务,再衔接复杂长视野任务,提升对估计误差的鲁棒性[6] - 首次实现零样本跨任务迁移,在无需任务特定演示的情况下,让模型通过自主探索适配新任务[6] 实验设置与核心结果 - 实验基准数据集为LIBERO,包含Spatial、Object、Goal、Long四个任务套件共40个任务[15] - 基础模型为OpenVLA-OFT,进度估计器为预训练的VLAC,评估指标为任务成功率[15] - 相比监督微调基线平均成功率89.2%,EVOLVE-VLA提升6.5%至95.8%[16] - 在各任务套件中表现一致提升:Spatial提升4.1%、Object提升7.3%、Goal提升6.0%[18] - 长视野任务提升最为显著,达8.6%,成功率从85.8%提升至94.4%[18] 低数据场景与跨任务泛化 - 在仅使用1条演示数据的1-shot预训练场景下,基线成功率仅43.6%,EVOLVE-VLA提升17.7%至61.3%[19] - 长视野任务提升22.0%,Object任务提升29.9%,验证了框架对降低数据收集成本的作用[20] - 在跨任务泛化测试中,将仅在LIBERO-Long上预训练的模型直接部署到LIBERO-Object,无测试时训练时成功率为0%,经自主探索后成功率达20.8%,实现零样本跨任务迁移[21][22] 消融实验与定性分析 - 累积进度估计机制相比朴素2帧对比方法,成功率从88.3%提升至91.3%,且仅需32次奖励调用,兼顾效果与效率[21] - 在密集奖励基础上添加渐进式视野扩展,成功率从91.3%提升至94.4%,获得额外3.1%增益[23] - 通过测试时训练,模型展现出演示数据中不存在的错误恢复、状态适应和策略创新等涌现能力[27] - 存在失败案例,主要原因为进度估计器与环境成功标准存在语义错位,导致奖励黑客或误判[33] 技术贡献与行业意义 - 该工作将视觉-语言-动作模型从静态模仿推向自主进化,为通用模型发展提供了新范式[32] - 证明通过环境交互实现持续学习是突破数据依赖与泛化瓶颈的关键,为真实世界部署的自适应机器人奠定了基础[32] - 提出基于进度估计器的自主反馈方案,解决了测试时无Oracle奖励的关键问题[34] - 在LIBERO基准上验证了框架有效性,实现了长视野任务+8.6%、1-shot场景+22.0%的性能提升,以及0%到20.8%的跨任务泛化突破[34]
复旦&港大等团队!WholeBodyVLA:面向全身移动操作控制的VLA框架
具身智能之心· 2025-12-18 00:07
文章核心观点 - 由复旦、港大等团队提出的WholeBodyVLA框架,是首个实现大范围人形机器人端到端移动-操作的系统之一,通过统一潜在动作学习和面向移动-操作的强化学习策略,解决了现有方法在“操作感知型移动”方面的不足,在AgiBot X2机器人上的实验表明,其性能比现有基线方法提升21.3% [4][5][12] 现有方法的不足与核心挑战 - 现有模块化或端到端方法无法规划和执行能主动创造操作前提条件(如接近、调整姿态)的移动,而是将移动和操作视为独立阶段,限制了机器人的工作空间 [2][3] - 核心挑战在于“操作感知型移动”,以及两个根本问题:人形机器人遥操作数据稀缺,以及现有强化学习控制器的精度和稳定性有限 [4][6] WholeBodyVLA提出的解决方案 - **统一潜在动作学习**:设计了一个学习框架,使视觉语言动作系统能够从低成本、无动作标签的第一视角人类视频中学习移动-操作知识,以缓解数据稀缺问题 [4][6][8] - **面向移动-操作的强化学习策略**:提出采用简化离散指令接口的LMO策略,专门优化前进、转弯、下蹲等核心移动-操作动作的准确性和稳定性,以解决低层执行不可靠的问题 [4][10] - **高效数据采集**:设计了仅需单操作员和单目相机的低成本、高效人类第一视角数据采集流程,以扩充数据集 [4][19] WholeBodyVLA方法细节 - **分离的潜在动作模型**:由于移动和操作视频的视觉变化模式不同,分别训练了用于操作的LAM和用于移动的LAM,再联合监督VLA训练,以避免性能不佳 [17][18] - **VLA训练与执行**:VLA基于视觉和语言指令,通过交叉熵损失联合预测两种潜在动作,轻量级解码器将其映射为机器人特定的上肢关节角度和移动指令,再由LMO策略转换为下肢力矩执行 [19] - **LMO策略设计**:采用仅依赖本体感受状态的紧凑观测空间,以及明确启停语义的离散指令接口,并通过两阶段课程学习和参考塑形来优化精度与稳定性 [20][21][22][24] 实验验证与性能 - **任务设置**:在AgiBot X2机器人上评估了三个综合任务:装袋、装箱和推车,以评估双臂协同、下蹲精度、转弯准确性和重载稳定性 [26][27] - **性能对比**:在三个任务的平均得分上,WholeBodyVLA达到78.0%,显著高于模块化设计的64.0%、GR00T w/ LMO的42.0%和OpenVLA-OFT w/ LMO的56.7% [31] - **消融实验**:移除统一潜在学习会导致成功率下降38.7%;使用基于速度的RL控制器变体成功率低24%;分离LAM设计优于共享单一LAM [31][32][36] 技术贡献验证 - **无标签视频的贡献**:使用人类第一视角视频进行潜在预训练能显著提升性能并减少对遥操作数据的依赖,使用超过50%人类视频预训练的模型,仅用25条遥操作轨迹微调即可匹配使用较少视频但需200条轨迹微调的模型性能 [35] - **LMO的贡献**:LMO策略有效解决了基于速度控制器常见的绊倒、路径偏移等问题,在扩展任务(如不平坦地形、长多步序列)中表现出更高的可靠性 [36] - **泛化能力**:框架在更具挑战性的场景中(如不平坦地形遍历、长时程多步序列、日常移动-操作活动)均保持性能优势,展现出强大的泛化能力和可扩展性 [38]
SIGGRAPH 2025:摩尔线程赢3DGS挑战赛大奖,LiteGS全面开源
具身智能之心· 2025-12-18 00:07
文章核心观点 - 摩尔线程在SIGGRAPH Asia 2025的3DGS重建挑战赛中凭借自研的LiteGS技术获得银奖,证明了其在下一代图形渲染技术3D Gaussian Splatting领域的算法实力和软硬件协同优化能力 [1] - 3DGS是一项革命性的3D场景表示与渲染技术,相比传统NeRF,能在保持画质的同时将渲染效率提升数百至上千倍,并成为具身智能等前沿领域的关键基础技术 [4][7] - 摩尔线程通过开源其3DGS基础库LiteGS,展示了从底层GPU系统到高层算法的全栈优化能力,在训练效率和重建质量上树立了新的性能标杆,并计划在开发者大会上进一步探讨该技术如何赋能未来 [20][24][28] 3DGS技术概述与行业意义 - 3D Gaussian Splatting是2023年提出的革命性3D场景表示与渲染技术,以可参数化的3D高斯分布为核心,实现了画质、效率与资源占用的卓越平衡 [4] - 与传统NeRF相比,3DGS在保持逼真渲染质量的前提下,将渲染效率提升数百至上千倍 [4] - 该技术在光线追踪、VR/AR实时渲染、多模态融合等方向展现出极强的适应性与扩展性 [4] - 3DGS以其高保真、快速优化和轻量级结构,为具身智能构建准确的世界模型提供了可靠支撑,正逐渐成为该领域的关键基础技术之一 [7] - 3DGS已成为全球学术界与产业界竞相投入的研究方向,受到SIGGRAPH Asia等权威机构的高度关注 [8] SIGGRAPH Asia 2025 3DGS挑战赛详情 - 挑战赛要求参赛团队在60秒内,基于提供的真实终端视频序列、存在误差的相机轨迹及终端SLAM点云,完成高质量的3DGS重建 [10] - 比赛以PSNR(重建质量)与重建速度为综合评价指标 [12] - 比赛结果及数据集已向全球公开 [14] 摩尔线程参赛表现与技术成果 - 摩尔线程AI团队以“MT-AI”参赛,在重建精度与效率上取得均衡表现,最终获得二等奖(银牌) [17] - 根据成绩表,摩尔线程(MT-Al)的平均PSNR为27.58,重建耗时为34秒 [18] - 公司自主研发了3DGS基础库LiteGS,首次实现了从底层GPU系统、中层数据管理到高层算法设计的全链路协同优化 [21] - 在GPU系统层面,创新提出基于“One Warp Per Tile”原则的“Warp-Based Raster”新范式,大幅降低梯度计算开销 [22] - 在数据管理层,引入“聚类-剔除-压缩”流水线,显著提升数据局部性 [22] - 在算法设计层,采用像素不透明度梯度方差作为致密化核心判据,精准识别欠拟合区域 [22] - 通过协同优化,LiteGS在达到与当前质量最优方案同等水平时,可获得高达10.8倍的训练加速,且参数量减少一半以上 [25] - 在相同参数量下,LiteGS在PSNR指标上超出主流方案0.2–0.4 dB,训练时间缩短3.8至7倍 [31] - 针对轻量化模型,LiteGS仅需原版3DGS约10%的训练时间与20%的参数量,即可实现同等质量 [31] 开源与未来展望 - 摩尔线程已将LiteGS在GitHub平台全面开源,以推动三维重建与渲染技术的开放协作与持续演进 [27] - 公司此次获奖被视作准确把握全球技术发展趋势并引领未来图形计算技术方向的战略体现 [28] - 摩尔线程计划于2025年12月20日-21日在首届MUSA开发者大会上设立技术专题,深入探讨3DGS等图形智能技术如何塑造未来,赋能具身智能等前沿领域 [28]