Workflow
具身智能
icon
搜索文档
首个长程「VLA-World Model」一体化模型!ManualVLA解锁长程精细操作任务
具身智能之心· 2025-12-23 03:34
文章核心观点 - 北京大学、香港中文大学与至简动力团队提出了一种名为ManualVLA的新型“生成-理解-动作”一体化模型,旨在解决现有视觉-语言-动作模型在需要明确目标终态的长时序任务中难以兼顾高层规划与精细操控的挑战 [2][5] - 该模型摒弃了传统分层级联方案,构建了全新的Mixture-of-Transformers通用基础模型架构,通过“规划专家”生成多模态操作说明书,并结合显式与隐式“思维链”推理来指导“动作专家”执行,实现了理解与生成的高度统一 [5] - 实验结果表明,ManualVLA在现实场景任务中的平均成功率相较于分层结构的最新基线方法提升约32%,验证了其统一范式的有效性 [5] 研究背景与挑战 - 当前VLA模型在需要精确定义最终目标状态的长周期任务中面临核心难题:必须执行精确操作以严格对齐预定义的最终场景,并有效集成长周期规划与细粒度控制,同时保持对多样化现实世界环境的泛化能力 [7] - 现有的分层方法依赖人工制作说明书或人类演示视频,在泛化到未见过的最终目标状态方面存在局限性,难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA方法陈述 - ManualVLA的核心思想是让模型学会自己生成说明书,再按说明书执行动作 [12] - 在推理阶段,系统接收自然语言指令、当前场景图像和最终目标图像,由“规划专家”生成包含文字描述、像素级坐标和子目标图像的多模态手册,将长时序任务拆解为一系列可控的短阶段 [12] - 模型架构基于Janus-Pro 1B拓展到MoT架构,集成了“规划专家”和“动作专家” [15] - ManualCoT思维链机制通过显式与隐式两条路径影响动作生成:显式路径将目标位置以visual prompt形式叠加在图像上;隐式路径将手册生成时的内部特征通过注意力掩码传递给动作专家 [16][19][20] - 规划专家采用基于VQ的视觉分词器对子目标图像进行离散化建模;动作专家采用基于扩散去噪的方法进行动作建模,并使用SigLIP-large从384×384输入图像中提取高维语义特征 [19] 真机、模拟器、泛化性实验 - **真机实验**:在Franka双臂平台上测试了2D乐高组装、3D乐高组装和物体重新排列三个长周期任务 [23] - 规划专家在300个未见过的测试样本上生成了高质量的中间图像,例如2D乐高组装的PSNR达29.01,物体重新排列的FID分数为24.46,2D乐高组装的MAE分数为3.23 [23][27] - ManualVLA在所有三个任务中均取得了最高成功率,相比最强的分层基线,最终任务完成率提高了15%到30%,平均成功率高出32% [28] - **仿真实验**:在RLBench的10个仿真任务上取得了70%的平均成功率,超越了SOTA方法π0的63% [31][32] - **消融与泛化实验**:证明说明书中所有模态信息和隐式CoT推理对于解决长周期任务不可或缺,且模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力 [33][36]
VLA+RL技术交流群来啦~
具身智能之心· 2025-12-23 03:34
行业技术动态 - 行业正在积极组建围绕视觉语言动作模型的技术交流社群,社群关注方向包括VLA模型本身、VLA与强化学习的结合以及模型的轻量化与部署 [1]
看了这么多开源项目,推荐复现这几个VLA方法~
具身智能之心· 2025-12-23 03:34
行业技术趋势与人才需求 - 视觉语言动作模型是当前具身智能领域最急需的技术方向之一 这一点在大量职位需求和论文产出上得到体现 [1] - 行业面临的核心挑战在于VLA模型难以调试 数据采集过程复杂且耗时 导致研发效率低下 [2][3] - 近两年来 VLA技术发展迅速 从ACT到OpenVLA、GR00T 再到π0、π0.5、π0.6等新方法层出不穷 性能持续提升 基于强化学习的优化方案使模型表现更佳 [5] 技术研发与落地瓶颈 - 具身智能领域高度依赖硬件本体 算法效果与真机实验强相关 仅靠仿真难以保证泛化性能 许多公司坚持采用真机数据路线 [3] - 从数据采集、模型训练优化到最终部署的全流程打通对初学者而言非常困难 部分从业者甚至花费半年时间仍难以入门并取得良好效果 [8] - 在模型训练环节 仿真和Sim2Real技术至关重要 特别是在真机数据不足时 训练技巧是关键 不同算法难度差异大 例如ACT相对简单易出效果 而π0和π0.5等模型则对细节和技巧要求极高 难以训练成功 [11] - 模型部署面临参数量大的挑战 即使是2B规模的模型 在边缘芯片上部署也有很大难度 因此量化、蒸馏等轻量化操作必不可少 [12] 主流技术方案与开源生态 - 行业内已有如LeRobot等开源技术框架 非常适合入门学习 [5] - 开源机器人本体种类多样 能满足不同研究需求 例如SO-100机械臂、OpenArm双臂操作系统以及XLeRobot移动操作平台等 [6] - 数据采集主要基于模仿学习和强化学习 模仿学习的方法包括遥操作、VR和全身动作捕捉 在机械臂结合VLA的领域 前两种方法更为常用 [10] 专业培训与能力建设 - 为应对技术快速更新和学习困难 业内推出了面向实战的VLA系统课程 课程内容全面覆盖机械臂硬件、数据采集、VLA算法、评测、仿真、模型部署、世界模型融合、真机实验及产业分析 [13][17] - 该课程是目前内容最完整的具身智能课程之一 采用软硬结合的方式 购买课程者将获赠一套包含示教臂和执行臂的SO-100机械臂硬件 [18][29] - 课程面向多类人群 包括正在求职的学生、需要进阶的VLA从业者、从事研究的博硕士生 以及希望从传统计算机视觉、机器人或自动驾驶领域转型至具身智能的人员 [33][36] - 完成课程学习后 学员预期能掌握真机调试与数据采集 掌握各类VLA算法在真机上的部署 对模型量化有深入了解 并对产业落地有清晰认识 简历项目经验可达到1-2年以上算法工程师水平 [36][39]
银河通用机器人牵手百达精工 计划部署超1000台具身智能机器人
新浪财经· 2025-12-23 03:34
格隆汇12月23日|银河通用机器人宣布与百达精工达成战略合作,双方将围绕工业精密制造开展具身智 能机器人规模化深度应用,在百达精工及其生态体系内部署超1000台银河通用机器人,银河通用也将引 入百达精工在核心零部件领域的技术成果。 ...
银河通用机器人牵手百达精工,计划部署超1000台具身智能机器人
新浪财经· 2025-12-23 03:24
银河通用机器人宣布与百达精工达成战略合作,双方将围绕工业精密制造开展具身智能机器人规模化深 度应用,在百达精工及其生态体系内部署超1000台银河通用机器人,银河通用也将引入百达精工在核心 零部件领域的技术成果。 ...
中国人民大学深圳论坛:院士共论科技革命与新质生产力发展之道
证券时报· 2025-12-23 03:22
12月20日,中国人民大学深圳论坛在深圳市宝安区九围国际总部会议中心隆重开幕。在"院士对话:科 技革命与新质生产力"环节,来自高校、科研院所、智库机构的多位顶尖专家学者齐聚一堂,围绕空天 信息、柔性电子、人工智能、市场经济体制、现代金融等关键领域,展开深度研讨,为科技赋能新质生 产力、助力中国式现代化建言献策。 中国工程院院士、武汉大学原校长刘经南聚焦"十五五"规划建议中的战略性新兴产业与未来产业发展。 他指出,中央"十五五"规划建议明确支持空天信息、数字经济、人工智能、生物医药等产业发展,为新 质生产力生成按下"加速键"。未来空天信息产业将重点攻关深空、深海、深地、深网领域核心技术,研 发载人航天、探月探火、卫星导航等关键装备,推进海洋资源探测与深海智能无人平台发展。他强调, 空天信息技术构建的体系化、智能化数字底座是新型信息基础设施核心,必须牢牢掌握时空基准控制权 与信息化、智能化发展主导权,力争2035年前建成更泛在、更融合、更智能的综合时空体系,服务国家 战略需求。 国家一级教授、中央党校(国家行政学院)中国式现代化研究中心主任张占斌提出"全面建成高水平社 会主义市场经济体制具有紧迫性"的核心观点。他 ...
日薪300,我在后厂村“手搓”人形机器人
创业邦· 2025-12-23 03:12
以下文章来源于刺猬公社 ,作者刺猬公社编辑部 刺猬公社 . 互联网内容行业观察与研究 来源丨刺猬公社(ID: ciweigongshe ) 作者丨 园长 编辑丨 陈梅希 图源丨Midjourney 北京后厂村,距离"互联网十字路口"不远的某座写字楼里,一间教室大小的房间内,几十个工人分成 两批,一组在桌上用螺丝刀和扳手拼装轴承模组,一组在旁边的测试区,用示波器和万用表对已经组 装好的总成做检测。 这不是什么小作坊,而是 2025 年的科技创业风口——人形机器人产业的生产环节。 从咖啡到汽车,我参观过各行各业数不清的智能工厂,通常是产品科技含量越高,需要人手工操作的 环节越少,流水线越标准规范,工人和流水线几乎融为一体。以此类推,创造"具身智能"的地方应该 充满了各种黑科技。 但情况并不是我事先想象的那样, 这里没有流水线,也没有除了金属工件冷冻机之外的大型设备,组 装规范全靠人手一本翻到起毛边的 A4 纸手册 ...... 它更像一间大学里自动化专业的实验室,或者一个忙忙碌碌的家电维修部。为了看看当前的机器人产 业究竟发展到什么程度,我报名了某个具身智能企业的外包兼职,本意是想在流水线上,看清这个行 业的冰山 ...
12月23日重要公告一览
犀牛财经· 2025-12-23 02:40
公司股权变动与股东行为 - 康恩贝第二大股东康恩贝集团拟以大宗交易方式减持不超过5065.9万股,占公司总股本不超过2%,控股股东浙药集团为受让方 [1] - 华秦科技股东折生阳、周万城等拟通过询价转让公司股份1072.56万股,占公司总股本的3.93% [3] - 润阳科技控股股东、实控人张镤拟向深圳红岸私募基金协议转让500万股公司股份,占公司总股本的5%,转让价格为30.08元/股 [17] - 红旗连锁股东永辉超市拟通过集中竞价减持不超过1360万股(占总股本不超过1%),并通过大宗交易减持不超过2720万股(占总股本不超过2%) [18][19] - 粤海饲料控股股东、实控人及其一致行动人计划合计减持不超过2090.63万股,不超过剔除回购股份后股本的3% [22] - 英维克股东上海秉原计划减持不超过549.49万股,约占公司总股本的0.56% [31] - 欢乐家股东豪兴投资、李兴和朱文湛拟询价转让公司股份1700万股,占公司总股本比例为3.89% [32] - 天银机电董事、总经理赵云文计划减持不超过155.81万股,占公司总股本的0.37% [33] 公司控制权变更与重大事项 - 奥联电子控股股东瑞盈资产筹划协议转让公司部分股权,可能导致公司控股股东、实控人变更,股票自12月22日起停牌,预计不超过2个交易日 [11] - 旭升集团控股股东徐旭东及其一致行动人筹划股份转让,与广州工控集团等签署协议,交易完成后公司控股股东变更为广州工控集团,实控人变更为广州市人民政府,股票于12月23日复牌 [14] - 毅昌科技控股股东高金技术产业集团正在筹划公司控制权变更事宜,公司股票自12月23日起停牌,预计不超过2个交易日 [16] - 交建股份实控人俞发祥因涉嫌犯罪被绍兴市公安局采取刑事强制措施,公司控制权未发生变化 [20] - 祥源文旅实控人俞发祥因涉嫌犯罪被绍兴市公安局采取刑事强制措施,公司控制权未发生变化,生产经营正常 [29][30] - 天普股份中昊芯英要约收购完成,其及一致行动人共计控制公司68.28774%股份,公司股票于12月23日复牌 [39] - *ST东通深交所决定终止公司股票上市交易,股票于2025年12月30日复牌并进入退市整理期,退市整理期为15个交易日 [40] 公司投资与资本运作 - 超声电子控股子公司拟投资10.08亿元建设高性能HDI印制板扩产升级项目,建成后将新增年产24万平方米的生产能力 [5] - 迎丰股份拟定增募资不超过5.22亿元,用于老旧产线及污水处理系统升级改造、高档印染面料异地新建项目(二期)等 [6] - 中色股份全资子公司中色新加坡以1.06亿美元收购Breca公司及其关联人持有的Raura公司约99.9004%股权,Raura公司主要资产为秘鲁的Raura锌多金属矿和一座水电站 [13] - 华联控股拟以约1.75亿美元(折合人民币12.35亿元)收购Argentum Lithium S.A. 100%股份,从而获得Arizaro项目80%的权益,标的公司主要产品为电池级碳酸锂 [15] - 东江环保拟以不超过1200万元参与广东省具身智能科技有限公司增资扩股,认购其不超过4%的股权 [25] - 凌云光全资子公司拟作为基石投资者,认购智谱于香港联交所首次公开发行的股份,预计认购金额不超过500万美元 [27] - 采纳股份拟以2100万元收购江西丰临医疗科技股份有限公司70%股权,交易完成后江西丰临将成为公司控股子公司 [28] - 中国核建子公司中核二三、中核二四等五家公司拟引进工银投资实施市场化债转股,增资金额合计50亿元,用于偿还金融机构借款 [35] - 新筑股份拟出资5000万元在西藏阿里地区全资设立项目公司,负责建设西藏多龙铜矿“源网荷储”一体化综合能源保障项目 [36] - 北玻股份拟与员工持股平台共同投资设立控股子公司洛阳北玻高温电窑智能装备有限公司,新公司注册资本1000万元,公司出资750万元占75% [37] - 峨眉山A拟出资1000万元投资设立全资子公司四川省峨眉雪芽茶业有限公司 [38] 公司经营与项目进展 - 无线传媒控股子公司与关联方组成的联合体中标河北广电传媒集团广电人工智能媒体平台项目,中标金额488.95万元 [4] - 广东建工全资子公司投资建设的粤水电布尔津县风电项目(三期50万千瓦)首台机组(10MW)并网发电,公司累计已投产清洁能源项目总装机5094.52MW [8] - *ST交投作为联合体牵头人,被确定为“镇雄县第二污水处理厂及配套管网工程工程总承包”项目第一中标候选人,合同估算价为1.28亿元,计划工期12个月 [9] - 卓然股份全资子公司卓然数智签署《补充协议》,明确在年产120万吨PBAT生物降解聚酯项目中承担设备供货,订单金额暂定为40.33亿元,占公司2024年度营业收入的142.09% [41] 公司业绩与分红 - 三花智控预计2025年度净利润为38.74亿元至46.49亿元,同比增长25%至50% [10] - 博杰股份2025年中期拟向全体股东每10股派发现金红利0.94元(含税),合计派发现金1500万元 [24] 公司治理与人事变动 - 贵广网络董事会选举代青松为公司第五届董事会董事长,代行公司总经理职责 [2] - ST证通股票于12月23日停牌一天,12月24日起复牌并撤销其他风险警示,股票简称由“ST证通”变更为“证通电子”,日涨跌幅限制由5%变为10% [12] 公司产品与研发进展 - 泰恩康全资子公司收到国家药监局签发的非那雄胺他达拉非胶囊《药品注册证书》,该药品用于治疗男性良性前列腺增生 [26] 公司获得政府补助 - 恩捷股份下属子公司收到江苏金坛经济开发区管理委员会拨付的补贴款2000万元,占公司最近一期经审计归属于上市公司股东净利润绝对值的3.6% [34] 公司涉及诉讼 - 天玑科技及相关责任人因涉嫌在一项目中串通投标被上海市虹口区人民检察院提起诉讼,公司生产经营正常 [21]
VC开始重新审视机器人泡沫了
36氪· 2025-12-23 02:34
最近一段时间,机器人赛道还在融个不停。众擎、鹿明、优理奇、云深处等公司相继宣布完成融资。 从轮次上看,除了云深处进入C轮之外,大部分还是在比较早期的天使轮、pre-A轮和A轮。"+"号开始 频繁出现,比如刚完成两轮天使轮融资的优理奇,分别是天使++++轮和天使+++++轮;完成A轮的众擎 也是在此前Pre-A++与A1轮的基础上,又进行A1+轮和A2轮这种微轮次叠加式合并融资。我们之前已经 讨论过这种加号越来越长的融资现象,现在来看估计是行业基操了。 从融资金额上看,好像只要一脚踏入这个赛道,拿几个亿是顺理成章的事情。云深处拿了5亿元;众擎 Pre-A++与A1轮累计10亿元融资;鹿明也是数亿元;优理奇两轮天使轮融资合计3亿元。 融资"+"号越来越多 今年投中网发过两篇文章,分别是《天使轮也开始++了》和《有项目已经在融A+++++轮了》,在这波 融资的企业中,天使++的典型代表是优理奇机器人和鹿明机器人。 12月5日,优理奇机器人(UniXAI)宣布完成两轮合计3亿元天使++++轮及天使+++++轮融资,由川商 基金、吴中金控、益华资本、青域基金、太浩创投等机构,以及若干上市公司及产业方参与投资,老股 东赛 ...
让机器人学会“自主干活”,北京人形开源具身小脑XR-1模型
北京晚报· 2025-12-23 02:33
核心观点 - 北京人形机器人创新中心开源了其核心的具身智能模型与数据集,旨在解决行业痛点,推动机器人向“全自主、更好用”阶段发展,并通过与多个行业领先企业合作,加速技术在实际工业与商业场景中的落地应用 [1][3][5] 技术突破与开源成果 - 公司正式开源了面向具身小脑能力的XR-1模型,以及为模型训练提供支持的数据集RoboMIND 2.0和ArtVIP [1] - XR-1模型是国内首个且唯一通过具身智能国标测试的具身VLA大模型,其首创的UVMC技术旨在解决行业“视觉感知”与“动作执行”割裂的核心痛点,实现“知行合一” [1] - 搭载XR-1的机器人能够完成复杂的倒料任务和快速精确的物料分拣,并在业内首个连续开关穿行5扇门的测试中达成全自主操作 [3] - 最新发布的RoboMIND 2.0数据集包含超过30万条机器人操作轨迹数据,覆盖11个工业、商用及家庭场景,并新增了1.2万条带触觉操作数据及大量仿真数据,以降低训练门槛并提升任务成功率 [3] - 同时发布的高保真数字资产数据集ArtVIP,提供了超过1000个高保真数字孪生铰接物品,覆盖6大场景类型,测试表明增加其仿真数据比例能提升机器人任务执行成功率 [3] - 此前推出的RoboMIND数据集累计下载量已超过15万次 [3] 商业化合作与落地应用 - 公司已与多家合作伙伴达成合作,将人形机器人部署到各行各业 [5] - 搭载XR-1的“具身天工2.0”和“天轶2.0”机器人已进入福田康明斯发动机工厂,在“无人生产线”上自主完成料箱取放、搬运任务测试 [5] - 公司与中国电科院合作落地了人形机器人高危电力巡检项目 [5] - 公司与李宁运动科学实验室合作开展人形机器人跑鞋测试 [5] - 近期,公司与拜耳签订合作协议,共同推动人形机器人及具身智能技术在制药生产中的技术开发 [5]