Workflow
具身智能之心
icon
搜索文档
某机器人具身团队VLA算法专家/RL专家招募!薪资open~
具身智能之心· 2025-12-10 10:00
公司概况与市场地位 - 公司成立于2016年,专注于家用机器人领域,连续三年入选中国科技机器人企业50强,连续五年登上胡润全球独角兽企业榜 [2] - 国内市场已覆盖全国超20个省份、70个城市,授权零售网点超500个 [2] - 全球化进程加速,产品已进入全球50多个国家和地区,包括北美、欧洲、日韩、澳大利亚、东南亚等市场 [2] - 在欧洲已合作进入超5000家线下门店,在北美已进入Best Buy、Costco等大型KA近300家线下门店 [2] - 全球用户突破400万 [2] - 2025年第二季度,公司扫地机器人全球出货量达52.42万台,以8.5%的市场份额首次位居全球第五 [2] 业务发展与技术布局 - 公司正在积极招募具身智能算法与机械臂规划算法专家,表明其正致力于研发面向真实环境的复杂物理任务解决方案 [2][4] - 技术研发聚焦于双臂机器人完成复杂物理任务的多模态决策模型,特别是视觉-语言-动作基础大模型的落地 [5] - 研发工作涵盖从数据采集、算法设计、模型训练到工程部署的端到端系统级解决方案 [5] - 持续探索多模态大模型在具身智能领域的创新应用,并推动前沿技术从实验室到实际场景的转化 [5] - 机械臂规划算法开发面向规模化量产需求,旨在打造高可靠、高适配的解决方案 [7] - 规划算法开发重点覆盖机械臂操作规划、动态避障规划、QP规划、轨迹平滑及奇异规避等关键技术 [8] - 通过仿真环境进行算法验证,并解决从仿真到真实机械臂部署中的迁移问题 [8] - 注重感知-规划全技术栈协同,融合多模态感知数据优化规划精度,并确保算法从研发到量产的顺利落地 [12] 人才与研发要求 - 寻求具身VLA/多模态大模型算法专家,要求硕士及以上学历,具备机器人学习、深度学习、模仿学习等核心算法基础 [7] - 候选人需精通Python,熟悉PyTorch/TensorFlow等框架,并有多模态大模型在机器人感知、操作、导航等方向的研发落地经验 [7] - 具备在机器人、机器学习、计算机视觉等相关顶级会议期刊发表论文或开源项目贡献为加分项 [7] - 寻求机械臂规划算法专家,要求控制相关方向硕士及以上学历,社招需3年以上相关经验,校招需博士学历 [13] - 候选人需熟悉机器人技术栈,精通机械臂运动学与正逆解,具备MoveIt、Pinocchio等工具使用经验 [13] - 要求熟练使用C++/Python,具备ROS/ROS2开发经验,并有Isaac Sim、MuJoCo等仿真工具使用经验 [13] - 社招需具备量产功能交付经验,校招需有算法创新与复现能力 [13]
担心买得起机械臂,不会用?小白+科研友好型的臂来啦~
具身智能之心· 2025-12-10 10:00
产品定位与目标客群 - 产品是一款面向具身智能科研领域的轻量级高性价比机械臂,旨在解决该领域硬件选择中“太贵买不起,太便宜难用难上手”的痛点 [5] - 产品专为新手和科研初学者设计,目标客群包括学生、教育工作者以及刚踏入机器人领域的开发者,旨在帮助他们低成本、高效率地完成算法验证与项目开发 [5][6] 核心价值主张与工作流优化 - 传统具身科研实战中,约70%的时间耗费在调试硬件通信、校准传感器以及在仿真与真机间手动移植代码,算法迭代一次需数天才能看到真实效果 [1] - 该产品通过提供全流程工具链,将工作流优化为:在Gazebo中快速仿真验证算法逻辑,一键将程序部署至真机进行调优,从而实现从“灵感”到“物理动作”的高效多次迭代 [2] - 产品重新定义了“轻量级”,不仅指物理结构轻巧(本体重量4.2KG),更指研发负担的“轻盈” [3][11] 产品关键性能参数 - **机械臂本体**:重量4.2KG,额定负载3KG,6个自由度,工作半径612.5mm,重复定位精度±0.1mm [11][22] - **运动性能**:关节运动最大速度在180°/s至220°/s之间,关节运动范围覆盖各轴特定角度区间 [11][24] - **电气与接口**:供电电压24V,通讯方式为CAN,外部接口为电源+CAN XT30 2+2,控制方式支持轨迹跟踪、示教和API [11][22] - **安装与材质**:底座安装尺寸为90mm*90mm*M5*4,主要材质为铝合金和树脂 [11][22] 核心产品优势与功能 - **全流程开源工具链**:提供从数据采集、模型训练到推理部署的全流程工具链和代码示例(目前开放ACT算法示例),支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架 [7][20][39] - **仿真与真机无缝联调**:提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,可一键将仿真验证后的程序部署至物理设备 [7][20][25] - **多语言与开发框架支持**:提供Python和C++双语言开发接口,同时兼容ROS1和ROS2开发框架 [7][21][22] - **完善的SDK与生态**:提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [32][33] - **持续升级与售后支持**:承诺后期将陆续升级更新VLA、VA相关源码,新老客户均可享受升级,并提供24小时快速响应的售后和生态服务 [7][22] 适配与兼容性信息 - **计算配置**:机械臂的SDK和MoveIt等对电脑配置要求不高,但其适配的ALOHA ACT算法在NVIDIA 4060显卡上即可完成训练和推理 [53] - **视觉传感器**:目前已适配的相机包括Intel RealSense D435系列和奥比中光DCW2 [53] - **开源模型**:用户可自行微调所有开源模型,产品目前已开源适配LeRobot和ACT,并计划逐步适配并开源RobotWin、Pi0等模型 [53]
端到端全身VLA模型Lumo-1:让机器人心手合一,迈进推理-行动闭环时代
具身智能之心· 2025-12-10 10:00
文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理世界中的推理与操作能力,使其在多步骤长时序任务、精细灵巧操作和泛化抓取放置等核心任务上超越了π0、π0.5等先进模型,尤其在处理未见过的物体、场景和抽象指令时优势明显 [7][9][11] 技术方案与模型架构 - Lumo-1是一个端到端全身VLA模型,旨在实现机器人的“心手合一”,其训练结合了具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方法 [7] - 模型采用三阶段训练架构:第一阶段为具身化VLM,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型 [15];第二阶段为跨本体联合训练,强化指令跟随与空间推理能力 [16];第三阶段为利用绳驱机器人Astribot S1的示教轨迹进行真机推理-动作训练 [16] - 最后通过强化学习推理-行动对齐,设计多维度的奖励信号来校准高级推理与低级动作之间的误差,从而在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现 [18][27] 核心技术创新 - **动作空间建模**:通过空间动作分词器将连续动作轨迹转化为可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,减少了数据收集引入的无关噪音 [19] - **结构化推理**:将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使机器人从“执行动作”转变为“执行想法” [22][23] - 结构化推理能力使机器人能理解抽象语义与文化隐喻,例如将玫瑰识别为“代表爱情的花”,或将“KFC里的东西”推理为炸鸡和汉堡 [23] - 该设计支持灵活的实时决策,例如在“把可乐放到盘子上”任务中,当左臂路径遇障时,机器人能自主推理并切换为使用右臂 [25] 性能表现与验证 - 在**多步骤长时序**、**精细灵巧操作**、**可泛化抓取放置**三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型 [9][11] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,Lumo-1的优势更为明显 [9][11] - 在7个多模态基准测试中,有6个优于其骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B [29] - 通过数据受限扩展定律验证,发现在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,为行业指明了注重数据质量的方向 [28] - 在真实环境验证中,S1机器人展现出强大的泛化能力,如面对不同高度容器自动调整手臂姿态,以及识别从印刷体换成手写体的菜单并精准配对食材 [29] 机器人任务能力展示 - 机器人能够完成“热面包”等复杂长时序任务,通过推理识别物体、理解“加热”需用微波炉,并自主完成开门、放入、旋钮、取出等一系列操作 [4] - 能够执行“整理文具”任务,在混乱桌面中快速找齐并精细处理不同形状、材质和尺寸的物品 [4] - 能够处理需要抽象推理的任务,例如“把可以画海洋的文具放到绿盘子里”,并准确找到蓝色的画笔 [23] - 机器人具备四类推理能力:抽象概念推理、子任务推理、视觉观测描述以及运动推理 [30]
突破空间泛化瓶颈:MOVE技术让一条轨迹顶N条用,泛化能力暴涨 76%
具身智能之心· 2025-12-10 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 明明在实验室里表现完美的机器人,为何一到真实场景就掉链子?核心症结在于传统静态数据采集模式的局限:一条训练轨迹只能对应一个固定空间配置,物体位 置、目标落点、相机视角全是 "死的"。要让机器人适应不同场景,就得没完没了采集海量数据,不仅耗时耗力,还会陷入数据稀疏的困境。 作者丨 Huanqian Wang等 编辑丨具身智能之心 如今,北京智源人工智能研究院、清华大学、东南大学等机构的团队,凭借一项名为 MOVE(MOtion-Based Variability Enhancement,基于运动的可变性增强) 的创新技术,精准破解了这一行业痛点,让机器人真正学会 "举一反三"! >> 点击进入→ 具身智能之心 技术交流群 技术资源已公开,欢迎行业伙伴探索 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 核心思路:让数据"动起来",一条轨迹顶N条用 家里让机器人拿杯水,换个杯子摆放位置就失灵;工厂里机器人抓取零件,摄像头角度稍调就 "抓空";仓库中分拣货物,货架高度变了就成了 "断线木偶"…… 在 ...
夹钢笔、叠杯子,VLA算法实战小班课来了~
具身智能之心· 2025-12-10 00:03
具身智能与视觉语言动作模型发展现状 - 行业普遍认为具身智能领域与其他AI领域不同,其算法高度依赖硬件本体,仿真和互联网数据在泛化性能上无法保证,因此许多公司坚持“真机数据”路线 [2] - 近两年来,从ACT到OpenVLA,再到π0、π0.5、π0.6,各类新方法层出不穷,性能持续提升,基于强化学习的优化方案也让VLA模型运行越来越流畅 [2] - 开源技术框架如LeRobot,以及多样化的开源本体如机械臂SO-100、双臂操作openarm、移动操作XLeRobot等,为研究提供了支持 [2] VLA模型落地的主要挑战与模块 - 将数据、VLA模型、训练优化、部署整套流程打通对初学者而言非常困难,许多人在数据采集和模型训练上踩坑,难以入门或取得好效果,特别是π0、π0.5、GR00T等模型涉及大量技巧 [4] - 数据采集主要基于模仿学习和强化学习,模仿学习包括遥操作、VR、全身动捕捉,机械臂+VLA领域更多采用遥操作和VR,如何保证数据质量及实现sim2real是关键问题 [6][7] - 在真机部署前通常需要仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [9] - 模型训练技巧至关重要,许多模型存在机械臂运动准但夹爪操作不佳,或运动误差大的问题,ACT相对简单易出效果,而π0、π0.5等模型训练难度高,强化学习优化也极具挑战 [9] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战也很大,需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [11] 具身智能实战课程内容与安排 - 课程由具身智能之心平台联合业内专家开发,是国内首个面向实战与求职的VLA小班课,旨在解决技术更新快、学习门槛高的问题 [12] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [14] - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂 [19] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10余篇 [22] - 课程面向具身领域求职者、VLA入门进阶者、相关领域学生、希望转行进入具身领域的人员以及对具身智能感兴趣的其他人员 [24] - 课程对硬件有建议配置:推理建议3060及以上显卡,训练建议2张以上3090ti显卡,学员也可自租云服务器资源,并要求具备一定的Python和PyTorch基础 [24] - 学员学后预期能掌握真机调试与数据采集、各类VLA算法在真机上部署、深入了解VLA模型量化、清晰认识具身产业落地,并在简历上积累足够项目经验,达到1-2年以上算法工程师水平 [27] - 课程于2025年12月30日正式开课,共分九章,持续至2026年2月25日 [25][28]
消除推理阶段的额外开销!pi团队提出训练新思路
具身智能之心· 2025-12-10 00:03
文章核心观点 - 针对实时动作分块技术中推理时补绘方法带来的计算开销和延迟问题,提出了一种名为“训练时动作条件约束”的替代方案[1] - 该方法通过在训练阶段模拟推理延迟,让模型直接学习基于动作前缀生成后续动作,从而在推理阶段完全消除了额外计算开销[1][4] - 该方法无需修改模型架构或机器人运行时系统,仅需新增少量代码即可部署,是一种实用的即插即用替代方案[1][4] - 在仿真和真实场景实验中,该方法在高推理延迟下性能优于或等同于原有的推理时实时分块方法,且计算成本更低[1][4] 出发点与背景介绍 - 具身智能体必须具备实时运行和快速响应能力,无法在环境变化中“停下来思考”[2] - 随着参数规模达数十亿的视觉-语言-动作模型被用于高频机器人控制,模型推理延迟达到数十至数百毫秒,生成平滑且响应性高的动作轨迹成为挑战[2] 实时动作分块技术及其局限 - 实时动作分块技术通过异步预测动作块和推理时补绘来保证动作连续性[3] - 但推理时补绘方法会引入额外计算开销,产生延迟,削弱了实时框架的设计初衷,且在应对高推理延迟时存在本质局限[3] 训练时动作条件约束方法 - 核心思路是在训练阶段模拟推理延迟,让策略模型直接学习动作前缀的条件约束,从而消除推理阶段的计算开销[11] - 具体学习条件分布,其中输入为来自同一真实动作块的前缀动作和后缀动作[11] - 对于多数标准策略模型架构,仅需进行3处微小修改即可实现[11] - 由于无法预知精确推理延迟,训练阶段会对延迟值进行随机采样[12] - 修改后的动作生成模块可与推理时实时分块的组件接口兼容,实现无缝替代[12] 实验对比分析 - 实验旨在对比训练时实时分块、推理时实时分块,以及同步和异步基准方法的性能[13] - 仿真实验采用动态Kinetix基准测试环境,真实场景实验基于视觉-语言-动作模型,选取纸盒组装和意式浓缩咖啡制作两项高精度任务[13] 仿真实验结果 - 在动态Kinetix基准测试中,训练预测范围H=8的动作分块流策略模型[15] - 当推理延迟达到2及以上时,训练时实时分块的性能显著优于推理时实时分块,且差距随延迟增大而扩大[16][19] - 在延迟为0和1的场景下,训练时实时分块性能略有劣势,可能是因为学习生成前几个动作的训练计算量相对不足[16] - 每个数据点基于2048次轨迹展开实验[15][19] 真实场景实验结果 - 采用视觉-语言-动作模型基础模型,测试纸盒组装和意式浓缩咖啡制作任务[21] - 训练时实时分块的端到端平均延迟为108毫秒,推理时实时分块为135毫秒[21] - 训练时实时分块在保持与推理时实时分块相当的任务成功率和执行速度的同时,完全消除了推理阶段的计算开销[21] - 两种实时分块方法相比同步推理基准,均能显著提升执行速度[21]
梁文锋,Nature全球年度十大科学人物!
具身智能之心· 2025-12-10 00:03
文章核心观点 - 权威科学期刊《自然》公布2025年度十大科学人物榜单,两位中国科学家梁文锋和杜梦然入选,分别代表了人工智能和深海科学领域的重大突破与影响力 [1][6][7] 梁文锋与DeepSeek入选详情 - 梁文锋因DeepSeek模型对AI领域的重要贡献与变革性影响入选,被《自然》形容为“科技颠覆者” [3][4] - 其金融从业者背景被提及:在投资界声名鹊起后,创立了DeepSeek [4] - 梁文锋为人低调,拒绝了《自然》的采访请求,其模型开放程度与个人神秘程度形成对比 [5] DeepSeek的技术与行业影响 - 年初DeepSeek的横空出世给整个AI行业带来了冲击 [8] - 凭借出色的“性价比”策略,将模型成本降至行业难以置信的水平,并提升了国产大模型在全球社区的技术声量 [9] - 证明了不一定要堆数据、堆参数、堆服务器,也能做出具备一线水准能力的大模型 [10] - 近期发布并开源了V3.2系列模型,在Agent评测中达到了当前开源模型的最高水平 [11][12] 梁文锋的个人背景与职业轨迹 - 1985年出生于广东湛江,17岁以“高考状元”成绩考入浙江大学电子信息工程专业,后攻读同专业研究生,师从项志宇教授研究机器视觉 [14][16] - 2008年毕业后投身量化投资创业,2010年乘沪深300股指期货推出的东风,团队自营资金很快超过5亿元 [17] - 2015年与校友共同创立幻方量化,一年后推出首个AI模型,使用GPU生成并执行交易仓位 [18] - 2021年,幻方量化成为国内首家突破千亿规模的量化私募,被称为“四大天王”之一 [19] - 2023年5月,瞄准通用人工智能,成立独立组织“深度求索”,DeepSeek项目正式启动 [21] 杜梦然入选详情 - 中国科学院深海科学与工程研究所研究员杜梦然入选,被《自然》形容为“深潜者” [22][23] - 入选理由:在2024年,于日本东北部的千岛—堪察加海沟底部,使用“奋斗者号”载人潜水器发现了地球上已知最深的基于化学合成的生命群落,挑战了现有关于深海极端生命和碳循环的模型 [25] 杜梦然的个人背景与研究 - 1987年出生于安徽亳州,现任中国科学院深海科学与工程研究所研究员、中国科学院大学专任教师、深海科学研究部副主任 [28] - 本科毕业于中国海洋大学海洋化学专业,后获国家资助赴美国Texas A&M University攻读博士学位 [29][31] - 主要研究方向为深海深潜科学与探测技术,包括深海流体释放研究和深海原位实验与探测技术 [33] - 曾跟随“蛟龙”号、“深海勇士”、“奋斗者”号载人潜水器下潜20余次,研究成果发表于《Science》等顶级期刊 [33] 其他入选者概览 - Susan Monarez:前美国CDC主任,因坚守科学底线被解职,引发对科学独立性的反思 [35] - Achal Agrawal:印度自由数据科学家,通过揭露学术不端推动印度国家院校排名体系改革 [36] - Tony Tyson:薇拉·鲁宾天文台的构想与推动者,该望远镜将用于透视暗物质与宇宙演化 [37] - Precious Matsoso:成功引导WHO近200个成员国就首份《全球大流行病条约》草案达成一致 [38] - Sarah Tabrizi:亨廷顿病研究领军人物,其团队在基因疗法临床试验中取得延缓疾病进程的关键证据 [39] - Luciano Moreira:在巴西建造全球最大“蚊子工厂”,通过生物防控有效降低登革热发病率 [40] - Yifat Merbl:从蛋白酶体中发现由数千种潜在抗菌肽构成的新免疫防御系统 [41] - KJ Muldoon:身患超罕见病,在六个月大时接受首例高度个性化的CRISPR基因编辑疗法 [42]
扒了一下今年各家具身公司的量产情况和订单金额......
具身智能之心· 2025-12-09 03:44
文章核心观点 - 文章对2025年全球具身机器人行业的量产交付情况进行了调研,汇总了多家头部公司的订单、营收及产能规划,显示行业正从研发测试迈向规模化商业落地 [1][5][6] 全球头部公司订单与量产情况 - **宇树科技**:未透露具体订单量,但年度营收预计超过12亿元人民币 [7] - **智元机器人**:截至12月8日,量产机器人数量累计达5000台,产品应用于娱乐、制造、物流及科研 [8] - **优必选机器人**: - 近期拿下广西防城港2.64亿元订单,使用Walker S2机器人 [10] - 4月24日拿下全球首份小批量具身智能人形机器人采购合同,交付工业版Walker S1和商用版Walker C [10] - 9月,Walker S2获得某国内企业2.5亿元订单,刷新全球人形机器人单笔合同纪录 [11] - 10月、11月,Walker S2再获广西1.26亿元、四川自贡1.59亿元、江西九江1.43亿元订单 [11] - 截至11月,Walker系列全年累计规模化订单达13亿元 [12] - 目前工业人形机器人产能为每月300台,预期2025年交付量将超过500台 [12] - **特斯拉Optimus**: - 计划于2025年12月底完成约5000台Optimus V3试生产并小规模交付 [14] - 2026年第一季度计划大规模量产,年产能目标5-8万台,2026年底前产能达10万台,2027年目标百万台量产 [14] - **智平方**:9月11日,与深圳慧智物联达成战略合作,计划未来三年内在惠科全球生产基地累计部署超1000台具身智能机器人 [15] - **星尘智能**:9月2日,与上海仙工智能达成人形机器人千台级订单战略合作,采用“核心部件+整机应用”模式 [17] - **松延动力**:2025年预计全年订单量突破2500台(高仿生机器人+教育科研机器人),订单金额超1亿元 [20] - **原力无限**:10月,与时华文旅控股集团签署战略合作协议,项目金额高达2.6亿元人民币 [22] - **众擎机器人**: - 2025年7月完成Pre-A++与A1轮融资,金额近10亿元 [24] - 3年内预计交付2000台,已公开订单包括与多伦科技的2000台具身智能机器人三年框架采购协议 [24] - **乐聚机器人**: - 年内交付节奏从“百台级”迈向“近千台级” [24] - 1月17日完成第100台全尺寸人形机器人交付(北汽越野车),一季度交付近300台(同比翻倍) [24] - 9月25日完成“人形机器人数据训练中心二期”100台“夸父”交付(订单金额8295万元) [24] - 公司全年交付目标预计为2000台 [24] 行业巨头动态与产能规划 - **现代汽车与波士顿动力**:现代汽车承诺在其制造和物流业务中部署数万台机器人,包括Atlas人形机器人、Spot四足机器人和Stretch集装箱卸货机器人,并将整合其汽车制造专业生产能力以助力波士顿动力扩大产量 [2][4]
NeurIPS'25 | 港大×达摩院HiMaCon:泛化失败不在于策略学习不足,而在于缺乏"操作概念"
具身智能之心· 2025-12-09 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Ruizhe Liu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本文第一作者为香港大学InfoBodied AI实验室博士生刘瑞哲,合作者包括周佩、罗谦(同属忆生科技)和孙力。通讯作者为香港大学数据科学研究院及电机电子工 程系助理教授杨言超,以及阿里巴巴达摩院研究员岑俊和宋奕兵。InfoBodied AI实验室在CVPR、ICML、NeurIPS、ICLR等顶会持续发表代表性成果,与国内外知 名高校,科研机构广泛开展合作。 1 机器人为何需要「概念」? 机器人操作模型常在训练环境表现优异,却在分布外场景失败。例如,能稳定完成"将杯子放入容器"的策略,仅需改变物体颜色、调整位置或增加隔板,就可能彻 底失效。 港大与阿里达摩院联合提出的HiMaCon指出: 泛化失败的根源不在于策略学习不足,而在于缺乏"操作概念"这一认知层。 人类执行任务时,会自然形成"对齐物体"、"抓取目标"、"规 ...
全球TOP 13战队翻车实录!机器人极限求生,比科幻片还残酷
具身智能之心· 2025-12-09 00:05
文章核心观点 - 第五届ATEC科技精英赛(真实世界极限挑战赛)通过在全户外真实场景中设置高难度任务链,旨在推动机器人技术从实验室演示走向实际应用,暴露并试图解决当前具身智能在环境感知、智能决策和硬件算力三大核心瓶颈,是衡量“通用具身智能”发展现状的关键测试 [26][28][31][32][124] 赛事概况与核心理念 - 赛事名称为第五届ATEC科技精英赛(线下赛)· 真实世界极限挑战赛,由香港中文大学主办,ATEC前沿科技探索社区、北京大学、北京师范大学和蚂蚁集团共同承办 [26][30][112] - 赛事根本目的是回答行业核心问题:机器人能否真正走出实验室,进入并适应复杂的人类世界 [31] - 赛事理念是打破机器人演示的“舒适区”,通过设置真实、极限的挑战,让机器人在碰撞中暴露真正弱点,以牵引真实的技术进步 [30][32] - 蚂蚁集团作为发起单位之一,长期支持该赛事,源于其相信AGI技术发展的未来是实现机器智能与物理世界的深度融合 [32] 赛事设计的“真实”与“极限”特点 - **全户外真实场景**:比赛场地设在香港中文大学岭南体育场及小桥流水生态区,包含拱桥、山地、缓坡、石阶等多样化地形,并面临光照变化、风力波动等真实环境扰动 [36][37][38] - **强激励“无遥操”**:赛事首次在全户外真实场景中探索“无遥操”技术路径,评分规则明确奖励全自主方式,可获得10-25分的额外加分,倒逼团队开发机器人的自主决策能力 [40][44][45] - **复杂任务链设计**:赛事包含垃圾分拣、自主浇花、定向越野、吊桥穿越四大任务,考验机器人“多模态感知融合与连续决策”能力,旨在形成完整的“感知-规划-执行-反馈”闭环 [47][48][50] 暴露的三大核心技术瓶颈 - **环境感知与认知之困**:真实环境充满不确定性和高动态性,非结构化因素对算法构成巨大挑战,例如在“垃圾分拣”任务中,机器人需识别可能被油渍沾染、压变形或堆叠的物品,而不仅限于“看图识物” [52][53][54][59] - **智能决策与响应之困**:机器人缺乏“举一反三”和适应新场景的能力,例如在“吊桥穿越”任务中,木板位置每场不同,机器人需自主决策使用工具改变环境,这体现了包含判断、使用工具和规划步骤的“高级智能”需求 [60][61][64][65][67] - **硬件与算力之困**:存在“身体跟不上脑子”的问题,一方面部署LLM的高性能专用芯片不成熟,制约了大脑的实时处理能力;另一方面实现精细抓取和灵活操作的硬件技术难度高、成本高昂 [69][71][72][73] 参赛队伍表现与技术路线 - 全球共有396支队伍参赛,最终13支顶尖队伍进入线下赛,覆盖QS百强高校及985/211顶尖学府 [77] - 冠军由wongtsai(旺财)团队以434分获得,该团队由浙大学霸组成,在四个任务中均发挥超预期 [78][79][97][99] - 冠军团队技术路线未选择主流的视觉语言动作模型,而是采用传统的“视觉识别+压线规划”方案,并为机器人大脑配备了三台电脑(CPU+2个GPU),参赛设备花费高昂 [99] - 技术路线呈现多元化,端到端的大模型方案与经典的模块化方案并行推进,许多团队为保险起见会准备传统控制算法作为“兜底” [102][104][107] - 参赛队伍普遍感受到硬件能力边界成为算法发挥的瓶颈,如防水性不足的机械臂、抓地力不够的足端、算力受限的机载电脑等,迫使他们在算法上做极致优化 [108][109] 行业背景与赛事意义 - 根据国际机器人协会《2025世界机器人报告》,2024年全球共有54.2万台机器人“上岗”,其中中国以29.5万台占全球总量的54% [115][116] - 当前机器人热潮背后暗藏核心技术瓶颈,许多演示依赖后台遥控或预设程序,离“自己搞定一切”的智能相距甚远 [116][117] - 赛事是对“物理图灵测试”(即机器人在真实世界中无缝操作并展现与人无异的能力)的真实写照,清晰丈量了“无遥操”技术的现实距离 [120][121][122] - 赛事中机器人暴露的“翻车”瞬间,恰恰揭示了具身智能从“演示可行”走向“应用可靠”之间必须跨越的鸿沟,比赛过程中产生的代码、调试数据和失败经验,成为通往通用具身智能道路上的宝贵路标 [124][126]