机器人大讲堂
搜索文档
刚登Nature 子刊!华科大柔性 FEbots 机器人,突破微型机器人集成瓶颈
机器人大讲堂· 2025-10-07 04:05
文章核心观点 - 华中科技大学等研究团队开发出新型柔性电子机器人(FEbots),该机器人通过结合柔性电子技术与振荡驱动机制,实现了在有限尺寸和重量平台上的地形适应性、实时感知和自主决策能力,为解决微型机器人在复杂非结构环境中的应用难题提供了创新方案 [1][3] FEBots的核心设计与模块化架构 - FEbots采用模块化架构,由可编程柔性电子模块和分布式刚毛阵列两大核心部分构成,支持功能的"即插即用"和快速重构 [5] - 可编程柔性电子模块包括集成应变传感器的驱动模块、温度/湿度传感器模块、接近传感器模块以及中央控制器,通过导电胶带连接实现灵活组装 [5] - 分布式刚毛阵列由超弹性合金制成,具有优异的弹性变形能力、耐腐蚀性和耐用性,是主动驱动机制的关键部分 [5] - 通过模块化组合,可构建不同形态的FEbot,例如适用于密闭空间的I型(千足虫形)和增强户外导航稳定性的II型(方形)配置 [5] 振荡驱动与不对称摩擦的科学 - FEbots的运动核心源于振荡驱动机制,利用分布式刚毛阵列实现不对称摩擦,即不同方向上的摩擦力存在差异 [6][7] - 在一个驱动周期内,单元经历压缩阶段、向后滑动和向前滑动三个关键状态,其中向前滑动位移为0.265毫米,向后滑动位移为0.085毫米,净向前的位移由摩擦力不对称性产生 [7] - 研究团队采用Cosserat弹性杆理论建立刚毛变形动力学模型,仿真结果与高速摄像捕捉的螺旋状质心轨迹高度吻合 [7] - 刚毛几何参数对运动性能有显著影响,当参数优化为长度7毫米、直径0.1毫米、接触角60度时,速度可达109.5毫米/秒,并在速度、稳定性和爬坡能力(最大18度)之间取得最佳平衡 [9] FEBots的多模式运动与环境感知能力 - FEbots具备多模式运动能力,例如I型FEbot以87.6毫米/秒的速度在垂直通道中爬升,并能携带相当于自身重量5.1倍的有效载荷,穿过仅14毫米宽的通道(为其体宽的70%) [11] - II型FEbot展示全向运动能力,包括直线运动、转向和原地旋转,防水封装后还能在水下表面以9毫米/秒的速度行进 [12] - 可折叠刚毛设计通过加热形状记忆合金弹簧调整刚毛角度(从0度到45度),实现双向运动,并能承受相当于自身重量25万倍的压力而不会损坏 [12] - FEbots配备姿态传感器、温度/湿度传感器、应变传感器和微型摄像机等,可实时监测自身曲率(-0.09至0.11每厘米)和环境参数(温度33.7-39.7摄氏度),支持狭窄空间特征检测 [12][13] 嵌入式人工智能 - 研究团队通过超维计算(HDC)这一脑启发式计算范式,在机载计算芯片上实现低延迟、低功耗的实时智能决策 [15] - HDC过程包括训练阶段(提取传感器数据时域特征并编码为超维向量)和推理阶段(通过汉明距离比较识别结果),直接用于调整驱动振荡器的PWM占空比以控制运动 [16] - FEbots展示危险规避能力,能从低速巡航(4.4毫米/秒)切换到高速逃逸(105毫米/秒),此转换由接近传感器触发并通过HDC实时实现 [18] - 在复杂环境中,FEbots通过HDC协调两侧振荡器,实现对目标温区(47.5±2.5摄氏度)的追踪,同时成功规避所有障碍,表明系统能集成多种传感器输入并行处理多任务 [18]
00后黄彦钧再出圈!央视报道“手搓”真·钢铁侠!网友:军迷减速带!
机器人大讲堂· 2025-10-07 04:05
黄彦钧的技术成就与项目 - 最新作品为一套具备全身自动开合、变形贴合身体功能的“钢铁侠”战甲,肩部为全自由度,手臂可自动闭合[2] - 战甲配备IMU体感触发系统,可根据特定动作启动手臂电磁冷发射架,发射“导弹”并加装烟雾、激光束等道具[5] - 战甲集成机甲信息终端,便于查看信息[4] - 战甲中的助力外骨骼可提供额外动力以增强人体极限[7] - 2024年因自制兽装控制器出圈,该控制器实现了生物仿生学眨眼,并搭载目标识别与视觉系统及头套换气系统[1][17] - 曾研发并获得“穿戴式下肢外骨骼辅助行走机器人”的实用新型专利[19] - 以研究助理身份加入清华大学脑与智能实验室,辅助开展脑机接口项目,利用3D打印技术设计实验辅助工具[19] - 以战术装备研发人员身份参加CCTV-7节目,展示新型单兵视觉增强系统的实际作战用途[19] AI机甲的技术细节与开发 - 最新AI机甲项目始于2024年7月,采用工业级参数化软件UGNX进行三维建模,精确计算部件尺寸、重量和连接方式[24] - 开发过程包含机械仿真和运动计算,以模拟关节活动、装甲开合等动作[24] - 将精简版GPT大模型部署在RDKX5终端板上,并编写算法实现语音指令与机甲动作的精准连接[24] - 整个系统设置为离线运行模式,以确保稳定性和实时响应[24] - 通过3D打印技术将模型转化为实体部件后进行拼装,实现一次性成型[24] 个人背景与行业影响 - 小学时受《钢铁侠》电影启发开始探索机器人技术,通过拆解DVD光盘、旧电路板等自学数模电基础[9][10] - 高中阶段在老师引导下系统学习三维建模、EDA工具,并获得全国青少年科学素养大赛一等奖等多个奖项[13] - 2022年考入重庆交通大学机械专业,将宿舍改造为“智能寝室”,如更换为支持指纹解锁、语音识别的智能门锁[15] - 为筹集项目资金将生活费压至极限,并通过接外包项目如单片机开发、前后端开发来赚钱[19] - 在短视频平台作品播放量破千万,吸引了对工科、机械感兴趣的年轻同好,并收到企业、投资人的合作咨询[26][28] - 粉丝在评论区自称“云股东”,并表达对其未来创业及股票代码的关注[28]
绳驱外骨骼Kinethread亮相,动觉反馈步入轻量化、低成本时代
机器人大讲堂· 2025-10-06 04:05
技术背景与挑战 - 消费级触觉设备功能有限,多采用振动马达,仅能模拟纹理、压力等基础触感,难以还原物体重量、重力变化或加速度等动觉信息[1] - 能够实现动觉反馈的刚性外骨骼系统因结构笨重、价格昂贵,难以在普通消费者中普及[1] Kinethread系统核心设计 - 系统核心采用计算机控制的电动卷轴与绳索传动机构,结合模块化轻量战术背心作为承载平台[2] - 系统共集成10个电动卷轴,其中8个布置于用户腰部,其余分布于手部、腿部等关键区域,实现对多个身体部位的精准触觉支持[2] - 系统采用两种型号高扭矩无刷直流万向节电机,较大型号单体重265克,最大拉力42N,功率15.6W;较小型号重140克,最大拉力17N,功率14.4W[4] - 整套系统含电池总重低于5公斤,穿戴时间控制在30秒以内[4] 绳索传动机制与性能 - 系统利用滑轮与绞盘等机械结构,背部采用三滑轮结构实现三倍增益,最大输出力达120N[6] - 电机可在50毫秒内达到峰值力,100毫秒左右趋于稳定,振动反馈带宽达到200Hz[11] - 系统待机功耗为1.5W,典型场景平均功耗10.9W,峰值功耗44.4W,搭配12V 5600mAh锂电池可实现超过6小时无线运行[11] 成本与商业化潜力 - 当前原型单套造价约为650美元,若实现万套规模量产,成本有望降至420美元左右[12] - 系统设计已对外开源,便于后续研究与产业界进一步开发与优化[12] 应用场景与用户体验 - 系统可模拟振动、静力、动态力、冲击力与强制动画在内的多种触觉效果,适用于模拟物体重量、重力变化、加速度、武器后坐力或爆炸场景[13] - 用户研究显示,振动与动觉结合的条件在真实感、沉浸感、反应本能与图形匹配度方面均显著优于其他条件[15] 技术局限与未来方向 - 系统目前仅能实现"拉"力反馈,无法模拟"推"力,手部绳索走线存在钩挂风险[16] - 未来计划通过增加电机数量、扩展驱动区域以提升触觉覆盖的全面性,并探索模拟弹力、浮力、摩擦力等更多类型的力反馈[16]
清华、北信科、复旦团队解读具身智能!大语言模型与世界模型如何让机器人懂物理、会思考?
机器人大讲堂· 2025-10-06 04:05
文章核心观点 - 具身智能是人工智能在物理世界中实现感知-认知-互动闭环的关键方向,其终极目标是实现人类级别的通用智能[4] - 大语言模型与世界模型的协同是推动具身智能发展的核心技术,前者负责语义理解和任务规划,后者负责物理规律预测和动作验证[9][14][19] - 大语言模型与世界模型的结合能形成语义指导物理、物理约束语义的闭环,实现1+1>2的效果,是具身智能走向实用的关键[14][19] - 具身智能技术已在服务、工业、救灾等领域实现应用,显著提升了机器人的自主性和适应性[20] - 未来具身智能需在自主进化、硬件优化、群体智能及安全性等方面取得突破[21] 具身智能定义与特点 - 具身智能核心在于物理世界互动,需通过传感器感知环境、认知系统处理经验、执行器做出动作,形成闭环[4] - 与离身智能不同,具身智能直接与物理世界互动,例如扫地机器人避障规划、救灾无人机自主避障等[2][4] - 终极目标是实现接近人类级别的通用智能,能在动态不确定的物理世界中自主适应,例如听懂指令并安全移动易碎品[4] 技术发展脉络:从单模态到多模态 - 早期具身智能为单模态模式,仅依赖视觉或语言等单一感官,存在明显短板,如纯视觉机器人在昏暗环境中易迷路[5][7] - 技术转向多模态融合,整合视觉、语言、触觉、听觉等信息,使机器人能更灵活处理复杂任务,例如服务机器人可协同感知物体位置、用户需求及物体重量[8] - 多模态能力推动感知、认知、互动三者从各自为政转向互相配合,关键驱动因素是大语言模型和世界模型的突破[8][9] 大语言模型的作用与演进 - 大语言模型核心作用是赋予语义智能,使机器人从执行固定指令升级为理解模糊复杂的人类语言并进行任务分解[10] - 例如Google SayCan案例,通过搭配真实世界动作库和价值函数验证动作可行性,但早期模型依赖固定动作库,适应性有限[10] - 多模态大语言模型(如PaLM-E、RT-2)直接处理图像、语言、触觉等多模态信息,输出动作序列,不再依赖固定动作库[12] 世界模型的功能与架构 - 世界模型相当于机器人大脑中的物理世界模拟器,负责预测动作后果,确保符合物理规律[14][18] - 主要功能包括构建内部表征(压缩传感器信息为结构化地图)和预测未来变化(预判动作风险,如推桌子是否碰倒杯子)[18] - 主流架构包括RSSM(擅长时序信息和短期预测)、JEPA(擅长语义特征提取)、Transformer-based模型(擅长长序列规划和复杂环境)[14] 大语言模型与世界模型的协同 - 两者具强互补性:大语言模型懂语义但不懂物理,世界模型懂物理但不懂语义,单独使用均无法实现高级具身智能[14][19] - 结合后形成闭环:大语言模型生成初步计划,世界模型验证物理可行性并反馈调整,最终输出符合需求与规律的动作序列[19] - 例如EvoAgent具身智能体,结合两者后能在不同环境中自主完成长期任务,无需人类干预[19] 应用场景与案例 - 服务机器人从预设路线升级为听懂指令、实时避障、根据语气调整服务,如酒店送物机器人[20] - 工业机械臂从专机专岗变为通过大语言模型理解指令、世界模型预判抓取力度,实现柔性任务切换[20] - 救灾无人机从人类遥控升级为通过世界模型模拟风险、大语言模型理解指令,自主规划安全路径[20] 未来挑战与方向 - 需突破自主进化能力,使机器人能在新环境中探索学习,减少对人类标注数据的依赖[21] - 硬件需优化算法-硬件协同,设计专用加速器或通过模型压缩支持边缘设备运行[21] - 需发展群体具身智能,解决多机器人协同中的信息共享、任务分配和容错问题[21] - 安全性与可解释性至关重要,需确保动作可追溯、符合人类伦理,如危险时优先保护人类[21]
全球眼科手术机器人技术趋势全景:高精度突破、AI 具身智能演进与行业整合方向
机器人大讲堂· 2025-10-05 04:06
眼科手术机器人的技术价值 - 眼科手术对精度和稳定性有极高要求,传统手术存在手颤和视觉-动作不一致的风险[1] - 机器人系统通过高刚性机械臂和精密运动控制算法,能有效滤除人手固有震颤,实现亚毫米级甚至微米级的定位稳定性[1] - 机器人应用显著提升了操作的精细度与可重复性,降低了并发症风险,并使一些以往被视为过于复杂或风险极高的眼底手术成为可能[1] 技术发展趋势:AI与自主化 - 具身智能等人工智能技术的发展正推动眼科手术机器人从“放大镜”和“稳定器”向具备环境感知、决策分析与自主执行能力的手术伙伴演变[2] - 在图像识别和路径规划能力支持下,机器人有潜力实现从入眼定位到目标区域操作的全过程自主化,这将提升手术效率与一致性,并促进标准化、规模化普及[2] - 自主化演进路径预计遵循“辅助控制→部分自动化→条件自主→高度自主”的阶梯式发展[7] - 以色列Forsight ORYOM已实现自动化白内障手术的动物实验,预计2025年开启人体临床试验[7] - Horizon Surgical Systems已实现自主完成白内障手术操作[7] - 衔微医疗实现了机器人自主完成从对准眼球巩膜口到到达眼底指定坐标点的全过程移动[7] - 法国AcuSurgical计划在2029年前形成基于图像识别的眼底手术全流程AI赋能[7] 产品构型与市场定位 - 当前眼科手术机器人主要分为单臂协同操作构型与双臂主从控制构型两大类[3][5] - 单臂协同操作机器人以Preceyes、微眸医疗、迪视医疗等为代表,采用医生与机器人共同操控同一器械的模式,特点为结构简洁、集成度高、学习曲线短,主要应用于视网膜下注射等对单器械操作精度要求极高的步骤[3] - 双臂主从控制机器人以Forsight robotic的ORYOM、衔微医疗等为代表,采用主从控制架构,更贴近医生传统的“双手操作”习惯,优势在于支持更复杂、更完整的手术流程,定位为覆盖多术式的“眼科手术平台”[5] 全球与国内企业进展 - 海外企业方面,Forsight ORYOM预计2025年开启美国市场临床试验;Preceyes是迄今临床验证最充分的眼科机器人,已获得CE标志;Horizon Surgical Systems和AcuSurgical正处于早期临床和试验扩展阶段;Johns Hopkins和剑桥大学团队以科研驱动推动学术前沿[9] - 国内企业方面,微眸医疗、迪视医疗等已开展高精度视网膜注射适应症的临床注册实验;衔微医疗在双臂主从控制与自主化操作上积极布局,探索全流程机器人眼科手术平台的可能性[10] 行业整合与未来格局 - 蔡司于2022年以约4240万欧元收购Preceyes,旨在与其显微镜、iOCT等影像与手术管线整合,凸显了机器人需要与显微镜、OCT、导航系统等设备深度融合,构成完整眼科数字化与智能化手术室的趋势[11] - 当多适应症眼科机器人平台进一步具备AI具身智能,并与影像系统、术中导航和诊疗设备协同工作时,将重塑眼科手术室的整体格局,并对国内眼科显微镜、OCT等光学和诊断设备市场产生决定性影响[11] - 未来眼科产业领军企业必然是具备跨产品线整合能力,能够覆盖诊断、手术到随访全流程的多管线平台型企业[11]
撒贝宁把机器人梗玩出续集!
机器人大讲堂· 2025-10-05 04:06
机器人6S店创新商业模式 - 全球首家机器人6S店位于深圳龙岗星河WORLD园区,于7月28日正式开业,创新性地在传统4S店功能基础上增加了“租赁”和“个性化定制”两大功能,构建“六位一体”的服务闭环[7] - 该模式打破了机器人与大众生活的壁垒,重新定义了机器人产业的服务标准,店内集聚数百种机器人及配套零部件,深圳乃至全国的机器人头部企业纷纷入驻展示[7] - 具体产品包括可轻松提起20公斤哑铃的外骨骼机器人,应用场景已从“爬山神器”进化至养老助行、工业防护等领域,以及能瞬间制作拉花咖啡的咖啡机器人[5][7] 深圳机器人产业集群与产业生态 - 龙岗区作为深圳人工智能产业集群重点布局区域,已集聚全产业链人工智能企业超620家,机器人产业集群企业数量超过1.27万家,智能机器人产业集群入选“2024年广东省中小企业特色产业集群”[17] - 南山机器人谷是一条长达十多公里的创新走廊,汇集了百余家机器人产业链企业,形成“上下楼就是上下游”的产业集聚效应,实现了“上午画图纸、下午出样品”的“深圳速度”[10] - 深圳的创新模式被总结为面向市场需求而诞生,因此适应能力强、创新速度快,使新产品能快速走向市场[13] 低空经济与无人机产业领先优势 - 深圳是全球低空产业密度最高的城市,已建成1058个起降点,开通309条航线,集聚了1900余家低空经济产业链企业[10] - 消费级无人机占全球市场70%,形成全球领先优势,节目中展示的工业级无人机体现了深圳在该领域的实力[10] - 节目伊始展示了全球首款飞碟型纯电动载人飞行器在深圳市民中心上空起飞,象征着深圳的科创实力[13][15] 机器人产品与技术应用前景 - 产品展示琳琅满目,包括可互动的机器狗、贴心的护理机器人、脉氧监测机器人、仿生机器人以及全球首款全向智能抗流水下机器人等[11] - 仿生机器人凭借仿生皮肤与数十种微表情为科技注入情感温度,不仅能与人互动,还能完成甜品制作[9] - 随着生态体系完善与技术成本下降,未来3年至5年,家庭服务机器人、教育机器人等产品价格将大幅降低,有望像智能手机一样成为普通家庭“标配”[9] 机器人产业链企业名录 - 文章列出了涵盖工业机器人、服务与特种机器人、医疗机器人、人形机器人、具身智能企业、核心零部件及教育机器人等多个细分领域的超百家代表性企业名单[20][21][22][23][24][25][26]
千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力
机器人大讲堂· 2025-10-04 04:05
文章核心观点 - 千寻智能研究人员提出一种名为State-free Policy的视觉运动策略,该策略在输入中完全移除机器人自身状态信息,仅依赖视觉观察,从而显著提升机器人的空间泛化能力 [1][3][10] - 该方法基于两个关键条件:动作在相对末端执行器空间中表示,以及确保视觉输入能够覆盖任务所需的完整观察范围 [11][13] - 实验证明State-free Policy在夹笔、叠衣服、取饮料等任务中展现出强大的空间泛化能力,高度泛化测试成功率从0提升至0.98,水平泛化测试成功率从0提升至0.58 [14][17] - 该方法还具备更高的数据利用效率和更快的跨本体泛化优势,在数据量减少时性能下降幅度远小于基于状态的策略 [20][21] State-free Policy技术原理 - 策略输入中完全移除状态信息,仅依赖视觉观察,状态信息包括末端执行器位置、关节角度等自身感知数据 [10][11] - 采用相对末端动作空间,模型预测末端执行器应进行的相对移动而非绝对位置,降低对全局位置信息的依赖 [11] - 通过配备更广阔的视野确保完整的任务观察,相机系统由头顶主摄和腕部广角相机构成,提供末端执行器上下方视野 [13] - 研究发现移除顶置主摄可进一步提高空间泛化能力,仅使用双广角腕部相机的策略在挑战性情景下成功率更高 [22][23] 真机实验成果 - 在夹笔放入笔筒任务中,State-free Policy高度泛化测试成功率从0提升至0.98,水平泛化测试成功率从0提升至0.58 [14] - 在叠衣服任务中,State-free Policy水平泛化能力达到0.834,远高于带状态模型的0.183 [17] - 在全身机器人取饮料任务中,State-free Policy水平泛化能力达到0.784,远高于带状态模型的0.117 [17] - 实验数据收集有严格标准,物体摆放均受严格控制,确保空间泛化能力来自模型本身而非数据多样性 [14] 额外技术优势 - State-free Policy展现出更高数据利用效率,在300、200、100、50条演示数据下均保持较高成功率,而基于状态策略随数据量减少性能迅速下降 [20] - 在跨本体微调中收敛更快,叠衣服任务微调5k步成功率0.700,微调10k步成功率0.967,优于带状态模型的0.333和0.767 [21] - 方法支持更高效跨平台迁移,只需在相似相机配置下适应图像偏移,无需重新对齐状态空间 [21] - 为未来传感器设计提供新思路,双广角腕部相机已能覆盖完整任务观察,顶置相机可能成为性能瓶颈 [22][23]
瞩目!一日狂揽顶刊5篇+1封面!中国团队硬核构筑柔性电子强国之路
机器人大讲堂· 2025-10-04 04:05
行业宏观前景 - 柔性电子技术凭借"轻薄柔透"特性,在航空航天、国防军工、健康医疗等国计民生关键领域展现出广阔应用前景[1] - 该技术为培育新质生产力提供重要技术支撑,并在未来信息芯片、高端智能装备等战略方向有望催生突破性创新[1] - 预计到2028年,中国制造的柔性电子在泛物联网领域应用规模将突破3000万美元,占未来10-15年柔性电子整体市场的40%份额[1] 清华大学磁驱动柔性电池集成机器人 - 研发的磁驱动柔性电池集成机器人,其抗形变柔性电池在200次循环后容量保持率达57.3%[5] - 柔顺电池可在机器人本体上实现44.9%的大面积部署,并通过垂直集成将额外刚度降至最低[5] - 该执行器–电池–传感器的柔性垂直集成方法在仿鳐鱼软体机器人中实现,具备感知、通信和稳定供能能力[6] 上海科技大学柔性生物电子与机器人触感 - 团队通过3D打印技术制备多模态传感柔性生物电子,结合自适应机器学习算法,实现从控制、手势识别到机器人触觉感知反馈的完整交互路径[9] - 集成柔性传感阵列的气动软体手可区分触碰物体材质,并通过电子皮肤反馈给人体,在14种复杂手势识别任务中平均准确率高达98%以上[10] - 系统延迟低至0.1秒,且机器学习算法仅需数次动作校准即可完成新用户的个性化适配[10] 中国科学技术大学仿生声学换能器 - 团队受蝉肋骨膜结构启发,制备出具有仿生软硬交替结构的全有机复合薄膜,其硬质层承担机械负荷,软质层通过大变形能力延缓裂纹扩展[13] - 该仿生薄膜同时具备高拉伸强度、韧性和耐疲劳性能,其基本共振频率和振幅均优于现有商业化薄膜[15] - 研究成果为设计兼具高效声能输出与长期稳定声传播性能的高性能声学换能器提供了新思路[15] 清华大学三维网状电子器件组装方法 - 提出一种拉伸屈曲驱动的三维网状材料组装方法,可兼容单晶硅等高性能无机电子材料,解决了三维网状电子器件的工艺限制[16] - 采用数据驱动的拓扑优化方法优化平面多层结构的面外变形能力,制造的三维网状材料能模拟猪胸主动脉等生物组织的拉伸特性[17] - 基于该方法开发的体三维显示器件可动态显示三维图案,并能通过改变构型调整显示空间分辨率[17] 西安交通大学心血管监测技术 - 研发的皮肤自适应聚焦柔性微加工超声换能器阵列,可共形贴附于人体皮肤表面实现血压、心率等血流多参数的非侵入实时检测[19] - 该超声阵列的聚焦声束深度和宽度范围可随皮肤表面曲率变化,波束宽度为2.1至4.6毫米,穿透深度为3.3至53毫米[21] - 相对单阵元检测方法,该技术声压提高10.8倍、信噪比提高19.5分贝,兼顾了结构和性能优势[21]
从演奏《青花瓷》到《我和我的祖国》!国内这四家机器人乐队都这么先进了?
机器人大讲堂· 2025-10-04 04:05
机器人乐队技术展示与行业动态 - 2025年世界机器人大会上,第三代和璇机器人乐队使用钢琴、扬琴与架子鼓默契合奏《青花瓷》等曲目,成为全场焦点[1] - 机器人乐队在“良渚论坛”弹奏《梁祝》,目前可流畅演绎60余首不同类型曲目[7] - 星尘智能的“小央机器人乐队”在深圳宝安机场进行国内机场首次人形机器人乐队表演,与合唱团共同演奏《茉莉花》[9] - 合肥磐石智能科技的机器人乐队第四次登上央视舞台,与二十四伎乐国风乐团演绎《就是哪吒》,身高1.8米组成金属天团[14] - 湖南超能机器人技术的“超人乐队”由3台人形机器人组成,在2025互联网岳麓大会演奏《我和我的祖国》[18] 核心技术突破 - 和璇机器人搭载高速高可靠灵巧手精准捕捉演奏细节,轻量化仿人机械臂兼顾纤细外观与稳定姿态[5] - 软件系统通过曲谱智能解析处理多种格式乐谱,配合臂手协同控制与高精度多机同步系统,实现毫秒级演奏同步[5] - 星尘智能机器人采用绳驱传动技术模拟人类肌腱运动,以±0.1毫米末端重复定位精度完成高速敲击,具备“不伤己、不伤人、不伤环境”特性[9][11] - 星尘智能构建全身VLA模型架构,“慢脑”以20Hz频率负责任务规划,“快脑”以250Hz频率将指令转化为连续动作,通过力觉反馈实时修正[13] - 磐石科技机器人搭载智能MIDI解析算法,可将乐谱转化为上千个毫秒级动作指令,运动控制技术精准调节演奏力度与角度[16] - 磐石科技机器人配备AI作曲系统,3秒内完成乐谱“扒谱”并自动编排舞步,通过摄像头捕捉观众情绪实时切换曲风[16] - 超能机器人公司依托全链条人工智能技术中台与虚实融合异构机器人集群操作系统,吉他机器人配备拨弦、压弦双机构实现毫米级力度调节[20] 公司背景与产业化进展 - 和璇机器人来自杭州海创人形机器人创新中心,由浙江大学与杭州市余杭区联合共建,2024年8月揭牌,实行“两块牌子、一套班子”运营模式[3] - 星尘智能(深圳)有限公司成立于2022年12月,核心业务聚焦人形机器人研发与产业化,是业内首个实现绳驱机器人量产的企业[9][13] - 星尘智能截至2025年4月完成多轮融资累计达数亿元,Pre-A轮数千万美元由经纬创投领投,A轮及A+轮由锦秋基金、蚂蚁集团联合领投[13] - 星尘智能2025年9月与仙工智能达成战略合作,计划两年内向工业制造、仓储物流等场景部署上千台机器人,为国内人形机器人领域早期千台级工业订单之一[13] - 磐石科技早期核心业务聚焦科普场馆机器人研发,为全球170余家科技馆提供技术支持,2020年组建十余人的年轻研发团队启动机器人乐队项目[16] - 磐石科技于2017年获得兴泰资本投资,2022年6月成功在全国中小企业股份转让系统(新三板)挂牌[16] - 湖南超能机器人技术有限公司成立于2016年,曾获得埃斯顿、国投健康产业投资等机构关联支持[23] 市场应用与场景拓展 - 磐石机器人乐队已覆盖多领域场景,合肥市中心图书馆内弹钢琴机器人每日定时演奏成为特色打卡点,研学基地开设“编程音乐会”课程[16] - 磐石机器人在文化领域亮相安徽春晚并参与央视《非遗里的中国》节目录制,累计完成十余场重要文化演出,斩获一项国家级文化融合类奖项[16] - 星尘智能机器人乐队曾与北京民族乐团合作演绎《射雕英雄传》主题曲《世间始终你好》,机器人指挥通过昂扬动作与观众互动[9]
成本相差200倍!遥操作、仿真、UMI、视频学习,谁才是具身智能数据领跑者?
机器人大讲堂· 2025-10-03 04:04
文章核心观点 - 数据采集是实现具身智能从L1特定任务向L2组合任务乃至更高阶通用能力迈进必须突破的核心环节[1] - 高质量、多模态的物理交互数据是构建机器人“举一反三”常识理解能力的基础[4] - 数据采集的“量”与“质”直接决定预训练效果,是技术进阶的核心,行业对高效、高质量方案需求迫切[3][6] - 未来趋势是多方案融合,以实现成本、精度、规模三者的平衡,数据生态成为竞争关键[28] 数据采集的重要性与挑战 - 具身智能需要物理世界绝对坐标系下的精确测量数据,获取难度、成本与标注周期远超传统AI需求[3] - 要达到人眼级三维感知及上千类物体理解,需构建10亿+量级的数据集[3] - L1级模型需1万小时+数据量支撑训练,且规模定律仍未见顶,数据规模扩大能持续提升模型性能[6] - 数据必须覆盖多样化场景(家庭、实验室、生产线)才能使模型具备泛化能力,摆脱场景依赖[6] - 数据特殊性高,需视觉、惯性、触觉、力反馈等多模态信号并在绝对坐标系下精确对齐[6] 四大核心数据采集方案 遥操作方案 - 通过人类直接操控机器人完成任务,数据质量最高,可实现人机动作精准映射[8] - 采用VR遥操+动捕手套组合,长距离移动中位置漂移极低,为复杂协调动作提供可靠数据[8] - 已形成规模化落地,例如深圳某企业在天津建12000平方米数据工厂,覆盖15大领域,部署150个采集单元[10] - 高成本是最大制约,一套完整设备超20万元,单小时数据采集成本可能突破万元[12] - 设备重量与易用性、实时性与精度平衡是待解决问题[13] 仿真方案 - 通过虚拟环境生成数据,最大优势是高效低成本,无需物理硬件,可快速复制标准化场景[14] - 致命痛点是“数据分布偏移”,虚拟环境无法完全模拟真实物理规律,导致模型在真实场景中水土不服[16] - 目前更多用于“预训练初始化”,先用仿真数据掌握基础动作,再用真实数据微调以降低成本[18] - 实现高精度模型需物理引擎技术突破,如更精准的材质模拟和环境物理参数还原[18] UMI多模态传感器融合方案 - 硬件配置简洁低成本,整体成本仅万元级别,远低于遥操作的20万+投入[19] - 核心价值是解决“鸡与蛋”悖论,不依赖昂贵机器人本体却能采集高精度动作数据[21] - 技术关键是视觉-惯性融合,支持触觉模块扩展,形成多模态数据采集能力[21] - 拥有开源生态,降低技术壁垒,中小企可通过开源方案构建高质量数据集[21] - 局限性在于全身动作捕捉能力不足,主要聚焦机械臂末端操作[21] 视频学习方案 - 通过录制员工执行任务视频提取动作信息,为数据采集提供低成本规模化新思路[22] - 成本极低,仅需普通摄像头,枢途科技自研算法使成本降至行业平均水平的千分之五,较遥操作降低200倍[22][24] - 效率高,可同时录制多名员工操作视频,快速扩大数据规模,场景多样性强[24] - 面临三大挑战:缺乏交互体验(触觉、力反馈)、数据标注难度大、对计算资源处理要求高[27] - 被视为未来重要方向,若解决无交互信息与标注成本问题,将改变数据采集格局[27] 行业发展趋势 - 未来趋势是多方案融合,通过优势互补实现成本、精度、规模三者平衡[28] - 终极目标是实现“自主数据闭环”,机器人自主完成任务、采集数据、优化模型[28] - 需突破三大技术瓶颈:高效多模态传感器融合、智能自动标注、精准场景适配方法[28] - 数据采集的关键在于“越精准、越多样、越低成本越好”,找到三者平衡的企业将在竞争中占据先机[28]