Workflow
具身智能之心
icon
搜索文档
都在说VLA,很多同学连demo都跑不好......
具身智能之心· 2025-12-03 10:00
文章核心观点 - 视觉语言动作模型领域面临从理论到实践的巨大挑战,特别是在真机数据采集、模型训练与部署等环节,存在显著的学习壁垒和落地困难 [2][6] - 行业技术发展迅速,开源框架和新算法不断涌现,但模型性能高度依赖硬件本体和数据质量,仿真与真实场景存在泛化差距 [2][4] - 为应对上述挑战,推出了一个全面的实战课程,旨在通过软硬结合的方式,系统化地培养VLA领域的实操人才 [14][16][19] 技术发展现状与挑战 - 算法层面近2年涌现大量新方法,如ACT、OpenVLA、π0、π0.5、π0.6系列,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,支持不同类型的研究需求,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台 [4] - 核心挑战在于数据、模型、训练、部署的全流程打通,初学者常陷入长期调试而难以入门,尤其π0、π0.5、GR00T等模型的数据采集和训练包含大量未公开技巧 [6] VLA模型落地关键模块 - **数据采集**:主要基于模仿学习(遥操作、VR、全身动捕捉)和强化学习,机械臂领域多采用前两种,如何保证数据质量及实现real2sim2real是关键问题 [7][8] - **模型训练**:真机部署前需进行仿真调试,Mujoco、Isaac Gym等框架在数据不足时尤为重要,训练技巧至关重要,不同算法难度差异大,ACT相对简单易出效果,而π0和π0.5则极难训练成功 [9][10] - **模型部署**:面临模型参数量大(即使2B规模)导致的边缘芯片部署挑战,必须进行轻量化操作如量化、蒸馏,以在保证性能的同时最小化参数量 [11][12] 课程解决方案与目标 - 课程定位为国内首个面向实战与求职的VLA小班课,内容覆盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流模型部署、VLA+世界模型、真机实验及产业讲解 [14][16] - 课程目标为使学员掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对产业落地有清晰认识,学完后达到1-2年算法工程师经验水平 [30] - 面向人群包括具身领域求职者、VLA入门进阶者、相关专业学生、以及希望从传统CV/机器人/自动驾驶转行的人员,建议具备Python和PyTorch基础,推理需3060及以上显卡,训练需2张以上3090ti显卡 [27]
今年9家盈利最高的人形机器人公司......
具身智能之心· 2025-12-03 03:47
机器人行业2025年订单与出货量排名 - 根据公开信息梳理2025年机器人行业营收前9名公司 包括订单总金额和出货量等关键数据 [1] 公司具体业绩与客户分析 - 众擎机器人订单金额3年2亿元 出货量3年内2000台 核心客户包括多伦科技2000台具身智能机器人三年框架采购协议 与尚品宅配智能家居生态合作 以及与英伟达 亚马逊等头部企业场景化合作 融资规模达近10亿元 [2] - 松延动力订单金额超1亿元 全年订单量突破2500台 主要覆盖教育 科研 文旅展示和商业演出等领域 [2] - 星尘智能订单金额约5亿元 未来两年部署上千台AI机器人 与仙工智能战略合作 应用于工业制造和仓储物流等场景 [2] - 智平方订单金额5亿元 3年内交付超1000台机器人 与惠科签署协议主要应用于工业场景 [2] - 乐聚机器人订单金额约5亿元 全年出货近2000台 [2] - 智元机器人订单金额约7亿元 出货量数千台 核心客户包括中移(杭州)信息7800万元订单 珠海具身智能创新中心1274万元订单 富临精工数千万元订单 均普智能电子汽车零部件产线 龙旗科技数亿元订单部署近千台机器人 [2] - 优必选科技订单金额超8亿元 出货量约2700台 订单主要来自汽车厂商和广西 四川的数据采集需求 覆盖汽车制造 科技服务 工业数据采集等领域 [3] - 越疆机器人订单金额约11亿元 全年出货约2万台 根据官方信息2024年工业协作机器人出货量8万台 2025年10万台 [3] - 宇树科技订单金额近12亿元 出货量超万台(含四足机器人) 核心客户包括中移(杭州)信息技术有限公司中标4605万元 同济大学826万元订单 中国科学技术馆627万元订单 与巨星传奇成立合资公司宇星娱乐 威刚科技签订1000台四足机器人采购合同总价超2000万元 云工场科技采购5000台四足机器人合同金额超1亿元 公司创始人称营收已破10亿 [3]
五年,终于等来Transformers v5
具身智能之心· 2025-12-03 03:47
Transformers v5版本发布概述 - Hugging Face发布Transformers v5首个候选版本v5.0.0rc0,标志着该库结束了长达五年的v4技术周期 [1][2] - 作为最核心的开源项目,其日下载量从2020年11月的2万次激增至超过300万次,总安装量突破12亿次 [2] - 支持的模型架构从最初的40个扩展至超过400个,社区贡献的模型权重超过75万个 [2] 核心进化维度 - v5版本将PyTorch确立为唯一核心后端,并聚焦于四大维度的进化:极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性、将量化提升为核心功能 [2] 简洁性与模块化 - 团队首要关注点是简洁性,旨在实现干净清晰的模型集成方式,以带来更广泛的标准化和生态支持 [3][4] - 大力推进模块化设计,使维护更简单、集成速度更快,并促进社区协作 [8] - 引入AttentionInterface等抽象层来简化通用辅助函数的管理 [10] 模型支持与工具 - 目标是收录所有最新模型架构,成为模型定义的唯一可信来源,过去5年平均每周新增1-3个新模型 [5][6] - 构建工具帮助识别新模型与现有架构的相似性,并希望自动化模型转换流程以减少手动工作 [11][12] 代码精简与后端聚焦 - 对建模文件和标注相关文件进行大规模重构,使建模代码只保留模型前向/反向传播的核心部分 [14] - 简化tokenization & processing文件,未来将只关注tokenizers后端,并移除Fast和Slow tokenizer概念 [15] - 逐步停止对Flax/TensorFlow的支持,专注于PyTorch作为唯一后端 [16] 训练能力增强 - v5加大了对大规模预训练以及完整训练的支持,重新设计了模型初始化方式并加入对优化算子的支持 [18][19] - 继续与Python生态系统中的微调工具紧密合作,并确保与JAX生态中的工具兼容 [20] 推理优化 - 推理是v5优化重点,带来多项范式级更新,包括专用内核、更干净的默认设置和新的API [21][22][23] - 定位并非取代vLLM等专业推理引擎,而是目标与这些引擎实现兼容 [24] 生产环境与部署 - 与流行推理引擎紧密合作,使模型一旦被添加到Transformers中就能立即在这些引擎中可用 [26] - 与ONNXRuntime、llama.cpp和MLX密切合作以确保互操作性,并推动设备端直接运行 [26][27] 量化与新兴功能 - 量化正成为前沿模型开发标准,许多SOTA模型以8-bit和4-bit等低精度格式发布 [28] - 包含连续批处理和paged attention机制,并推出全新的transformers serve服务系统,可部署兼容OpenAI API的服务器 [29]
免训练!使用贝叶斯去微调VLM,机器人操作任务取得SOTA!
具身智能之心· 2025-12-03 03:47
核心技术框架 - 提出T²-VLM框架 一种无需训练且具有时序一致性的方法 通过跟踪视觉语言模型推导出的子目标状态变化来生成精确奖励 [2] - 框架首先在每轮交互前查询视觉语言模型以建立空间感知的子目标及初始完成度估计 随后采用贝叶斯跟踪算法利用子目标隐藏状态动态更新目标完成状态 [2] - 该方法为强化学习智能体生成结构化奖励 增强长程决策能力并借助强化学习提升故障恢复性能 [2] 技术优势与性能 - T²-VLM在两个机器人操作基准测试中取得最先进性能 在降低计算消耗的同时展现优异奖励准确性 [2] - 方法在不牺牲视觉语言模型通用泛化能力前提下显著提升其空间理解能力 为真机强化学习训练提供更精确反馈 [5] - 解决预训练数据集缺乏领域特定机器人知识及高昂计算成本阻碍实时应用的问题 [2] 应用场景 - 针对长序列机械臂操作任务中视觉语言模型难以稳定提供准确奖励信号的挑战提出解决方案 [5] - 框架专为机器人操作任务设计 通过时序一致性增强在具身任务如目标分解与视觉理解中的性能 [2]
智源发布具身数据创新基座,携手行业共筑物理AGI基础设施
具身智能之心· 2025-12-03 03:47
具身智能数据创新基座发布 - 2025年11月20日北京智源人工智能研究院发布具身数据创新基座包括智源具身一站式平台RoboXstudio、大型高质量双臂机器人真机数据集RoboCOIN、具身数据软件框架CoRobot [6] 具身智能数据发展挑战 - 面临数据孤岛挑战具身数据格式不统一标准缺失导致数据处理复杂工具链分散形成数据使用壁垒 [7] - 存在质控缺失挑战数据普遍存在丢帧卡顿静止帧关节信息不齐时间戳错位等记录问题以及动作过快过慢等操作问题 [7] - 面临成本难题挑战数据生成依赖大量人工操作与标注缺乏成熟平台支撑设备场地人力综合导致生产成本居高不下 [8] CoRobot具身数据软件框架 - 框架目标为定标准保质量提效率面向异构本体规范操作流程提升研发效率 [10] - 由5大组件构成包括泛本体数采工具支持接入各种本体和遥操作设备格式转换工具支持双向转换数据处理工具可处理丢帧卡顿等标注信息数据管理工具支持原子化存储可视化模型训推工具支持模型训练任务快速接入 [10] - 软件框架主页为https://github.com/FlagOpen/CoRobot [11] RoboCOIN双臂机器人数据集 - 数据集由智源研究院联合8家企业及多所高校共建具备本体数最多标注最精细使用最便捷三大优势 [14] - 涉及15款双臂机器人数据量达18万条覆盖工业家居零售等10多个场景 [16] - 完成轨迹级段级帧级三层次细粒度标注依托CoRobot实现开箱即用 [16] - 数据集主页为https://flagopen.github.io/RoboCOIN/ [16] RoboXstudio一站式平台 - 平台基于CoRobotFlagOS-RoboEmu3.5打造覆盖数据采集标注管理训练评测部署全流程 [19] - 具备更全面特点支持多类型机器人及人体数据采集覆盖全场景多样化任务 [22] - 具备更系统特点构建数采前配置数采中监控数采后管理闭环体系 [22] - 具备更智能特点集成开源框架与多模态大模型内置智能算子实现任务拆解数据扩增 [22] - 平台体验申请地址为https://ei2data.baai.ac.cn/home [20] 开源生态与行业协作 - 智源FlagOpen体系开源模型全球总下载量达6.9亿次截至2025年8月 [23] - 发布智源具身智能一站式平台社区版供免费使用CoRobot和RoboCOIN面向全社会开源 [23] - 以RoboCOIN为起点分享高质量数据工具链及方法论推动行业统一标准协同创新 [23]
VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
具身智能之心· 2025-12-02 09:30
文章核心观点 - VisPlay研究首次提出自进化强化学习框架,使视觉语言模型仅通过海量未标注图像数据实现自我演化和能力提升[2] - 该框架将基础模型分解为提问者与推理者角色,通过迭代自我进化机制协同进化,结合GRPO算法和多样性/难度奖励平衡问题复杂度与答案质量[2][10] - 实验证明VisPlay在Qwen2.5-VL和MiMo-VL等主流模型上实现持续性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著[3] 技术背景与挑战 - 当前VLM提升复杂推理能力依赖耗费巨大的人工标注数据或启发式奖励,成本高昂且难以规模化[1] - 随着模型规模扩大,人工标注成本速度已跟不上模型演化需求,成为能力提升主要瓶颈[5] VisPlay框架设计 - 核心理念为自我进化,从基础预训练VLM出发分解为提问者和推理者两大相互作用角色[8] - 提问者负责生成具有挑战性但可回答的视觉问题,采用难度奖励和多样性奖励机制指导进化质量[10] - 推理者基于图片和问题生成伪标注答案,采用回答准确性作为训练信号[12] - 通过奖励机制有效解决自进化模型中答案质量低和问题重复度高的问题[11] 实验结果与性能 - 在八个主流基准数据集评估显示VisPlay实现一致且显著准确率增益[15] - Qwen2.5-VL-3B模型在MMMU任务从基准19.95提升至37.11,视觉数学推理从26.14提升至35.15,幻觉检测从32.81大幅提升至90.54[16] - Qwen2.5-VL-7B模型在MMMU任务从23.10提升至38.27,幻觉检测从66.88提升至92.32[16] - MiMo-VL-7B模型在多个任务上实现稳定提升,如视觉数学推理从41.80提升至46.02[16] - 框架展现出强大组合泛化能力和有效抑制幻觉现象的概率[17]
上交&ai lab团队联合提出MM-ACT:一个统一的VLA模型实现感知-规划-执行的高效协同
具身智能之心· 2025-12-02 09:30
文章核心观点 - MM-ACT模型通过统一多模态表征、差异化并行解码和上下文共享学习三大创新设计,有效解决了机器人操作领域“通用性”与“高效性”的平衡难题[1][3][27] - 该模型在模拟与真实场景中均展现出超越现有方案的性能,平均成功率高达96.3%,在长序列任务中提升5.0%[13][14] - 模型实现了文本规划、图像预测和动作生成的高效协同,推理延迟低至0.22秒,支持40Hz高频率动作输出[10][19] 技术架构创新 - 采用统一多模态表征空间,将文本、图像、机器人状态与动作编码为离散token,消除模态壁垒[6] - 设计差异化并行解码策略:文本/图像采用重掩码并行解码保证质量,动作采用单步并行解码满足实时需求[8][10] - 创新上下文共享学习范式,通过双阶段训练实现跨模态正向迁移[9][11] 性能表现 - 在LIBERO基准测试中平均成功率96.3%,超越UniVLA(95.5%)和DreamVLA(92.6%)等基线模型[13] - RoboTwin2.0跨域任务平均成功率52.38%,较单动作训练提升9.25%,显著优于To(48.13%)和OpenVLA-OFT(23.13%)[14] - 真实机器人实验在3个实物操作任务中平均成功率72.0%,优于对比模型[15] 跨模态协同价值 - 文本-动作联合训练使动作生成成功率提升3.37%[16][17] - 图像-动作联合训练带来5.62%的成功率提升[16][17] - 三模态联合训练实现1+1+1>3的效果,验证跨模态信息互补性[17] 效率优化 - 单步并行解码配置实现0.22秒推理延迟,平衡效率与精度[19][20] - 动作块大小8的配置支持40Hz高频率动作输出[10][19] - 重掩码解码虽提升精度但耗时增至1.06秒,最终选择单步解码满足实时需求[19] 应用场景拓展 - 在双臂机器人复杂操作场景表现优异,如Place Burger Fries任务成功率73%[22][25] - 自动化文本标注生成70k训练样本,无需人工干预[25] - 为工业分拣、家庭服务等规模化落地场景提供重要技术参考[27]
清华成立具身智能与机器人研究院
具身智能之心· 2025-12-02 09:30
文章核心观点 - 国内高校正以前所未有的速度和规模布局具身智能领域,从单点实验室研究向跨学科研究院、本科专业设置等全链条体系化发展升级 [4][28][33] - 清华大学于11月30日新成立具身智能与机器人研究院,标志着高校在该领域的投入进入“集团军协同”的新阶段 [5][16][28] - 具身智能行业展现出巨大的市场潜力和人才需求,预计2025年中国市场规模达52.95亿元,2030年全球市场有望突破2326亿元 [37][38] 清华大学具身智能布局 - 清华大学于11月30日正式揭牌成立具身智能与机器人研究院,由自动化系主任张涛教授出任院长 [5][7] - 新研究院定位为跨学科整合、重大项目承接、产学研协同与高端人才培养的综合平台,区别于此前侧重基础研究的实验室 [13][16] - 此次是清华大学继今年3月30日设立具身智能系统北京市重点实验室后,在具身智能领域的又一次重大动作 [9][10] 其他高校布局动态 - 复旦大学于今年1月率先成立可信具身智能研究院,聚焦基础模型、数据引擎等五大核心方向 [18][21] - 北京航空航天大学于今年11月启动具身智能机器人研究院,并设立“具身智能机器人项目制实验班” [22][24] - 北京大学将具身智能与机器人研究中心挂靠在人工智能学院下,中心共同主任为刘宏教授和王启宁教授 [25][26] 学科建设与人才培养 - 上海交通大学已开设全球首个具身智能四年制工学本科专业,首年招生30人 [31] - 包括北航、北理、浙大、哈工大在内的9所高校正在申报具身智能本科专业,另有9所高校申报增设未来机器人专业 [31][32] - 设立新专业旨在解决传统专业培养内容零散、毕业生缺乏软硬件集成工程能力的问题,以应对产业对复合型人才的迫切需求 [40] 行业前景与市场数据 - 具身智能在一年内走完了大模型三年的发展路程,行业发展速度极快 [4] - 2025年中国具身智能市场规模预计达52.95亿元,全球市场2030年有望突破2326亿元 [37] - 高盛预测2035年全球人形机器人市场规模将达380亿至2050亿美元,人社部预计2025年相关领域存在3000万人才缺口 [38][39]
担心买得起机械臂,玩不转代码?小白友好,你的第一台科研机械臂
具身智能之心· 2025-12-02 09:30
产品定位与目标用户 - 产品为面向具身智能科研领域的轻量级高性价比机械臂,专为新手和科研初学者设计 [5] - 目标用户包括学生、教育工作者及刚踏入机器人领域的开发者,旨在帮助其低成本、高效率地完成算法验证与项目开发 [6] 核心价值主张:解决行业痛点 - 传统具身科研实战中,70%的时间耗费在调试硬件通信、校准传感器以及手动在仿真与真机间移植代码 [1] - 算法迭代一次需要数天才能看到真实效果,研发效率低下 [1] - 该产品通过提供全流程工具链,将工作流转变为在Gazebo中快速仿真验证,并可一键部署至真机进行精细化调优,实现从“灵感”到“物理动作”的高效迭代 [2][20] 产品关键性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度 [11][22][24] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [11][22][24] - 供电电压为24V,通讯方式采用CAN,控制方式支持轨迹跟踪、示教和API [11][22] 核心产品优势 - 提供从数据采集、模型训练到推理部署的全流程开源工具链和代码示例,支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流框架 [7][20][39] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,实现仿真验证后一键部署至物理设备 [20][25] - 同时提供Python和C++双语言开发接口,并兼容ROS1与ROS2,降低开发者上手门槛 [7][21][22] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [32][33] 售后服务与支持 - 提供24小时快速售后响应,确保用户遇到问题不卡壳 [7] - 产品交付周期为1至2周,非人为损坏质保半年 [51][52] - 产品已适配Realsense D435系列、奥比中光DCW2等相机,并逐步适配更多开源模型如lerobot、act、robotwin等 [53]
竟速机器人“母港”! 2026具身智能首展,3月杭州集结!
具身智能之心· 2025-12-02 03:03
行业市场规模与增长前景 - 2025年中国具身智能市场规模预计逼近53亿元,占全球份额超过25% [3] - 市场预计在2026年突破200亿元,并指向2030年全球8700亿元的广阔蓝海 [3] - 技术奇点临近,核心零部件不断突破成本极限,大模型为机器人注入"常识",应用场景从"可行"迈向"好用" [5] 杭州产业生态优势 - 杭州已集聚700余家产业链关键企业,贯通从"大脑"研发到"本体"制造的全链条 [6] - 依托领先的算力数据与科研网络,孕育出"杭州六小龙"等行业标杆,实现技术攻关到商业落地的高效耦合 [6] - 全国率先为具身智能立法,以"数字经济第一城"的基因构建最优产业发展生态圈 [6] 2026第三届中国具身智能机器人产业大会暨展览会概况 - 展会将于2026年3月11-13日在杭州国际博览中心举办,展览面积30,000平米 [8] - 汇聚500+参展企业与30,000+专业观众,由十余家权威机构联合组织 [8] - 构建"会、展、技术、趋势"四位一体的产业核心生态场 [8] 展会产业链覆盖范围 - 展品范围涵盖从灵巧手、力矩电机等核心零部件到完整的人形机器人、特种机器人的全产业链 [14] - 具体包括动力系统、控制与计算、感知系统、执行与驱动、软件与算法等关键环节 [16] - 致力于打通从原材料、核心零部件到整机与系统集成的全产业链 [14] 参会企业与机构规模 - 吸引包括越疆、智元等在内的500+家产业链核心企业 [20] - 汇聚50+家顶尖行业协会与科研院校 [20] - 历届参会品牌涵盖华为、优必选、宇树科技、达闼等行业领军企业 [27] 大会同期活动与议题设置 - 大会将汇聚逾500位顶尖学者、产业领袖与投资大咖,以及5000名资深业界精英 [29] - 议题纵贯产业链,深度解构从"大脑小脑肢体"技术突破到千行百业场景实践 [29] - 同期举办5场专题峰会,包括产业链协同峰会、核心技术创新论坛等,总规模达2400人 [31][32] 产业年度颁奖盛典设置 - 2026中国具身智能产业年度颁奖盛典以"AI智行·共启机器人新纪元"为主题 [38] - 设立十大卓越整机品牌、十大创新整机品牌、十大关键部件技术突破奖等七大奖项 [38][39][41][42][43][44][45][47] - 评选维度涵盖品牌创新力、技术突破性、供应稳定性、投资价值等关键指标 [39][41][42][43][44][45][47] 媒体传播与后续展会规划 - 通过全媒体精准引流,实现展前深度种草、展中高效交易匹配、展后持续内容曝光 [48] - 合作媒体涵盖中国机器人网、OFweek、机器之心等50余家行业权威媒体 [51] - 2026年还将在上海和大湾区举办第四届和第五届具身智能机器人产业大会 [55]