Workflow
具身智能之心
icon
搜索文档
面向真机,搞了一套VLA算法部署+量化+世界模型实战教程
具身智能之心· 2025-12-05 00:02
具身智能与视觉语言动作模型技术现状 - 视觉语言动作模型在真实硬件上运行效果不佳,许多模型难以达到预期效果 [1] - 具身智能领域高度依赖硬件本体,算法与硬件结合紧密,仿真和互联网数据在泛化性能上无法保证 [2] - 行业内的许多公司坚持采用“真机数据”路线来确保模型性能 [2] 技术发展与开源生态 - 近两年来,视觉语言动作模型算法发展迅速,从ACT、OpenVLA到π0、π0.5、π0.6等新方法不断涌现,性能持续提升 [4] - 基于强化学习的优化方案使得视觉语言动作模型运行更加流畅 [4] - 开源技术框架(如LeRobot)和多样化的开源硬件本体(如SO-100机械臂、openarm双臂、XLeRobot移动操作平台)为研究提供了支持 [4] 技术落地面临的挑战 - 打通从数据采集、模型训练优化到部署的全流程任务对初学者极为困难,许多人长期无法有效入门或取得好效果 [6] - 特定模型如π0、π0.5、GR00T在数据采集和模型训练中存在大量未公开的技巧 [6] - 模型训练前的仿真调试至关重要,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧是关键,许多模型存在机械臂运动不准、夹爪操作失败或运动误差大的问题 [10] - ACT等算法相对简单易出效果,而π0、π0.5等模型训练难度大,对细节和经验要求高,强化学习优化同样充满挑战 [11] 视觉语言动作模型落地的核心模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动作捕捉,以及强化学习,如何采集高质量数据及实现real2sim2real是重点 [7][8] - **模型训练**:涉及仿真调试与训练技巧,特别是在真机数据不足时如何微调模型,以及如何用小数据量获得好结果 [9][10] - **模型部署**:训练后的模型需进行“瘦身”处理,因参数量大(即使是2B规模),在边缘芯片部署挑战大,需采用量化、蒸馏等轻量化技术 [12][13] 行业培训与解决方案 - 针对视觉语言动作模型技术更新快、学习难度大的痛点,出现了面向实战与求职的系统性小班课程 [14] - 课程内容全面,涵盖机械臂硬件、数据采集、算法、评测、仿真、主流模型部署、视觉语言动作模型与世界模型结合、真机实验及产业讲解 [16] - 课程提供SO-100机械臂硬件(含示教臂和执行臂)以供实践 [20] - 课程讲师为机器人公司高级研究员,拥有5年以上行业实战与产学研落地经验,精通全栈技术并在顶级期刊发表论文10余篇 [23] - 目标学员包括求职者、入门进阶者、高校学生、转行人员及爱好者,要求具备Python和PyTorch基础,并建议使用3060及以上显卡进行推理,2张以上3090ti进行训练 [24] - 课程目标为使学员掌握真机调试与数据采集、各类视觉语言动作模型算法部署、模型量化技术,并对产业有清晰认识,积累相当于1-2年经验的算法工程项目 [27] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28]
人形机器人新突破!敏捷稳定两不误
具身智能之心· 2025-12-05 00:02
文章核心观点 - 由香港大学、NVIDIA和清华大学联合提出的AMS统一人形机器人全身控制框架,首次在单一策略中同时实现了动态运动跟踪和极限平衡控制能力,解决了该领域的“两难困境” [3][5] AMS框架解决的核心挑战 - 人形机器人需要同时具备敏捷的动态运动和精确的平衡控制,但现有方法难以在统一框架中实现两者 [5][7] - 现有研究主要分两个方向:动态运动跟踪(如跳舞、跑步)和平衡控制(如单腿平衡),两者难以统一 [8][10] - 难以统一的原因主要有两方面:一是依赖人类动作捕捉数据存在“长尾分布”问题,极端平衡场景数据不足;二是动态运动与平衡控制的优化目标存在冲突 [12][13] AMS框架的三个关键创新 异构数据源 - 核心思路是从机器人动作空间直接采样生成可扩展的平衡数据,突破人类数据限制 [2] - 该方法避免了手动收集人类动作数据的限制,通过采样生成合成平衡动作数据 [16] - 优势包括:保证物理可行性、可扩展性强、能生成人类难以完成的极限平衡动作,充分挖掘机器人独特的机械能力 [16] - 整合人类动捕数据与合成平衡动作,有效缓解数据长尾分布问题,使策略能零样本跟踪如“叶问蹲”等未见过的极端平衡动作 [19][20] 混合奖励机制 - 选择性应用平衡先验奖励,精准提供平衡指导而不牺牲敏捷性 [2] - 设计包含通用奖励(应用于所有数据,鼓励鲁棒运动跟踪)和平衡先验奖励(仅应用于合成平衡数据,提供物理先验引导) [21] - 该设计使策略既能从人类动作中学习敏捷行为,又能在挑战性姿态中保持稳定,化解了优化目标冲突 [21] 自适应学习策略 - 动态调整采样概率,同时对每个动作“因材施教”,实现高效的自适应学习 [2] - 包含两个关键组件:自适应采样(根据跟踪性能动态调整运动序列采样概率,实现困难样本挖掘)和自适应奖励调整(为每个运动维护特定的误差容忍度参数) [23] 实验结果与能力展示 - 在Unitree G1人形机器人上的真机实验表明,AMS统一策略能够实现多种能力 [24] - **动态运动跟踪**:能够流畅执行折返跑、篮球运球、武术等多种高动态动作 [24][26] - **极限平衡控制**:得益于可扩展的合成平衡动作数据,展现了精确的平衡控制能力,能完成随机采样生成的单腿平衡动作 [26][28] - **实时遥操作**:支持基于惯性动捕和基于RGB相机的多种实时遥操作模式,展示了其作为基础控制模型的实用价值 [29][31][33]
有的同学已经开始叠毛巾,有的还在调硬件......
具身智能之心· 2025-12-04 09:53
产品发布与定位 - 公司正式发布并支持pi0和pi0.5任务的部署,相关代码将开源 [1][2] - 公司发布了一款名为Imeta-Y1的轻量级高性价比机械臂,专为具身智能科研领域打造,旨在帮助新手和科研初学者低成本、高效率地完成算法验证与项目开发 [4][5][6] 产品核心功能与性能 - 机械臂本体重量为4.2KG,额定负载为3KG,拥有6个自由度,工作半径为612.5mm,重复定位精度为±0.1mm [13][24] - 机械臂关节运动范围广泛,例如J1关节为-165°至165°,关节运动最大速度可达180°/s至220°/s [13] - 提供从数据采集、模型训练到推理部署的全流程开源工具链和代码示例,支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流框架 [7][22][41] - 支持Python和C++双语言开发接口,并兼容ROS1和ROS2,提供URDF模型,可实现仿真与真机的无缝切换 [7][8][22][23] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [34][35] 产品优势与特点 - 产品设计对新手友好,提供全流程工具链和代码,旨在降低上手难度 [6][7][22] - 支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,以降低开发风险与调试成本 [22][27] - 公司提供快速响应的售后服务,承诺24小时内响应 [8][24] - 机械臂采用高精度运动控制、低功耗设计与开放软硬件架构,其紧凑型结构与模块化接口适用于嵌入式AI与机器人学习平台的开发 [10][11] 应用演示与算法适配 - 公司通过让机械臂执行“叠毛巾”这一生活化任务,展示了其从单次折叠到连续流畅叠放多条毛巾的算法迭代与执行稳定性进化过程 [3] - 机械臂已适配的算法包括ACT,并计划后期陆续升级更新VLA、VA相关的源码,新老客户均可享受升级 [24] - 在硬件适配方面,机械臂目前已适配Realsense D435系列和奥比中光DCW2相机 [55] - 对于模型训练所需的硬件配置,公司示例称其适配的算法在NVIDIA GeForce RTX 4060显卡上即可进行训练和推理 [55]
具身智能之心招募合伙人了~
具身智能之心· 2025-12-04 03:10
文章核心观点 - 公司旨在运营一个为具身智能行业创造持续价值的社区平台 并呼吁行业有影响力的人士加入合作 共同推动行业发展 [1] 合作内容 - 合作方向包括课程研发、论文辅导、咨询服务、企业培训、学科共建、硬件研发等多个方面 [1] - 课程开发与论文辅导旨在搭建让更多初学者受益的课程 并推动C端、企业培训、高校学科建设的发展 [2][3] - 硬件研发旨在搭建好用且性价比高的具身科研平台 以降低开发者和初学者的使用门槛 [4][5] - 咨询和培训服务旨在承接B端和C端在具身数据、本体、算法和部署等方面的咨询 以助力产业升级转型和促进行业人才发展 [6][7] 岗位要求与待遇 - 期望合作者具备一定的领域工程经验 或具备博士及以上学位并手握顶会论文 [7] - 合作形式全职和兼职均可 [7] - 公司提供行业有竞争力的报酬 同时合作者将获得公司的行业资源 [8] 联系方式 - 感兴趣的人士可通过添加指定微信进行进一步咨询 [9][10]
VLA 模型的泛化能力超乎你的想象:换个新相机和视角推理也能轻松搞定!
具身智能之心· 2025-12-04 03:10
文章核心观点 - 视觉-语言-动作模型在面临新相机视角等视觉扰动时性能下降的核心原因是其空间建模组件存在对齐偏差,而非物理建模能力不足 [2][9] - 通过一种极轻量级的单次自适应框架,仅更新少量参数即可重新校准视觉表征,从而显著恢复模型的视角泛化能力,这揭示了预训练VLA模型中存在大量未被挖掘的鲁棒性潜力 [3][14] VLA模型的泛化性困境 - VLA模型是具身智能核心技术,能将视觉观测和语言指令转化为机器人动作序列,在训练数据中表现优异 [4] - 然而,当面临未见过的相机视角、光照变化等视觉扰动时,模型性能会急剧下降,这是其落地的关键瓶颈 [6] - 现有提升鲁棒性的方法主要分为两类:成本高昂的数据中心范式和对任务无关因素敏感的表示中心范式,且参数高效微调技术极少直接用于优化视觉模块 [7][8] 空间建模是VLA泛化的核心瓶颈 - 研究将VLA模型解耦为空间建模与物理建模两个独立组件,并指出性能退化的主因是空间建模失准 [9] - 空间建模负责从图像构建物体空间关系,视角变化会导致其输出的空间表示失真;物理建模负责高层推理和动作生成,其任务逻辑不受视角变化影响 [12][15] - 通过嵌入漂移分析验证:新视角的视觉token与训练视角的token在嵌入空间中存在严重域间隙,轻量级适配后能使其对齐,性能随之恢复 [13] 方法设计:轻量级单次适配框架 - 提出单次适配框架,仅对视觉模块进行轻量级调整,语言编码器和解码器保持固定 [16][17] - 特征token调制是一种极简机制,仅用两个可学习参数向量对视觉token进行全局仿射变换,引入4K可训练参数,能将Libero数据集的视角准确率从48.5%提升至87.1% [3][18] - 特征线性自适应在FTM基础上,对ViT编码器的线性层进行低秩更新,仅引入470万参数,在实验中实现了90.8%的平均成功率,达到甚至超越了全量LoRA微调的效果 [3][19] 实验验证与结果 - 实验在Libero-V基准上进行,该基准引入了相机视角变化、光照变化、背景纹理扰动和传感器噪声四种受控视觉扰动 [23][27] - 在新相机视角任务中,FLA取得了90.8%的平均成功率,超越了LoRA微调的90.3%;FTM以87.2%的成功率接近LoRA微调,且仅用4K参数 [24][26] - 在多种视觉扰动下,FLA的平均成功率达94.8%,与LoRA微调持平;FTM以90.5%的成功率远超Prompt学习的75.1% [30][31] - 参数效率极高:FTM仅用0.004M参数达到90.5%成功率;FLA用4.70M参数达到94.8%成功率,远低于LoRA微调所需的467M参数 [32] - 真实世界实验表明,通过单次FLA适配,模型能在新相机视角下成功完成所有操作任务,有效弥合仿真与现实的域间隙 [33] 方法优势与结论 - FLA/FTM方法聚焦视觉模块的轻量级适配,无需修改模型架构或重新训练,是更高效、更实用的解决方案 [20] - 该方法精准定位了模型泛化性的瓶颈,并提出了高效解决方案,证明了针对性、极小化的视觉自适应足以恢复模型的视角泛化能力 [3][34]
LatBot:中科院团队提出潜在动作蒸馏,提升机器人VLA小样本迁移效率
具身智能之心· 2025-12-04 00:04
研究背景与挑战 - 潜动作学习是视觉-语言-动作模型的重要研究方向,旨在从连续帧中提取压缩的运动语义,形成与机器人实体无关的通用表示,以利用大规模人类视频扩展训练数据,突破传统机器人数据集的限制[2] - 现有潜动作模型存在三大关键问题:缺乏任务指令引导,无法捕捉任务相关变化;对多帧信息利用不足,导致潜动作表示不精确;过度关注视觉外观变化,缺乏物理感知,造成潜动作表示与实际可执行动作间的语义鸿沟[2] 核心方法设计 - 提出解耦的潜动作表示,将潜动作分解为两个互补的可学习token,分别编码结构化的场景表示和运动表示,以明确区分机器人主动运动与环境被动变化[4] - 场景token捕捉物体位置、姿态、背景动态等环境被动变化[7] - 运动token编码机器人末端执行器的平移、旋转、夹爪动作等主动运动[7] - 设计统一潜动作解码器,以潜动作为条件,联合引导未来帧重建和帧间动作生成,该解码器基于预训练图像生成模型SANA初始化[5] - 通过层-wise双向交互逐步融合场景和运动信息,实现空间线索与动态线索的渐进融合,最终解码出未来视觉帧和帧间动作[11] - 为将潜动作知识迁移到VLA模型,设计双损失蒸馏策略,包括潜动作对齐损失和推理保留损失,整体蒸馏目标通过一个默认设为0.5的参数平衡两者[8][9] - 蒸馏后,通过动作专家微调将潜表示转化为可执行的机器人动作,微调损失分解为末端执行器损失和夹爪状态损失[9] 实验验证与关键结果 - 预训练数据集融合了OXE、AgiBoT、EgoDex等机器人和人类手部操作数据,共100万视频片段[12] - 在SIMPLER基准测试中,在Google机器人的视觉匹配和变体聚合设置下,平均成功率分别达78.0%和70.1%,显著超过基线;在WidowX机器人上平均成功率87.5%,较基线提升32.3%[12] - 在LIBERO基准的四个任务套件上平均成功率98.0%,其中LIBERO-Long任务较基线提升3.0%[12] - 在Franka真实机器人的5个复杂任务中展现出优异的少样本迁移能力[10] - 仅用10个演示样本时,颜色识别任务成功率达60%,而基线模型完全失败[12] - 50个演示样本下,块插入任务成功率80%,刷子蘸酱任务成功率50%,均大幅超越基线[12] - 全量数据训练时,多个任务成功率达80%-100%[12] - 组件消融实验表明,解耦潜动作表示和统一动作解码器具有显著协同作用,单独使用DLA可将基线平均成功率从51.0%提升至59.4%,单独使用UAD可提升至61.5%,两者结合后成功率跃升至87.5%[10][13] - 通过注意力图可视化发现,蒸馏后的VLM能更精准地定位任务相关目标,在存在干扰物时对真实目标的响应更集中,证明潜动作知识增强了模型的空间接地能力[14] 核心结论与展望 - 关键洞察是通过任务指令引导、多帧输入利用、物理先验融入以及运动与环境变化的解耦,能学习到通用且可迁移的潜动作表示[18] - 核心贡献是提出的LatBot框架通过解耦表示、统一解码器和双损失蒸馏,实现了仿真与真实环境下的优异性能,尤其在少样本场景中表现突出[18] - 未来方向是从更大规模、更多样化的操作视频中提取额外潜token,进一步扩展VLA模型的规模,探索其在更复杂、长程、多实体机器人任务中的潜力[18]
中国移动以亿元战略投资落子,抢占具身智能触觉“必争之地”
具身智能之心· 2025-12-04 00:04
行业概况与市场前景 - 触觉传感器是实现机器人精细操作的核心组件,使机器人能够处理不同材质物体、完成复杂交互任务并实现平衡力控制[3] - 2024年全球触觉传感器市场规模已达到153.3亿美元,预计到2031年将增长至355.9亿美元,期间年复合增长率(CAGR)稳定在12.8%左右[4] - 触觉技术的成熟度正成为决定人形机器人能否真正进入生产力场景的关键变量[10] 公司融资历程与资本认可 - 戴盟机器人在两年内累计完成四轮融资,总金额达数亿元,创下触觉传感器领域的天使轮融资纪录[6][7] - 融资节奏为:2023年9月数千万天使轮(昆仲资本);2024年11月两轮亿元级天使+轮(金鼎资本、国中资本、联想创投、招银国际);2025年8月亿元级天使++轮(招商局创投领投,东方嘉富、架桥资本跟投);2025年12月亿元级Pre-A轮(中国移动链长基金独家投资)[6][8] - 投资者覆盖科技巨头基金、国家级产业资本与风投资本三大体系,资本持续进场表明触觉被视为具身智能落地的关键,公司被视为最具工程可能性的公司之一[7] - 中国移动链长基金的加入具有象征意义,代表一套完整的产业体系,公司将获得实现技术规模化落地所必需的基础设施与生态通道[8][9] 技术路线与产品创新 - 公司选择单色光视触觉技术路线,区别于MIT主导的三色光GelSight路线,通过单色光配合图案追踪编码接触形变[11][15] - 单色光方案在功耗、发热与帧率上更具优势,量产产品可稳定在120Hz刷新率,且结构更简单、稳定性更高、更易工程化量产[15][17] - 2025年11月推出新一代视触觉产品矩阵:面向大面积高防护的DM-Tac W2、适用于狭窄空间的DM-Tac X、为灵巧手指尖设计的DM-Tac F[17] - DM-Tac W2被定位为全球首批突破IP65防护等级、在每平方厘米集成数万个感知单元的视触觉传感器之一[17] - 公司产品起步价拉至1299元,显著低于国际主流产品(6000-7000元)和国内厂商主流区间(2000-3000元),并在W系列上实现了万片级量产,通过欧盟CE和美国FCC认证,已接到欧美订单[19] 系统解决方案与工程化突破 - 公司推出DM-Flux端侧AI计算平台,体积为68mm*58mm*15mm,搭载高性能边缘AI处理器,提供最高10 TOPS算力,可同时挂载五路视触觉传感器,以“即插即用”形态解决下游算力占用问题[20] - 公司定位为“触觉感知公司”,提供从视触觉采集、端侧计算到上层模型的完整技术方案,旨在将触觉做成产业链“算得起、用得上”的基础设施[22] - 公司视触觉产品已率先在全球范围内实现万片级出货,在早期探索阶段的触觉赛道上并不多见[19] 行业挑战与发展逻辑 - 触觉传感器全球仍处早期探索阶段,工程化和商业化难度远高于视觉传感器等成熟技术分支[7] - 行业尚无确定的技术路线,触觉数据如何被具身大模型吸收与利用也未清晰,所有路线都在同时探索[23] - 现阶段比追求“性能天花板”更重要的是让触觉技术被真正用起来,只有集成到灵巧手、本体及大模型的技术链路中,经历足够多的任务与场景迭代,技术才能进化并跟上产业高速发展节奏[24][25] - 触觉企业的现实任务是跑通路线、降低成本、实现可复制可规模化的工程化,让产业链企业愿意使用,从而参与下一阶段的产业叙事[25]
为什么给机器人装上昂贵的触觉传感器,反而让它变笨了?
具身智能之心· 2025-12-04 00:04
文章核心观点 - 当前机器人多模态学习的主流方法——特征拼接(Feature Concatenation)在处理传感器信息稀疏或互补的任务时存在根本缺陷,会导致性能下降甚至失败[3][7] - 提出了一种名为“组合策略”(Compositional Policies)的新框架,通过为每个传感器模态训练独立的专家策略,并在策略层面进行组合,有效解决了传统方法的局限性[9][12] - 新方法在模拟和真实世界的多项机器人操作任务中,性能显著优于传统的特征拼接方法和单模态策略,并具备模块化、增量学习和运行时鲁棒性等优势[29][33][34] 当前多模态机器人学习方法的局限性 - **主流方法**:目前多采用特征拼接,即提取所有传感器的嵌入(embeddings),拼接成一个大向量后输入单一神经网络策略[5] - **根本缺陷一:稀疏信号被抑制**:在处理如“在黑暗背包中找钥匙”这类任务时,偶尔出现的关键信号(如触觉)在统计上被视为“噪音”而被网络过滤掉,导致增加传感器反而降低性能[3][16] - 实验数据显示,在遮挡抓取任务中,仅使用RGB视觉的成功率为35%,而增加触觉数据后,采用特征拼接方法的成功率暴跌至5%[3][16] - **根本缺陷二:缺乏模块化**:所有模态在特征层面紧密耦合,导致无法灵活添加或移除传感器[8][16] - 添加新传感器或移除故障传感器时,必须从头重新训练整个策略,成本高昂[16] - 单个传感器故障可能导致系统发生灾难性故障[16] 提出的解决方案:组合策略框架 - **核心思想**:放弃特征级拼接,转向策略级组合。为每个感官模态(如RGB、触觉、点云)训练独立的专家策略,然后学习如何组合它们的动作预测[9][17] - **工作原理**: - **模态特定专家**:每个专家是一个基于扩散策略/能量模型的实例,专注于自己的感官流,互不干扰[17] - **模态内分解**:在模态内部可进一步分解为互补的子策略(如视觉分为粗略几何和细粒度细节)[17] - **学习共识权重**:通过一个路由器网络(Router)学习预测权重,动态决定每个模态对最终动作的影响程度[17] - **关键优势**: - **解决稀疏性**:每个专家学习自己的动作分布,稀疏模态(如触觉)的专家可以高度专业化,不被其他模态干扰[12] - **模块化设计**:专家独立训练,添加新传感器只需训练新专家并与现有专家组合,无需重训整个系统[13] - **简单实现**:在扩散模型中,组合多个策略对应于概率分布相乘,等同于简单的分数函数相加[13] 实验验证与性能结果 - **模拟环境(RLBench)**:在四个操作任务上,组合策略方法的平均成功率为66%,显著优于单模态策略的49%和特征拼接方法的56%[29] - **真实世界实验(UR5e机器人)**: - **遮挡记号笔抓取**:组合策略成功率为65%,而仅RGB为35%,特征拼接方法仅为5%[34] - **勺子重定向**:一种灵巧的手内操作任务,组合策略成功率为75%,特征拼接方法为21%[34] - **拼图插入**:需要毫米级精度的任务,组合策略成功率为52%,特征拼接方法为40%[34] - **增量学习演示**:完全独立训练RGB和触觉策略后,使用固定相等权重组合(无联合训练),成功完成了单独策略都无法处理的遮挡记号笔抓取任务[15][18] 系统的鲁棒性与自适应性 - **运行时扰动**:在执行过程中突然抢走物体,机器人能适应并完成任务[21] - **传感器损坏**:遮挡一个摄像头模拟故障时,路由器网络将权重转移到剩余功能传感器上,系统表现保持稳定[23] - **物体重新定位**:移动任务相关物体后,策略能成功泛化到新位置[25]
浙大系具身智能再闯港交所:主打工业场景,每天进账1000000元
具身智能之心· 2025-12-04 00:04
公司概况与上市进程 - 仙工智能是一家以机器人控制系统为核心的智能机器人公司,正第二次向港交所递交招股书冲刺IPO [2][3][4] - 公司成立于2020年4月,由赵越、戴萧何、叶杨笙、王群共同出资组建 [76] - 公司已完成4轮累计约2.83亿元人民币的融资,在2025年4月IPO前最后一轮融资中,估值已攀升至32.7亿元人民币 [92][93] 财务表现 - 营收持续高速增长:2022年至2024年,营收分别为1.84亿元、2.49亿元和3.39亿元,复合年增长率为35.7% [5][40] - 公司尚未实现盈利:2022年至2024年连续三年亏损,依次亏损3226万元、4770.4万元和4230.8万元,累计亏损1.22亿元 [7][8][53] - 综合毛利率相对平稳:2022年至2024年,综合毛利率依次为46.8%、49.2%、45.9% [45] - 营收结构以机器人销售为主:2024年机器人销售收入为2.36亿元,占总收入的69.5%,占比接近七成 [41][42] - 软件业务毛利率极高:2024年软件业务毛利率达到87.8%,在產品矩阵中断层领先 [47][48] - 机器人控制器业务毛利率同样高企:2024年机器人控制器业务毛利率达到81.0% [49] 业务与产品 - 公司提供一站式解决方案,产品矩阵包含四个象限:机器人控制器、软件、机器人、配件 [12] - **机器人控制器**:自主研发的SRC系列控制器是机器人的“大脑”,截至2025年6月30日,已适配超过300款零部件,客户可快速组装机器人 [15][16][17] - **软件**:运行于云端的中央指挥中心,负责统一指挥调度整支机器人队伍,并基于世界模型搭建了仿真平台 [18][19][20] - **机器人**:通过星云系统可直接选用的机器人模型已超过1000款,产品定位主要服务于工业场景 [21][23] - **配件**:提供由第三方开发制造的传感器、电源模组等配件,公司负责适配与集成,以降低客户集成难度 [26][27][28] - 公司聚焦工业场景解决方案,产品重心落在工业级AMR(含移动机械臂)与人形机器人 [11][24] - 所有产品的核心技术、开发与设计均由公司主导,但制造与零部件采购均外包给供应商 [31][32] 市场地位与客户 - 根据灼识咨询数据,2024年仙工智能按机器人控制器销量计算已位居全球第一,市场份额达到23.6% [37] - 客户数量稳步上升:2022年服务380家,2023年增至587家,2024年进一步提升到832家 [34] - 截至目前,已服务超过1600家集成商与终端客户,业务覆盖35个以上国家和地区 [35] - 知名客户包括飞利浦荷兰总部工厂、施耐德电气以及一汽大众等 [36] - 通过其平台落地的机器人型号累计已超2000款,已进入3C制造、汽车、新能源、半导体等20多个细分行业 [36] 运营与现金流 - 公司回款周期明显拉长:贸易应收账款周转天数从2022年的48天延长至2024年的81天,2025年上半年进一步增至116天 [66][67] - 公司向供应商付款时间也在延长:贸易应付账款周转天数从2022年的74天延长至2024年的96天,2025年上半年增至129天 [70][71] - 公司经营性现金流净额为负 [69] - 对供应商存在依赖:2022年至2024年及2025年上半年,前五大供应商合计占销售成本的比例分别为55.6%、40.1%、38.7%和34.8% [73] 研发与销售投入 - 研发费用高企:2022年、2023年、2024年的研发开支分别为3930万元、6370万元与7130万元 [56][57] - 软件研发团队是公司研发部门中规模最大的团队 [43] - 销售及分销开支巨大:2022年至2024年,销售及分销开支分别为5110万元、7230万元与8900万元,占当年收入的27.7%、29.0%与26.2% [59][61] - 公司近一半力量押在市场端:截至2024年底,公司共有全职员工430人,其中销售与市场人员达201人,占比高达46.8% [62][63] 管理团队 - 创始人兼CEO赵越,拥有约15年机器人系统架构与深度学习算法研发经验,本科与硕士均毕业于浙江大学,主导研发了SRC系列控制器并持有40项发明专利 [78][79][81] - 联合创始人王群,毕业于浙江大学,是公司核心的技术与产品驱动力之一,带领团队推出了智能叉车解决方案、星云平台等关键成果 [84][85] - 联合创始人兼产品研发负责人叶杨笙,毕业于浙江大学,主导推动了公司多项核心软件产品的开发 [86][87] - 战略与市场负责人丁霞,是CEO赵越的妻子,拥有机器人行业投资与加速器管理经验 [89][91] - 核心创始团队均具备浙江大学背景,且多人曾作为核心成员助力浙江大学夺得RoboCup世界机器人足球赛冠军 [80][85][88]
都在说VLA,很多同学连demo都跑不好......
具身智能之心· 2025-12-03 10:00
文章核心观点 - 视觉语言动作模型领域面临从理论到实践的巨大挑战,特别是在真机数据采集、模型训练与部署等环节,存在显著的学习壁垒和落地困难 [2][6] - 行业技术发展迅速,开源框架和新算法不断涌现,但模型性能高度依赖硬件本体和数据质量,仿真与真实场景存在泛化差距 [2][4] - 为应对上述挑战,推出了一个全面的实战课程,旨在通过软硬结合的方式,系统化地培养VLA领域的实操人才 [14][16][19] 技术发展现状与挑战 - 算法层面近2年涌现大量新方法,如ACT、OpenVLA、π0、π0.5、π0.6系列,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,支持不同类型的研究需求,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台 [4] - 核心挑战在于数据、模型、训练、部署的全流程打通,初学者常陷入长期调试而难以入门,尤其π0、π0.5、GR00T等模型的数据采集和训练包含大量未公开技巧 [6] VLA模型落地关键模块 - **数据采集**:主要基于模仿学习(遥操作、VR、全身动捕捉)和强化学习,机械臂领域多采用前两种,如何保证数据质量及实现real2sim2real是关键问题 [7][8] - **模型训练**:真机部署前需进行仿真调试,Mujoco、Isaac Gym等框架在数据不足时尤为重要,训练技巧至关重要,不同算法难度差异大,ACT相对简单易出效果,而π0和π0.5则极难训练成功 [9][10] - **模型部署**:面临模型参数量大(即使2B规模)导致的边缘芯片部署挑战,必须进行轻量化操作如量化、蒸馏,以在保证性能的同时最小化参数量 [11][12] 课程解决方案与目标 - 课程定位为国内首个面向实战与求职的VLA小班课,内容覆盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流模型部署、VLA+世界模型、真机实验及产业讲解 [14][16] - 课程目标为使学员掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对产业落地有清晰认识,学完后达到1-2年算法工程师经验水平 [30] - 面向人群包括具身领域求职者、VLA入门进阶者、相关专业学生、以及希望从传统CV/机器人/自动驾驶转行的人员,建议具备Python和PyTorch基础,推理需3060及以上显卡,训练需2张以上3090ti显卡 [27]