ViLLA架构
搜索文档
离开深圳:国产机器人的“精度”在长三角
36氪· 2025-12-02 07:50
文章核心观点 - 中国机器人行业正从珠三角主导的“速度战”(快速制造与集成)转向长三角主导的“精度战”(提升执行与控制精度),后者决定了行业的技术天花板和商业化尊严 [1][12] - 精度是机器人实现高附加值工业应用(如汽车制造、精密装配)的关键,精度不足(如厘米级)将使其局限于低端展示性任务,而达到0.1毫米级精度才能进入高端制造产线 [10] - 提升精度是一场无法弯道超车的硬仗,依赖于材料学、动力学、精密加工等基础工业的长期积累,而非仅靠算法或融资 [11] 长三角在机器人精度战中的角色分工 - **上海:控制系统的“小脑”与残酷试炼场**:上海是动作控制技术的高地,推动控制体系从“规则式”向“学习式”进化,并拥有中国最残酷的汽车产业链试炼场(如上汽、特斯拉),机器人需在复杂严苛的工业环境中稳定工作才算合格 [2][5] - **苏州与昆山:硬件精度的“肌肉与关节”**:该区域是硬件精度的军火库,专注于解决伺服电机、减速器等核心部件的精度与耐用性问题,例如将加工精度死磕到±1微米,并应对长期使用带来的磨损挑战 [6][8] - **杭州:轻量化与AI视觉**:杭州通过新材料(如碳纤维)为机器人“减肥”以降低惯性、提升控制精度,同时结合AI视觉技术(如海康、大华、阿里、网易的积累),使机器人具备更好的环境感知与避障能力 [8][9] 关键技术与模式创新 - **智元机器人的“直觉式”控制架构**:公司采用ViLLA架构,将视觉感知直接映射为动作指令,减少“看-想-传-动”的中间延迟,并通过在数字世界中模拟训练数亿次来形成“肌肉记忆”,再迁移至实体机器人 [2][3][5] - **开源策略与价值重定义**:智元机器人将灵犀X1的图纸代码开源,表明其认为机器人本体的价值有限,而控制本体的“小脑”(软件与控制算法)才是核心壁垒 [5] - **软硬件协同以弥合仿真与现实鸿沟**:上海的控制技术、苏州的硬件精度与杭州的轻量化及AI视觉三者结合,共同致力于解决机器人从仿真环境到物理世界(Sim2Real)的性能落差问题 [9] 行业现状与挑战 - **当前机器人存在“高智商、低能儿”的割裂感**:尽管大模型等AI技术发展迅速,但机器人的身体执行能力(如运动控制)存在明显延迟(可达几百毫秒),导致动作拖沓、不稳,表现为末端执行器(如手部)的高频颤抖 [1][2] - **精度磨损是不可逆的硬件挑战**:伺服系统在微调时产生的高频振动、以及齿轮等部件在长期负重(如20公斤)工作后产生的微米级磨损,会直接导致精度下降,这类问题无法通过软件迭代完全解决 [6][8] - **行业正经历从演示视频到工业实用的转变**:行业初期存在重视频演示(如后空翻)的“军备竞赛”,但实际精细操作(如拿杯子、穿针)时的抖动问题暴露了技术短板,推动行业向解决实际工业精度需求迈进 [1] 未来展望与下一阶段 - **精度是机器人作为劳动力的尊严与价值标尺**:精度直接决定了机器人可从事工作的经济价值,从低附加值的展示服务迈向高附加值的精密制造 [10] - **长三角与珠三角构成完整的产业图谱**:珠三角凭借供应链优势赢得“速度战”,实现快速制造;长三角则通过精度攻坚,负责提升机器人的实际工作能力,两者互补 [12] - **行业下一阶段将聚焦“成本战”**:在初步解决身体(速度)和协调性(精度)问题后,如何将人形机器人的成本从几十万元级别大幅降低至更具商业普及性的水平(如“9.9万包邮”)将成为更残酷的竞争焦点 [12]
稚晖君和机器人,离不开自行车
36氪· 2025-03-12 10:15
核心观点 - 智元机器人最新产品灵犀X2展示了卓越的运动能力和交互技术,具备28个自由度设计、自主平衡控制及高精度动态平衡能力 [3][7][8][9] - 该机器人搭载多模态交互大模型"硅光动语",支持毫秒级反应速度,结合视觉理解和情感计算引擎,实现拟人化交互 [13][14][15][16] - 产品采用模块化关节设计(PowerFlow)和标准化接口,降低维护成本,核心关节模组迭代后提升灵巧手自由度并引入触觉感知技术 [11] - 公司定位灵犀X2为"吉祥三保"(保安/保姆/保洁)多功能机器人,瞄准康养、服务和家庭陪伴三大应用场景 [20] - 产品视频在B站发布后迅速获得超56万浏览量,创始人稚晖君的技术光环持续带来市场关注度 [21] 技术架构 - 采用纯串联构型设计,避免并联结构的机械干涉问题,降低系统复杂度 [8] - 自研"小脑控制器Xyber-Edge"和"智能电源管理系统Xyber-BMS",实现运控算法突破 [9] - 基于扩散模型的生成式动作引擎整合强化学习与模仿学习算法,快速掌握复杂运动技能 [11] - 模块化关节(PowerFlow)和标准化接口设计提升可维护性,零部件可像无人机那样组装 [11] 交互能力 - 多模态大模型"硅光动语"支持自然语言理解与毫秒级响应,结合动作模态实现精准互动 [14] - 具备视觉认知能力,可阅读药品说明书、辨别物体包装并提供常识建议 [15] - 采用柔性材料增强安全性,通过动态呼吸灯和特有肢体动作打破机器刻板印象 [15] - 预研自然语言指令驱动的技能编排技术,未来可适配不同机器人本体 [16] 应用场景 - 康养领域:作为陪伴机器人提供生活照料和情感支持 [20] - 服务领域:作为接待机器人提供信息咨询和引导服务 [20] - 家庭场景:作为儿童玩伴和教育伙伴,支持成长学习 [20] - 轻量化设计和二次开发接口支持用户自定义应用场景拓展 [20] 市场反响 - 产品视频在B站发布数小时内即获得超56万浏览量 [21] - 创始人稚晖君此前因自动驾驶自行车视频走红,技术IP持续产生影响力 [2][21] - 行业关注点集中在运动能力真实性,部分业内人士期待更多技术细节披露 [21]
智元启元大模型GO-1发布,具身智能再上新台阶
江海证券· 2025-03-12 06:42
报告行业投资评级 - 行业评级为增持(维持) [4] 报告的核心观点 - 2025年3月10日智元发布首款通用具身基座模型智元启元大模型GO - 1并提出ViLLA架构,推动具身智能迈向新台阶 [4] - GO - 1基于ViLLA架构构建,该架构由VLM和MoE组成,三者协同支持人类视频学习等,降低具身智能门槛并部署于多款机器人 [4][5][6] - 智元提出ViLLA创新架构以利用数据提升策略泛化能力,通过预测Latent Action Tokens弥合差距,在真实世界表现超越现有开源SOTA模型 [6] - GO - 1推出标志具身智能向通用化、开放化、智能化快速迈进,具有人类视频学习等四大特点,实现从单一任务到多种任务等转变 [7] - 具身智能发展火热催化不断,提示重点关注奥比中光、索辰科技、中科创达、天娱数科等 [8] 行业表现 - 近十二个月传媒行业相对收益1个月为2.14%、3个月为 - 0.77%、12个月为5.72%;绝对收益1个月为3.07%、3个月为 - 1.72%、12个月为16.55% [2] 相关研究报告 - 2025.03.07发布AI应用发展迅猛提示投资机会点评报告 [3] - 2025.02.13发布豆包大模型团队提出全新超稀疏架构推理成本大幅下降点评报告 [3] - 2025.02.10发布AI agent产业进展不断提示相关投资机会点评报告 [3] - 2025.02.07发布春节档票房新高《哪吒之魔童闹海》票房创影史记录点评报告 [3] - 2025.01.03发布12月游戏版号下发继续维持推荐点评报告 [3]