实时运行VLA模型
搜索文档
单张4090跑到30fps,范浩强团队让VLA实时跑起来了
具身智能之心· 2025-11-01 16:03
文章核心观点 - 研究团队通过深度优化,成功将30亿参数的VLA大模型Pi0在单张RTX 4090显卡上的推理速度提升至30fps,远快于行业普遍认知的百毫秒级别延迟 [1] - 优化后的代码已开源,并基于此成果设计出有潜力实现480Hz闭环控制的下一代机器人实时控制算法框架 [2] - 该技术突破解决了机器人VLA大模型因高延迟而难以实现实时控制的核心痛点,为具身智能的实时应用打开了新的大门 [5][16] 技术性能突破 - 针对Pi0模型(30亿参数),在单张消费级显卡RTX 4090上最快可达到30fps的推理速度 [1] - 针对双视角输入,模型推理时间从初始的100+毫秒被优化至27毫秒,实现了数倍的性能提升 [1] - 优化后的模型在抓取自由落体笔的任务中,端到端总反应时间被缩短到200毫秒以内,媲美人类表现 [11] 技术实现方法 - 通过深入分析Pi0模型结构,将其分解为视觉编码器、编码器和解码器,并进一步拆解为矩阵乘法和标量运算 [8] - 针对Transformer模型单次推理时产生的大量零碎“矩阵计算小任务”,研究者融合和并行优化了每一个计算步骤 [9] - 优化代码全部实现均打包为一个只依赖于torch和triton的单一文件,已在GitHub开源 [2] 未来框架与展望 - 设计了一套完整的、围绕GPU打造的机器人控制框架,能驱动VLA大模型进行流式实时控制 [13] - 该框架规划最高能以480Hz的频率生成机器人控制信号,已达到基于力反馈进行控制的门槛 [13] - 框架为机器人设计了三种不同速度的“反应神经”:超快反应(480Hz)、视觉反应(30Hz)和智能思考(<1Hz) [15] - 对未来发展提出关键问题,包括视觉处理帧率从30fps向120fps提升、模型参数从3B向更大规模扩展、以及反馈回路向亚毫秒级迈进的可能性 [19]