SmolVLA - 财报，业绩电话会，研报，新闻

SmolVLA

搜索文档

具身智能之心· 2025-09-29 02:08

核心观点 - AnywhereVLA提出了一种模块化架构，旨在融合经典导航的鲁棒性与视觉语言动作模型的语义理解能力，以解决在未知大型室内环境中执行语言驱动拾取-放置任务的技术瓶颈 [3] - 该方案设计可在消费级硬件上实时运行，针对家庭服务、零售自动化、仓储物流等开放、非结构化场景 [3] 相关工作回顾：现有方案的优势与不足 - 通用视觉语言动作模型缺乏空间感知能力，难以应对大型环境 [4] - 视觉语言导航方案需预先知晓目标物体的环境位置，在动态或未探索场景中不实用 [4] - 经典导航框架缺乏语言理解与语义推理能力，无法执行语言驱动的目标导向任务 [4] - 轻量化视觉语言动作模型泛化能力仅局限于操作领域，缺乏环境探索能力 [5] - 结合视觉语言导航与SLAM的方案在185平方米环境中需10-15分钟完成探索，效率低下 [5] AnywhereVLA架构：四大核心模块与工作流 - 工作流逻辑为语言指令解析，同步指导视觉语言动作操作与主动探索，构建3D语义地图，通过前沿探索定位目标，由趋近模块导航至预抓取位姿，最后视觉语言动作执行操作 [7] - 带置信度的3D语义地图模块核心功能是融合多传感器数据，构建含目标类别、几何信息与置信度的语义点云地图 [7] - 主动环境探索模块基于“前沿探索”策略，结合语言指令中的目标类别定位目标物体 [11] - 趋近模块核心是计算机械臂可操作的安全基座位姿，确保后续视觉语言动作操作能稳定执行 [12] - 视觉语言动作操作模块基于微调后的SmolVLA模型，将视觉上下文与语言子目标转化为机械臂的抓取/放置动作 [12] VLA模型微调与硬件平台 - 模型微调使用NVIDIA RTX 4090，数据集为50个SO-101机械臂的拾取-放置片段 [15] - 训练参数包括批量大小16，余弦衰减学习率调度器，AdamW优化器 [15] - HermesBot移动操作平台专为AnywhereVLA设计，平衡传感与计算能力 [16] - 计算硬件分配中，SLAM模块处理频率10赫兹，处理时间25毫秒；语义地图模块处理频率2赫兹，处理时间45毫秒；视觉语言动作模块处理频率5赫兹，处理时间20毫秒 [16] 实验结果：性能与有效性验证 - 在未知多房间实验室中执行50次拾取-放置任务，整体成功率为46% [17][22] - 微调后的SmolVLA操作模块成功率达85%，未微调时整体成功率仅10% [22] - 各模块单独成功率分别为：SLAM 100%，主动环境探索 75%，目标检测 90%，导航 80%，视觉语言动作操作 85% [22] - 探索半径为5米时，平均任务完成时间小于133秒；探索半径为10米时，完成时间小于10分钟 [23]

VLA-Adapter：以0.5B参数实现机器人智能新高度，还无需预训练

具身智能之心· 2025-09-17 03:14

文章核心观点 - VLA-Adapter模型在机器人视觉-语言-行动领域实现突破，以仅0.5亿参数的轻量化设计，在性能上媲美甚至超越70亿参数的顶尖模型，同时大幅降低训练和部署成本 [4][11] - 该模型的核心创新在于提出了一种全新的桥接范式，通过高效的桥接注意力机制，解决了传统VLA模型对大规模预训练模型和高计算成本的依赖问题 [11][12] - 在多个基准测试中，VLA-Adapter展现出卓越的性能和强大的泛化能力，为机器人技术的实际应用和普及降低了门槛 [19][21][28] 技术方案与创新 - VLA-Adapter采用基于Qwen2.5-0.5B训练的Prismatic VLM作为骨干网络，参数仅0.5亿，无需机器人数据预训练 [11] - 其创新的桥接注意力机制包含两次交叉注意力和一次自注意力，通过可学习参数动态调节特征注入比例，确保训练稳定性和性能优化 [12][14] - 模型设计关键发现包括：使用VLM的中层特征更优、动作查询的深层特征更具优势、全层特征具有更好普适性，从而避免了选择最优特征层的繁琐过程 [18] 性能与效率优势 - 训练成本极低，仅需8 GPU·小时，是OpenVLA-OFT模型（304 GPU·小时）的1/38，可在单张消费级GPU上完成 [3][11][15] - 训练VRAM占用大幅降低至24.7GB，仅为对比模型的0.4倍；推理吞吐量高达219.2Hz，延迟仅0.0365秒，是对比模型的3倍 [3][15] - 在LIBERO基准测试中平均成功率达到97.3%，超越70亿参数的OpenVLA-OFT（97.1%）；在CALVIN ABC→D零样本泛化任务中平均任务完成长度达4.42，表现最佳 [3][19][21][22] 实际应用潜力 - 模型的高推理速度和低延迟使其特别适合需要实时响应的场景，如自动驾驶、物流机器人和交互式服务机器人 [28] - 轻量化设计降低了硬件需求，使中小型研究机构和企业能够更轻松地开发和部署VLA模型，推动了机器人技术的普及 [11][28] - 研究团队提供了开源项目页面，方便开发者获取模型详情和代码，促进了技术的共享与创新 [28]

GPT重大更新，Hugging Face发布开源机器人AI模型

每日经济新闻· 2025-06-05 00:57

市场表现 - 科创人工智能ETF华夏（589010）上涨0.2%，持仓股中奥普特领涨4.65%，有方科技上涨2.96%，金山办公上涨2.72% [1] - 机器人ETF（562500）上涨0.6%，持仓股中亿嘉和领涨5.65%，奥普特上涨4.65%，绿的谐波上涨4.61% [1] - 当日机器人ETF交易金额达4.41亿元，居同类ETF首位，换手率3.43%，市场成交活跃 [1] OpenAI动态 - OpenAI推出ChatGPT重大更新，包括macOS会议记录模式和MCP协议支持，实现跨平台数据整合与协作功能 [2] - OpenAI付费企业用户突破300万，较2月份200万增长50%，涵盖企业版、团队版和教育版客户 [2] - OpenAI预计2025年营收127亿美元，较去年9月预测的37亿美元大幅上调243% [2] 行业技术进展 - Hugging Face发布开源机器人AI模型SmolVLA，参数规模4.5亿，可在消费级GPU运行，异步推理堆栈提升环境响应速度 [3] 机构观点 - 广发证券指出AI板块调整3个月后具备反攻条件：TMT成交额占比回落至2023年区间下沿，融资余额处于年内底部 [4] - 6月密集的大厂发布会成色可能成为行情关键催化剂 [4] ETF产品特征 - 机器人ETF（562500）规模破百亿，覆盖中国机器人产业链最全，流动性最佳 [5] - 科创人工智能ETF华夏（589010）聚焦AI产业，具备20%涨跌幅和中小盘弹性特征 [5]