Workflow
端到端VLA
icon
搜索文档
智平方创始人郭彦东:没有技术自信,中国机器人就没有创新突破
晚点LatePost· 2025-09-28 15:25
公司创始人背景 - 创始人郭彦东拥有卓越的学术和技术背景 高考数学满分 普渡大学人工智能博士 师从严格院士导师 在低照度成像等领域有深入研究[7][8] - 职业履历包括微软美国研究院 与5名图灵奖得主共事 培养技术自信和平视大佬的习惯 后加入小鹏汽车和OPPO 学习软硬结合与经营理念[11][12][19][25] - 2023年创立智平方 选择VLA路线做机器人 坚持端到端技术路径 认定其为机器人智能化的终极方案[3] 技术路线与研发进展 - 公司采用VLA视觉语言动作模型路线 全球仅谷歌 特斯拉和智平方早期选择此路径 目前模型性能在benchmark测试中比美国公司Physical Intelligence的PI-0强30%[3][42] - 重点投入GPU算力和端到端模型训练 实现大规模增量训练技术 2019年已有相关论文 强调训练速度需小于社会必要劳动时间以实现盈利[39][40][41] - 2025年推出第二代轮式底盘机器人爱宝 上身人形下身四轮 稳定性高且移动效率优于双足 计划2028年实现数万台年出货量[4][46][51] 商业化与客户落地 - 公司已通过模型服务实现数千万收入 融资七轮 资金足够支撑10年运营 经营风格务实 不过度承诺[3][4][37] - 机器人已获得汽车 半导体 生物制造等高端制造业商业订单 总量超千台 客户包括奔驰 吉利 东风柳汽等 并进入奔驰全球供应商名录[4][28] - 落地场景聚焦柔性工作 如工厂投料 插拔操作 虹桥机场行李车收纳等 机器人学习新任务仅需几小时到几天 当前未见过任务操作成功率达70%[30][31][46][51] 行业观点与战略定位 - 中国机器人公司超400家 行业热度超8年前电动车 但融资环境与美国不同 OpenAI估值3000亿美元 中国大模型公司估值300亿 无法支持掀桌子式创业[4][36][47] - 坚持轮式底盘而非双足人形 因移动效率高 稳定性好 适合快速落地 双足适合已上市企业布局 主商业模式为上半身服务解放双手[33][34] - 计划通过3+3+3节奏发展 前三年技术研发 中间三年体系搭建 后三年生态建设 目标将机器人价格降至10万元左右 避免专机化如扫地机[39][55] 数据策略与开源计划 - 提出正反金字塔数据观 冷启动阶段用互联网和仿真数据 大规模部署后依赖真实场景数据闭环 实现越用越聪明[49] - 2024年6月开源具身大模型GOVLA的FiS-VLA版本 为全球首个异构输入加异步频率VLA模型 与Physical Intelligence同为全球唯二开源机器人模型的创业公司[42] - 认为L4级智能需数据量增长100倍 预计还需5-10年 当前通过真实场景部署积累数据 计划用1万至10万台机器人采集实现数据规模[49][51]
自驾方向适合去工作、读博还是转行?
自动驾驶之心· 2025-09-22 10:30
自动驾驶现在适合去工作还是转行 or 读博? 刚刚和吉大一位研二的星友交流,咨询我们:传统规控想转端到端VLA,有些纠结现在是申博(也考虑转 具身),还是说毕业继续从事自动驾驶? 先不持立场,因为这个话题总是有不同的答案,不过我倒是很对里面涉及到的2个问题很感兴趣。 第一,你的实验室或者自己有没有自动驾驶的积累,算力/算法/硬件?或者放宽一些和机器人相关的基础。 很多高校的老师可能没有很深的背景,为了生存,半路出来做自驾,为了一些本子扩展实验室的方向,但 老师自己是没有能力培养学生的。这就导致:老师不知道要怎么做,但老师必须要做。自己懵懵懂懂开始 调研,但往往一头雾水,终于最后交差了,觉得自己懂行了,实则不是。而真的在实战中打磨过的同学才 知道,数据、模型、优化、后处理缺一不可,自驾和具身都是如此。前者,甚至都没有相关的硬件,尤其 是具身,还停留在仿真环境或者开源数据集上优化,其实和工业界的需求相差甚远。可想而知,如果去公 司任职,真的合格吗? 第二,读博这个问题。这位同学本身是985的研究生,未来你读博大概率去TOP4,甚至出国。你未来研究 的方向大概率是最前沿的课题,整个世界可能就一小撮人在做,甚至无人尝 ...
机器人跨越“三重门”——具身智能创新者亲历的现实与趋势丨议事厅
新华网· 2025-09-15 03:44
行业现状与趋势 - 人形机器人赛道呈现"冰与火之歌"态势 一边是机器人进厂打工、酒店送餐、赛场踢球等火热应用场景 一边是融资超百亿但订单不过百台的商业落地困境 [1] - 投资机构从观望转向竞逐 行业格局从"人形机器人第一股"一枝独秀发展到超20家产业链企业走向IPO [1] - 具身智能面临技术路径与商业落地的十字路口 未来3年能否击穿场景将成为企业生存的关键分水岭 [1][15] 技术突破与路径 - 银河通用通过10亿级合成大数据训练端到端VLA大模型 实现机器人自主执行能力 其机器人Galbot已实现无需遥控自主干活 [5][10] - 数据质量成为具身智能发展核心瓶颈 99%能力可通过高质量合成数据实现 仅需1%真实数据辅助 但高质量数据需具备多元性和泛化性特征 [12][13] - 自变量机器人开发通用具身大模型WALL-A 采用"一脑多用"端到端技术 实现零样本泛化能力 能处理拉链变形等动态异常情况 [20][26][27] - 加速进化通过足球赛事训练机器人全自主运动能力 其"感知-决策-控制"智能系统可在0.1秒内完成判断 支撑奔跑、急停、射门等复杂动作 [39] 商业化应用进展 - 银河通用已在工业场景实现流水线搬运、分拣等环节规模化应用 在零售场景落地10多家智慧药房 并计划年内扩展至100家 [8] - 全球首个城市级人形机器人示范区落地北京 银河通用推出由机器人经营的"银河太空舱"无人超市 标志具身智能进入日常生活 [5] - 加速进化通过机器人足球赛事获得商业突破 帮助中国队首夺RoboCup成人组冠军 打破欧美国家28年垄断 [36] 技术路线分歧 - 行业分化出"运动展示派"与"实干派"两大方向 宇树科技代表运动能力展示路线 银河通用代表实际场景干活路线 [8] - 端到端模型与分层模型存在技术路线竞争 端到端模型可实现实时感知决策闭环 而分层模型存在误差累积和延迟问题 [25][26] - 自动驾驶模型无法直接迁移至机器人领域 因机器人核心难点在于复杂操作而非导航运动 [32] 成本与规模化挑战 - 人形机器人单台成本超10万元 加上维修成本更高 而工人年薪仅5-8万元 成本效益比尚未达到商业规模化要求 [42] - 头部厂商量产规模仅千台级别 未达万台规模 制约数据采集和模型迭代速度 [12] - 工业场景存在技术匹配度问题 现有专机设备已实现高度自动化 人形机器人入厂可能造成"瑞士军刀切菜"的错配现象 [43] 未来发展路径 - 未来1年实现千台到万台批量交付将成为行业价值验证关键节点 [15] - 操作系统生态构建被视为核心护城河 通过开发者生态推动软硬件快速迭代 [40] - 家庭场景被定位为终极目标 因其数据是"活"的 而工业场景数据相对固定且迁移价值有限 [43]
师兄自己发了篇端到端VLA,申博去TOP2了。。。
自动驾驶之心· 2025-08-21 11:24
文章核心观点 - 该公众号文章推广第二期VLA论文指导班 旨在通过系统化培训帮助学员在视觉-语言-行动模型领域发表高水平论文 课程提供从理论到实践的全流程支持 包括论文选题 代码实现 实验设计和写作投稿 [2][4][36] - 课程针对自动驾驶感知方向的研究生和学者 特别是资源有限但希望发表顶会论文的群体 通过提供idea 数据集和baseline代码降低研究门槛 [2][4][16] - 采用"2+1"多师制教学团队 包括主导师和科研班主任 提供14周结构化课程和后续论文维护支持 确保学员产出论文初稿 [15][23][25] 课程结构与内容 - 课程为期14周 每周1-1.5小时直播课 涵盖传统端到端自动驾驶 VLA端到端自动驾驶 模块化模型 统一模型和推理增强模型等核心主题 [10][12][32] - 具体课程安排包括:先导课和课题概览(Week1-2) 选题讨论(Week3) 传统端到端自动驾驶介绍(Week4-5) VLA端到端自动驾驶介绍(Week6-7) 模块化VLA模型(Week8-9) 统一端到端模型(Week10-11) 推理增强模型(Week12) 论文写作和投稿指导(Week13-14) [10][12][32] - 提供公开数据集如nuScenes Waymo和Argoverse 以及多个开源baseline代码库包括VAD UniAD DiffusionDrive OccNet OpenDriveVLA SimLingo和Senna [27][28][29] 招生与要求 - 每期限招6人 最多8人 目标学员包括VLA与自动驾驶方向的本硕博学生 申硕申博申请者 以及自动驾驶与AI领域从业者 [13][16] - 学员需具备深度学习基础 熟悉Python和PyTorch 最好有8张4090显卡或以上算力设备 最低要求4张4090 也可租赁云服务器 [17][19][22] - 要求每周课前阅读资料并完成作业 全勤参与讨论 晚交作业或请假需提前1日通知 并保持学术诚信 [20][24] 课程产出与价值 - 学员将获得经典和前沿论文分析方法 理解算法原理和优劣势 激发研究idea思考 即使没有自选idea 导师会为每位学员提供一个研究idea [21][36] - 提升编码能力 在提供的baseline代码和数据集上高效开展实验 掌握论文写作 自查 修改的方法论和投稿建议 [21][36] - 最终产出包括论文初稿 项目结业证书 以及根据优秀程度提供的推荐信 [25][35] 教学支持与资源 - 采用"2+1"师资团队:主导师由名校教授 研究员或行业导师担任 科研班主任全程跟踪进度 解决非学术问题 [23][25][33] - 提供全学习周期服务 包括前期基础测试和学术准备 中期个性化教学和评估跟踪 后期知识复习和报告指导 [25] - 课程有效期3.5-4个月 答疑周期6个月 通过腾讯会议直播和小鹅通回放授课 [33][35]