VLA
搜索文档
从机械臂到人形,跨构型VLA如何破局?
具身智能之心· 2025-10-09 00:04
VLA-Adapter技术突破 - 机械臂视觉语言到动作范式的深刻反思,直击VLA伪规模化问题,核心目标是直接从视觉语言模型特征映射到动作空间,减少对机器人预训练数据的依赖[3] - 研究发现参数增加和机器人数据引入并未提升模型性能,关键在于忽略了视觉语言如何迁移到动作的机制探究[3] - 提出全新映射方案,在0.5B参数级别下性能超越经过大量数据预训练的更大量级骨干模型,显著降低训练成本和入门门槛[3] TrajBooster技术创新 - 首个全身人形操作VLA方案,解决双足人形全身操作任务训练数据稀缺难题,跨本体构型高效利用数据[7] - 以轨迹为中心实现跨本体数据高效利用,仅需10分钟真机遥操数据微调即可实现VLA在双足人形机器人上的全身操作[7] - 是目前业内唯一全开源的涵盖人形数据采集、跨本体数据增强、VLA模型训练及硬件部署全流程的工作[13] 研究团队与项目影响力 - 研究团队OpenHelix Team累计Github star近2k,VLA-Adapter项目两周收获700+star,HuggingFace Trend唯一在榜机器人工作[13] - 团队长期致力于推动具身智能和VLA模型前沿研究,特别是在VLA基座构建,使其更好与物理世界交互[13] - TrajBooster项目基于原OpenWBC项目,是业内唯一全开源的全流程人形机器人VLA解决方案[13]
自动驾驶Ask Me Anything问答整理!VLA和WA的路线之争?
自动驾驶之心· 2025-10-08 23:33
自动驾驶技术发展现状与路径 - 特斯拉在自动驾驶体验和效果上被多位专家认为是行业领先者 [9][14] - L4级别自动驾驶已由Waymo和萝卜快跑实现,但L5级别可能还需至少5年时间 [4] - 端到端模型已能解决约90%的驾驶问题,特斯拉将其做到极致,安全性基本得到保证 [5] 技术路线与核心模型 - 视觉语言动作模型被认为是自动驾驶的终局方案,因其能利用语言模态进行推理,处理需要认知推理的长尾问题 [5][6] - 世界模型是对物理空间和运行规律的更本质建模,但技术难度更大 [9] - 端到端模型存在多种架构:一段式端到端、一段式模块端到端以及OneModel端到端 [11][12] 关键技术与传感器 - 4D毫米波雷达被视为纯视觉系统的良好冗余,当系统复杂度达到几千几万MPI时冗余的重要性凸显 [5] - 激光雷达在成本下降后与纯视觉方案相比无明显劣势,提供精确距离感知冗余的融合方案可能是终极方向 [17] - 语言模态对于自动驾驶至关重要,缺乏语言推理能力将导致车辆无法理解世界而出错 [5] 人才与专业发展 - 人工智能是未来研究自动驾驶的首选专业方向,因自动驾驶问题可能在4年内基本解决,但AI方向长期正确 [4] - 对于职业发展,建议先进入大型智驾公司培养体系化工程思维,机器人领域在产品化和工程成熟度上仍处于探索阶段 [16] 市场与区域对比 - 中国智能驾驶发展态势远优于国外市场,目前除特斯拉外,没有国外智驾方案能在中国市场发布 [10] - 国内公司与特斯拉的差距主要体现在算法和软件工程的流程规范上,但从用户体验角度看差距不大 [14][15] 机器人及具身智能 - 在机器人领域,实用功能的发展速度和商业价值远高于身体协调性和美感 [7] - 大模型背景的研究人员转向具身智能领域相对容易,真正的竞争力在于模型规模、创新和真机跨本体泛化能力 [5]
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 02:49
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请,旨在通过多方协作推动行业进步 [1] - 合作旨在响应市场对公司在方案、数据采集、技术升级及企业培训等方面赋能的诉求 [1] 合作方向 - 技术方向涵盖VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态大模型、仿真、运动控制、端到端、3D感知等前沿领域 [3] - 合作岗位涉及具身课程开发、方案研发、硬件研发以及面向B端(企业、高校、研究院所)和C端(学生、求职人群)的培训合作 [4] 合作模式与资源 - 公司将提供高额酬金与丰富的行业资源作为合作回报 [2] - 具体合作领域包括技术服务、培训、课程开发与科研辅导等 [1]
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 04:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
最后1个名额,即将开课!VLA方向1v6论文辅导来啦~
具身智能之心· 2025-09-30 01:46
行业研究热点与方向 - 视觉-语言-行动模型及其相关衍生方向在机器人与人工智能顶会中占据了近一半的具身智能产出 [1] - 研究热点集中在长程操作、泛化、少样本学习、视觉-语言-行动模型与强化学习结合以及人形机器人相关领域 [1] - 视觉-语言-行动模型打破了传统方法的单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见过的环境 [4] 技术演进与应用前景 - 视觉-语言-行动模型的技术演进包括从早期的抓取位姿检测到行为克隆,再到近期的Diffusion Policy和多模态基础模型 [9] - 前沿模型如RT-2、OpenVLA和PI0实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] - 该模型广泛应用于制造业、物流和家庭服务等领域,并适用于机械臂、四足机器人和人形机器人等多种平台 [4] 产业发展与市场格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化 [6] - 科技巨头如华为、京东、腾讯以及国外的Tesla、Figure AI公司均在积极布局该领域 [6] - 视觉-语言-行动模型已成为智能机器人领域的关键驱动力,推动了学术界与工业界的合作 [4] 核心挑战与前沿方向 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [10] - 前沿发展方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [10] - 研究空白与机会存在于长期记忆、视觉-语言-行动模型与强化学习原子技能库构建、动作解码问题及多模态思维链等多个方向 [15]
地瓜精酿馆开张大吉:碰杯VLA观点,互诉机器人信仰|地瓜机器人x锦秋基金
锦秋集· 2025-09-29 13:14
活动概述 - 地瓜机器人联合锦秋基金等机构举办了一场以“机器人的新一代故事”为主题的行业交流活动[2] - 活动汇集了来自机器人公司、投资基金、科技大厂及云平台的产品、技术、算法、生态及投资领域的多位负责人[2] - 活动形式为轻松的交流讨论,旨在激发机器人开发者与创业者的灵感[3][16] 关于视觉语言动作模型发展的观点记录 - 行业对VLA的发展存在不同观点,主要分为中立派和乐观派[15] - 当前VLA发展面临数据基础缺失的挑战,与互联网或自动驾驶不同,具身交互数据的平台与规模尚未形成[18] - VLA训练存在物理约束缺位问题,多基于表象数据,缺乏动力学、碰撞、摩擦等硬约束,导致“看起来会、做起来不稳”[18] - 工程实现面临参数地狱,从过去手动调整动力模型参数转变为现在调整奖励参数,工程痛苦并未消失,且训练-验证迭代周期长、开销大[18] - VLA在短期内难以严肃落地,因其“大脑”输出缺乏时间与约束概念,必须由规划或控制层进行清洗与约束[18] - 在封闭、低速、可控场景下,建议采用以规则为基础的安全兜底方案,结合可学习算法进行优化,先实现商用交付,再逐步构建数据闭环与能力堆叠[18] - VLA的推进还需两大要素:底层模型研发人才,以及能够承接模型商业化的主体,需要同时补齐模型研发与商业规模化能力[18] - 发展路径建议两条腿走路:上层大模型负责理解与任务分解,底层强化学习或规划控制负责约束满足与实时稳定,两者协同进化[18] - 可通过自主数据生成与仿真增强来突破,即利用强化学习加物理仿真来制造数据、学习策略,提高泛化能力,类似“孩子学走路”的自我试错过程[18] - 需要端侧与“大脑”能力共同提升,视觉语言模型和VLA的精度上限尚未达到,决策与执行可通过强化学习训练得更鲁棒,再解决仿真到现实的迁移问题[18] - 长期看好学习型控制方法,虽然目前稚嫩,但相比传统“画匠”式控制,其具备“灵魂与泛化”的潜力,有望从“画匠”演进为“画家”[18]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 08:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
机器之心· 2025-09-29 02:52
行业核心观点 - 具身智能行业正处于技术路线分歧与探索阶段,面临数据稀缺、技术架构选择等关键议题 [1] - 行业已初步观察到具身智能的Scaling Law,预示扩大模型和数据规模可能有效 [24] - 阿里云作为云计算巨头,提前布局行业未来3到5年的基础设施需求,旨在为行业爆发做准备 [3] 数据路线之争:真机派 vs. 合成派 - 真机派主张通过遥操或互联网获取真实数据,基于VLA做模仿学习,认为真实数据是训练世界领先模型的根本 [5][14] - 合成派认为实现通用泛化能力需上万亿条数据,真机采集不可持续,主张通过仿真合成数据进行预训练,再用少量真实数据后训练 [5][8][9] - 真机派挑战“真机数据昂贵”共识,指出在国内供应链支持下,单个机器人成本可降至10万以下,规模化部署机器人采集数据成本可控 [12] - 合成派面临挑战:某些仿真数据获取依赖专业人力(如图形学博士),成本可能更高;仿真数据效率可能比真实数据差5-6个数量级 [11] 技术架构与模型形态 - 具身智能大模型被视为独立于语言模型的基础模型,因其需处理物理动作和接触的复杂性 [18] - 技术架构存在端到端与分层路线之争:分层架构考虑现实部署约束,符合生物进化规律;端到端架构旨在避免分层错误放大和层间理解鸿沟 [19] - 视觉语言动作模型(VLA)被视为当下更有潜力的路线,仅需100条数据即可见效,而世界模型需万级至亿级数据量,是更终局的路线 [21] - 世界模型被赋予重要作用,如辅助VLA进行自主学习探索、生成动作序列补充数据,与VLA是互补而非冲突关系 [20] 行业发展趋势与阿里云的角色 - 行业落地速度加快,多家公司分享了在工业制造、康复陪伴、教育竞赛等场景的实践 [24] - 阿里云基于智能驾驶行业经验,提前为具身智能行业的数据指数级增长和算力需求布局,提供全链路基础设施支持 [3][31][32] - 阿里云具备模型原厂优势,其开源模型Qwen-VL被大量具身智能公司用于后训练,最新Qwen3-VL模型针对具身智能需求优化 [37][38] - 阿里云将智能驾驶领域的工程经验复用至具身智能,提供从数据处理、模型服务到工具链集成的全套云上能力 [35][41][42] - 公司建议具身智能企业从第一天起规划云架构和AI基础设施,以应对量产阶段的数据激增和工程化挑战 [29][42]
没有导师指导,最快多久可以产出一篇具身领域相关论文?
具身智能之心· 2025-09-28 07:00
行业发展趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据了近一半的具身产出 [1] - 长程操作、泛化、少样本、VLA+RL、人形相关是当前热门研究方向 [1] - 国内外具身智能领域处于蓬勃发展阶段 Unitree、智元、星海图、银河通用、逐际动力等团队从实验室走向商业化 [6] - 华为、京东、腾讯等科技巨头积极布局具身智能领域 与国外Tesla、Figure AI等公司共同推动行业发展 [6] VLA技术特点与应用 - VLA模型通过语言指令和视觉信号直接生成机器人可执行动作 打破了传统单任务训练的局限性 [7] - VLA使得机器人能够在多样化场景中自主决策 灵活应对未见过的环境 [4] - 该技术广泛应用于制造业、物流和家庭服务等领域 [4] - VLA模型可应用于机械臂、四足机器人和人形机器人等多种平台 为各类智能机器人发展提供广泛潜力 [4] 前沿研究项目 - VLA领域已推动多个前沿项目发展 包括pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA [4][7] - 这些研究促进了学术界与工业界的合作 [4] - RT-2、OpenVLA和PI0等模型实现了从视觉输入和语言指令到机器人动作的端到端映射 [10] 技术演进路径 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆 再到近期Diffusion Policy和多模态基础模型 [10] - 研究关注如何将大型语言模型推理能力与机器人控制系统结合 实现从高级任务描述到低级运动规划的有效转换 [11] - PaLM-E、RT-X等模型通过多模态预训练和微调策略 增强机器人在开放环境中的适应性和鲁棒性 [11] 核心研究挑战 - 具身智能面临的核心挑战包括跨域泛化、长期规划与世界模型构建 [11] - 前沿研究方向包括多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力 [11] - 领域未解决难点包括长期记忆、VLA+RL原子技能库构建、动作解码问题、多模态思维链等多个前沿方向 [16]
VLA这个方向的论文产出,是真的多......
具身智能之心· 2025-09-26 00:04
行业技术趋势 - VLA及其相关衍生方向在机器人与AI顶会中占据近一半的具身产出,重点关注长程操作、泛化、少样本、VLA+RL和人形机器人等领域[1] - VLA技术打破传统单任务局限,使机器人能在多样化场景中自主决策并灵活应对未见环境,广泛应用于制造业、物流和家庭服务[3] - 该模型已成为研究热点,推动pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目发展,促进学术界与工业界合作[3] 产业动态与竞争格局 - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团队正从实验室走向商业化[5] - 华为、京东、腾讯等科技巨头积极布局,与国外Tesla、Figure AI等公司共同推动领域发展[5] - VLA技术具有高度适应性,可应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人发展提供广泛潜力[3] 技术演进与核心挑战 - VLA范式技术演进包括从早期抓取位姿检测到行为克隆,再到近期Diffusion Policy和多模态基础模型[8] - 前沿模型如RT-2、OpenVLA和PI0实现从视觉输入和语言指令到机器人动作的端到端映射,应用于复杂任务规划和执行[9] - 领域面临核心挑战包括跨域泛化、长期规划与世界模型构建,需将大型语言模型推理能力与机器人控制系统结合[9] 前沿研究方向 - 重点关注多模态感知融合、触觉反馈整合、基于物理的推理以及社会互动能力等发展方向[9] - 研究如何突破"看得见但摸不着"、"只关注当下不能预测未来"等局限性,向通用机器人智能迈进[9] - 系统分析具身智能领域未解决难点,包括长期记忆、VLA+RL原子技能库构建、动作解码问题和多模态思维链等前沿方向[14]