Workflow
强化学习
icon
搜索文档
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 00:03
文章核心观点 - 视觉-语言-动作模型是当前人工智能领域极具吸引力的前沿阵地,其目标是让机器人具备听懂人话、看懂世界、动手干活的能力 [7] - ICLR 2026会议上VLA模型相关投稿量从去年的个位数飙升至164篇,增长了18倍,显示出该领域的爆发式增长 [6] - 学术界对VLA尚无统一定义,但核心标准是模型必须使用经过大规模互联网级别视觉-语言数据预训练的骨干网络 [8][9] VLA概念定义与区分 - VLA模型强调基因,必须继承自强大的视觉语言模型,具备语言理解、视觉泛化和任务迁移能力 [9][12] - 大型行为模型强调养料,指在大规模多任务机器人演示数据上训练出的策略 [11][13] - 一个在大量机器人数据上微调的VLA同时也是一个LBM,但LBM不一定是VLA [13][14] - 简单拼接独立视觉编码器和文本编码器的模型应称为多模态策略,而非VLA [11] ICLR 2026 VLA八大技术趋势 - **高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中取得近乎饱和表现 [15][16][17] - **具身思维链**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在SIMPLER等评测中表现突出 [18][19][20][21] - **动作分词器**:将连续高频机器人动作转换为VLM能理解的离散词汇,包括FASTer Tokenizer和OmniSAT等新进展 [22][25][31] - **强化学习微调**:作为VLA策略的微调利器,代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率 [26][27][32] - **效率优化**:通过HyperVLA的超网络机制和AutoQVLA的智能量化等技术降低硬件门槛,使VLA走向平民化 [28][29][33] - **视频预测赋能**:利用视频生成模型理解时序动态和物理规律,为机器人控制提供强先验知识 [30][35][36] - **真实评测基准**:社区开发如RoboCasa365和WorldGym等新基准,致力于打破对现有测试集的过拟合 [37][40][47] - **跨体态学习**:通过X-VLA的软提示、XR-1的统一视觉-运动编码等技术让模型适应不同结构的机器人 [41][43][48] 行业现状与挑战 - 主流仿真评测存在性能天花板问题,开源模型仿真得分高但真实世界表现仍难匹敌前沿产品如Google的Pi-0.5 [44][45] - 头部公司凭借海量高质量真实数据、更看重开放环境和泛化能力的评测维度以及大规模工程支持占据优势 [49] - 数据质量中的噪声、歧义和次优行为可能限制模型上限,上下文学习机制向机器人领域的迁移或是通用VLA的突破口 [50] 作者背景与权威性 - 作者Moritz Reuss是德国卡尔斯鲁厄理工学院四年级博士生,2025年Apple AI/ML学者奖得主 [4][46][52] - 作为将扩散模型引入机器人策略研究的先行者,其研究成果多次发表于RSS、ICLR、NeurIPS等顶级会议 [4][52]
4倍速吊打Cursor新模型,英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦,实测被曝性能“滑铁卢”?
36氪· 2025-10-31 12:16
产品发布与核心特性 - Cognition公司推出全新高速AI编码模型SWE-1 5,该模型专为软件工程任务中的高性能与高速度而设计,现已在Windsurf代码编辑器中开放使用 [1] - SWE-1 5是一款拥有数千亿参数的前沿规模模型,旨在同时提供顶尖性能与一流速度,其最显著的特点是原始速度,处理速度最高可达950 token/秒 [2] - 在Scale AI的SWE-Bench Pro基准测试中,SWE-1 5取得了40 08%的成绩,接近当前最佳水平(near-SOTA)的编码性能 [4] - 该模型并非单一模型,而是模型本身、推理过程与智能体框架协同设计的统一系统,以此同时实现高速与智能 [10] 性能优势与技术合作 - 得益于与推理服务提供商Cerebras的合作,SWE-1 5的运行速度最高可达Anthropic旗下Sonnet 4 5模型的13倍,是Haiku 4 5模型的6倍 [1][2] - 与竞争对手Cursor推出的Composer模型(生成速度为250 token/秒)相比,SWE-1 5的最高速度950 token/秒是其接近4倍 [14] - 通过合作部署优化措施,包括训练优化的草稿模型以实现更快的投机解码,以及构建定制化请求优先级系统,使端到端智能体交互过程更流畅 [2] - 公司将此前需20秒的某类任务完成时间控制在5秒以内,认为5秒是避免陷入“半异步死亡谷”的关键阈值 [2] 基础设施与训练方法 - SWE-1 5的训练依托于由数千颗英伟达GB200 NVL72芯片组成的先进集群,声称可能是首个基于新一代GB200芯片训练的公开生产级模型 [8] - 与相同数量的英伟达H100 GPU相比,GB200 NVL72在LLM推理工作负载方面的性能最多可提升30倍,成本和能耗最多可降低25倍 [8] - 模型的训练是在公司定制的Cascade智能体框架上,通过端到端强化学习完成的,并借助了由上千颗GB200芯片组成的集群 [8][10] - 公司为训练手动创建了一个数据集,力求还原真实场景下任务与编程语言的广泛分布,并设计了包含三种评分机制的高保真度编码环境 [9] 产品集成与内部应用 - 公司于今年7月收购开发工具Windsurf,并通过将SWE-1 5直接集成到Windsurf IDE中,逐步实现新愿景 [1][10] - 当模型运行速度提升后,公司重写了代码检查、命令执行流水线等核心组件,每一步操作的开销最多降低了2秒,并计划持续优化 [4] - 公司团队的众多工程师已将SWE-1 5作为日常工作工具,应用场景包括深度探索与理解大型代码库、构建端到端的全栈应用程序等 [7] - 公司高度依赖内部真实场景的“内部测试使用”来指导调优决策,以此围绕用户体验对智能体与模型进行调优 [11] 行业竞争与战略定位 - SWE-1 5的发布与Cursor推出Composer模型表明,AI开发者工具市场出现明确的战略趋同,两家公司都在构建高度集成、低延迟的开发者体验 [13] - 两家公司都大规模采用强化学习技术,并认同需要结合自有定制工具与真实场景对模型进行微调,才能打造真正高效的编码智能体 [13] - 公司此举似乎在押注:即便没有推出市场上参数规模绝对最大的模型,这种高度集成的高速体验也能培养出一批忠实用户 [12] - 两家公司均对新模型的基础架构保密,仅提及基于“领先的开源基础模型”构建,这种保密性使得独立评估难以开展 [13]
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?
AI前线· 2025-10-31 05:42
SWE-1.5模型性能与特点 - Cognition推出全新高速AI编码模型SWE-1.5,专为软件工程任务的高性能与高速度设计,现已在Windsurf代码编辑器中开放使用[2] - 模型处理速度最高可达950 token/秒,是Anthropic旗下Haiku 4.5模型的6倍、Sonnet 4.5模型的13倍[3] - 该模型能够将此前需20秒的某类任务完成时间控制在5秒以内,帮助开发者保持“心流状态”[4] - 在Scale AI的SWE-Bench Pro基准测试中,SWE-1.5取得40.08%的成绩,仅次于Claude Sonnet 4.5的43.60%[6] - 模型经过专门设计,拥有数千亿参数,旨在同时提供顶尖性能与一流速度[3] 技术合作与优化 - 得益于与推理服务提供商Cerebras的合作,SWE-1.5实现了极佳的延迟表现[3] - 合作举措包括训练优化的草稿模型以实现更快的投机解码,以及构建定制化请求优先级系统[3] - 当模型速度提升后,公司重写了代码检查、命令执行流水线等核心组件,每一步操作开销最多降低2秒[6] - 公司计划在优化工作上持续投入,相关改进也将助力Windsurf中其他所有模型的性能提升[14] 训练基础设施与方法 - SWE-1.5的训练依托于由数千颗英伟达GB200 NVL72芯片组成的先进集群,可能是首个基于新一代GB200芯片训练的公开生产级模型[10] - 与相同数量的英伟达H100 GPU相比,GB200 NVL72在LLM推理工作负载方面性能最多可提升30倍,成本和能耗最多可降低25倍[10] - 模型的训练是在Cognition定制的Cascade智能体框架上,通过端到端强化学习完成的[10] - 公司手动创建数据集还原真实场景任务分布,并设计包含三种评分机制的高保真编码环境以提升模型编码能力[11] 产品集成与内部应用 - 通过将SWE-1.5直接集成到Windsurf IDE中,Cognition正逐步实现新愿景[13] - SWE-1.5并非单一模型,其模型本身、推理过程与智能体框架经过协同设计,共同构成一个统一系统[13] - 公司众多工程师已将SWE-1.5作为日常工作工具,应用场景包括深度探索大型代码库、构建端到端全栈应用程序等[9] - 处于测试阶段的Codemaps功能由SWE-1.5提供支持[9] 市场竞争与战略定位 - SWE-1.5发布之际,AI编码工具Cursor也推出专属高速模型Composer,两者战略趋同[17] - SWE-1.5处理速度最高950 token/秒,是Composer模型250 token/秒的接近4倍[18] - 两家公司都在大规模采用强化学习技术,并减少对第三方API的依赖[17] - Cognition押注高度集成的高速体验能培养忠实用户,即便没有推出参数规模最大的模型[15] 用户反馈与市场反应 - AI专家Simon Willison测试后表示模型感觉非常快,与Cerebras合作是明智举措[18] - 有用户反馈SWE-1.5在处理小型任务时表现不错,但在尝试完成某项任务时失败并搞砸了所有东西[19] - 另有用户指出SWE-1.5虽然速度快,但没能解决某个问题,而Cursor的Composer模型却一次性解决了该问题[18]
L4大方向有了:理想自动驾驶团队,在全球AI顶会上揭幕新范式
机器之心· 2025-10-31 04:11
AI范式转变与行业趋势 - AI发展进入下半场,从依赖人类生成数据转向体验式学习的范式转变[1] - 要实现超越人类智能,AI必须超越模仿人类,依赖可随智能体改进而扩展的新数据源[1] - 在自动驾驶领域,AI范式转变趋势已显现,理想汽车在ICCV 2025提出全球首个将世界模型与强化学习闭环落地于量产自动驾驶系统的完整架构[2][5] 理想汽车辅助驾驶技术演进 - 辅助驾驶技术从规则算法发展到以VLA为核心的可交互自动驾驶方案[7] - 去年率先提出双系统方案,使用E2E和VLM结合构建辅助驾驶系统,成为AI时代主流路线[7] - 端到端辅助驾驶上线后,MPI水平在近12个月内提升明显[9] - 当训练数据扩展到1000万Clips后,基本端到端方式面临边际效应,技术提升出现瓶颈[11] 世界模型与训练闭环架构 - 构建从数据闭环到训练闭环的系统化思路,核心在于训练目标的达成而非单纯收集数据[5][12] - 系统包含具备先验知识的VLA车端模型和云端世界模型训练环境,通过强化学习体系实现迭代训练[14] - 世界模型系统需要场景重建、多传感器渲染、多模态生成、交通智能体、3D资产库等关键技术支撑[15] - 理想探索重建+生成路线,新一代AI系统具备重建稳定性和生成泛化能力[15] 合成数据与仿真技术突破 - 可通过提示词直接生成全部视频和点云,应用于新法规准入条件和新地区环境等少见场景[22] - 合成数据能力使训练数据配比更合理,辅助驾驶系统在实际道路的稳定性和泛化能力大幅改善[24] - 提出层次结构统一高斯图元,增强模型容量,能够建模大规模场景并重建任意动态元素[17][21] - 开发可编辑视频模拟框架RoboPearls,能够从演示视频构建照片般逼真、视图一致的模拟[32] 研究成果与学术贡献 - 自2021年起,自动驾驶团队有32篇论文中稿学术会议,研究方向从感知BEV E2E扩展到VLM/VLA/世界模型等前沿领域[28] - ICCV 2025大会上有五篇论文入选,覆盖3D数据集、端到端自动驾驶框架、3D重建、视频模拟等方面[28] - 提出业界首个大规模3D真实汽车数据集3DRealCar,通过对2500辆汽车精细3D扫描获得高保真图像和点云[28] - 开发端到端自动驾驶框架World4Drive,利用视觉基础模型构建潜在世界模型生成和评估多模态规划轨迹[30] 技术挑战与未来方向 - 强化学习引擎是辅助驾驶领域最具挑战的应用场景,要求泛化性、时效性和大规模并发[35] - 强化学习引擎五大关键因素:世界模型、3D资产、仿真智能体、奖励模型和性能优化[35][38] - 交互式智能体是比单车L4更困难的挑战,可通过调整强化学习reward约束多智能体行为[38] - 理想正在开展的交互智能体工作MAD即将发表[39] 公司AI战略与行业影响 - 研发资金近一半投入人工智能领域,已建立四支AI团队分别负责辅助驾驶、理想同学、智能工业和智能商业[43] - 两大战略级AI产品辅助驾驶和理想同学自2024年以来快速迭代,取得重大技术突破[43] - 成为行业首个推送VLA司机大模型的汽车企业,基于MindGPT的理想同学已上线手机App[43] - 开源部分辅助驾驶代码和数据库,被超过3200名开发者收藏或调用,VLA范式逐渐成为行业共识[43]
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
机器之心· 2025-10-31 04:11
研究团队与背景 - 论文第一作者为香港科技大学博士生何浩然,研究方向包括强化学习和基础模型,共同第一作者为该校一年级博士生叶语霄,通讯作者为香港科技大学助理教授潘玲 [2] 传统方法的局限性 - 在大语言模型数学推理任务中,主流强化学习方法如PPO、GRPO依赖策略梯度更新,面临训练不稳定、多样性丧失和调参复杂等问题 [2][11] - 传统方法需要维护独立的价值网络和基模型以计算KL散度,导致计算开销高昂 [9][16] - 基于奖励最大化的传统方法会使模型过度追求单次推理正确率,牺牲策略探索能力,导致pass@k性能饱和 [16] ROVER方法的核心创新 - ROVER方法通过对完全随机策略进行价值评估来找到最优推理路径,跳过了传统强化学习的策略迭代循环 [3][11] - 该方法证明在有限时域、树形状态空间和二元奖励的马尔可夫决策过程中,均匀随机策略的Q值可直接指向最优策略 [12][14] - 算法流程极简,仅包含Q值估计、策略构建和训练目标三个步骤,无需维护额外价值网络 [19][23] 性能提升表现 - 在AIME24任务上,ROVER在Qwen3-8B模型上的pass@1达到30.6,比最佳基线DAPO高出19.1分 [26] - 在HMMT25任务中,pass@1从基线最高7.1跃升至14.6,提升幅度达106% [26] - 在pass@256指标上,ROVER比传统方法提高16.8,展现持续探索能力 [9] 多样性优势 - ROVER训练的策略多样性比基线平均提升17.6%,在AIME24上发现更多独特解题路径 [29] - 在"2x3网格数字排列"问题中,基模型与GRPO仅发现2种策略,而ROVER发现4种不同解题策略 [31] - 多样性提升使ROVER在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳 [30] 方法论意义 - ROVER的提出是对方法论的反思,表明在某些结构化任务中,简化而非复杂化才是推进性能的关键 [38] - 该方法以"极简主义"实现高质量与高多样性兼备的推理生成,诠释了简化设计的重要性 [4][38]
具身智能之心交流群成立来!VLA/RL/导航/数采等多个方向
具身智能之心· 2025-10-30 10:00
文章核心观点 - 技术交流群成立旨在汇聚行业力量共同承担具身智能领域未来领导者的角色 [1] 技术交流群信息 - 交流群覆盖近20个具身智能子研究方向 [1] - 目标群体涉及人形机器人、四足机器人、机械臂等本体研发人员 [1] - 研究方向包括视觉语言导航、大模型、视觉语言交互、强化学习、移动操作、多模态感知、仿真及数据采集等 [1] - 邀请相关领域从业者加入群聊进行技术和行业交流 [1]
AI破晓前,最早动身的人
投资界· 2025-10-30 08:36
中国AI产业路径演变 - 中国经济结构处于"腾笼换鸟"阶段,科技驱动成为新主线,代表"新质生产力"的"三新"经济占比稳步提升[7] - 中国AI创业者依托活跃的开源生态、庞大多元的应用场景与完整供应链,凭借高性价比硬件和智能体能力竞争,呈现与美国闭源高成本模式"双轨并行"之势[7] - DeepSeek以"高性能、全开源"路径出圈,证明中国AI可在全球范围做Tier 1竞争者,改变战局走向[8] 蓝驰AI投资五大趋势 - 国内以开源为主的大语言模型开发策略形成"飞轮效应",通过开源模式降低单位成本,提高采用率,加速模型迭代[9][10] - 强化学习日臻重要,拓展大语言模型的智能范围和密度,实现从"图书馆学习"到"实践中学习"的转变[10] - Agentic System具备自主性并释放基础模型潜力,帮助利用基础模型力量交付结果而不只是答案[10] - AI Coding能力外溢成为推动个性化应用爆发式增长的重要因素[10] - 多模态技术推动各类人工智能应用蓬勃发展[10] 蓝驰AI投资版图布局 - 投资版图覆盖模型及应用层、具身智能、AI硬件、底层基础设施,包括月之暗面、智元机器人、VITURE、PPIO等头部项目[5][14] - 2023年参与月之暗面A1轮融资,关键决策依据是创始人杨植麟的人才密度,其新模型"Kimi K2"被Nature评价为"另一个DeepSeek时刻"[13] - 2024年1月出手GenSpark天使轮,其24人团队发布新功能Super Agent后45天内创下3600万美元ARR[13] - 重注具身智能赛道,2023年投资银河通用机器人和智元机器人,2024年联合领投它石智航1.2亿美元天使轮创行业纪录[15] 科技投资策略与生态建设 - 投资策略基于对"什么在驱动人工智能底层变革"的整体思考,真正机会在于比别人更早看清结构性变化[17] - 坚持"押头部、投最前沿"策略,在月之暗面A1轮第一个给出TS,在银河通用、智元机器人等项目早期投资多轮加注[17] - 推出创业者生态品牌"不鸣Booming",打造创业DAO生态,其中不鸣创业营录取率仅9%[18] - 顶尖华人技术人才回流趋势明显,新一代创业者年轻、高学历、成就卓越且具有全球化视野[15]
老黄亲自站台,英伟达编程神器,Cursor 2.0自研模型狂飙4倍
36氪· 2025-10-30 07:33
核心产品升级:Cursor 2.0与自研模型Composer - Cursor发布2.0版本,核心是推出首款自研编码模型Composer,改变了长期依赖外部模型的局面[1][6] - Composer模型的速度是同等模型的4倍,专为低延迟智能编码打造,大部分任务可在30秒内完成,速度达到200 Tokens/秒[1][2] - 模型采用专家混合架构,并通过强化学习对软件工程进行专项优化,能自发习得执行复杂搜索、修复错误等能力[9][13] 功能与交互改进 - 重构了IDE交互逻辑,引入多智能体模式,可最多并行运行8个智能体,使用git worktrees或远程机器防止文件冲突[2] - 引入全新的代码审查功能,便于查看Agent在所有文件中的更改,无需来回切换文件[3] - 新增语音模式,支持动嘴编程,并改进上下文收集,Agent可自我收集上下文,无需手动附加[5] 技术架构与基础设施 - 公司基于PyTorch和Ray构建了定制化训练基础设施,以支持大规模环境下的异步强化学习[14] - 通过结合MXFP8 MoE kernels与专家并行等技术,能够在数千张NVIDIA GPU上以极低通信开销扩展训练,并实现更快推理速度[15] 市场定位与早期反馈 - 公司估值为百亿美金,此前受困于依赖Claude等外部模型及其收费模式,导致营收贡献给模型厂商,利润空间受限[6] - 英伟达在GTC 2025大会上提及公司产品,称其软件工程师都在使用Cursor,将其视为提升生产力的编程搭档[6] - 早期测试开发者反馈产品速度很快,但智能程度有观点认为不如Sonnet 4.5和GPT-5,多智能体模式适合宽屏使用[16][26][30][33] 行业竞争格局 - AI编程领域竞争激烈,存在Claude Code、Codex等众多工具[34] - 公司主要优势是较早占领了AI编程工具的市场心智,通过魔改VSCode和套壳API达到百亿美金估值[34]
速递|ARR破5亿美元速度超Cursor,AI专家平台Mercor估值冲上100亿美元,融资3.5亿美元
Z Potentials· 2025-10-29 05:16
融资与估值 - 公司完成3.5亿美元C轮融资,估值达到100亿美元 [1] - 本轮融资由Felicis Ventures领投,既有投资者Benchmark、General Catalyst以及新投资者Robinhood Ventures参与 [1] - 当前估值较B轮融资时的20亿美元估值大幅提升,B轮融资额为1亿美元 [1] - 公司最初融资目标为80亿美元估值,最终以100亿美元估值完成融资 [1] 业务模式与转型 - 公司最初为AI驱动的招聘平台,现已转型为连接AI实验室与领域专家以培训其基础AI模型的平台 [1] - 业务模式是向企业提供科学家、医生和律师等领域专家进行AI模型培训,并按照每小时工作收取人才推荐费与匹配服务费 [1] - 公司持续强化其强化学习软件基础设施,这是一种通过验证或质疑模型决策来实现反馈迭代的训练方法 [1] - 最终计划是打造一个AI驱动的招聘市场平台 [1] 市场机遇与增长 - 业务转机出现在OpenAI和Google DeepMind等领先AI实验室据称与数据标注初创公司Scale AI切断合作之后 [2] - 公司向投资者透露,其年经常性收入突破5亿美元的速度将快于Cursor背后的Anysphere [2] - 公司目前每天向承包商支付超过150万美元,其人才库拥有3万多名专家,平均每小时收入超过85美元 [4] 发展战略与重点 - 公司将重点聚焦三个领域:拓展人才网络、优化承包商与客户的匹配系统,以及开发新产品以实现更多流程自动化 [4] - AI技术虽快速发展,但仍难以把握经济价值工作的精妙之处,如权衡利弊、理解意图和培养品位等 [2]
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
量子位· 2025-10-29 05:11
核心观点 - 北京大学及BeingBeyond团队提出DemoGrasp框架,通过将多步马尔可夫决策过程重构为基于轨迹编辑的“单步MDP”,解决了灵巧手通用抓取中传统强化学习面临的探索效率低、奖励函数设计复杂等挑战 [1][2][4] 技术原理与核心创新 - 核心创新在于用单条成功演示轨迹替代从零开始的探索,将高维抓取任务转化为演示编辑任务,再通过单步强化学习优化编辑参数 [4][6][7] - 方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑以适应不同物体与姿态,包括改变腕部位姿以确定抓取位置,调整手指关节角度以确定抓取方式 [4][9][16] - 在紧凑动作空间的单步MDP问题上,使用单张RTX 4090显卡训练24小时即可收敛到成功率大于90% [12] 仿真训练与性能表现 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,策略网络根据初始观测输出手腕和手指编辑参数,通过海量试错学会根据不同形状物体输出合适参数 [10][11] - 在权威数据集DexGraspNet(3.4K物体)上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1% [17] - 性能显著优于现有方法:在基于状态的设定下,DemoGrasp在训练集、测试集(可见类别)和测试集(未见类别)的成功率分别为95.2%、95.5%和94.4%;在基于视觉的设定下,成功率分别为92.2%、92.3%和90.1% [18] 跨本体扩展与泛化能力 - 无需调整任何训练超参数,成功适配6种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率 [19][20] - 具备强大的空间泛化能力,可适应大范围的物体初始位置随机化(50cm×50cm) [17] 虚实迁移与真机应用 - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移 [13][14] - 在真实机器人测试中,使用Franka机械臂和因时灵巧手,成功抓取了110个未见过的物体 [21] - 对于常规大小的物体,抓取成功率均达到90%以上;对于扁平物体和小物体等困难抓取任务,成功率达到70% [22][24] - 支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,真机单次抓取成功率达到84% [24] 技术实现细节 - 采用流匹配生成模型的方法学习从图像观测和机器人本体感知预测动作,训练时使用预训练的ViT提取图像特征并进行充分的域随机化以缩小仿真到真机的视觉差异 [23] - 适配单目/双目、RGB/深度相机等多种相机观测,实验表明双目RGB相机组合效果最佳,能更好地抓取小而薄的物体 [23]