Workflow
视觉语言模型
icon
搜索文档
博世最新一篇长达41页的自动驾驶轨迹规划综述
自动驾驶之心· 2025-12-05 00:03
文章核心观点 - 博世发布了一篇关于基础模型在自动驾驶轨迹规划中应用的重量级综述,系统梳理了37种近期方法,提出了统一分类法,并批判性评估了其设计、优势与局限,旨在为该快速发展的领域建立结构化基础并指明未来方向 [2][11] 背景回顾 - 基础模型是利用海量数据学习表征并可适配多种下游任务的大规模模型,如大型语言模型和视觉语言模型 [4] - 研究表明,未经自动驾驶专门训练的现成基础模型已能令人惊讶地良好理解复杂驾驶场景,这使其成为构建自动驾驶专用方案的潜力基础,也是当前行业范式转变的关键驱动力 [5] - 轨迹规划是驾驶过程最核心的任务,其他能力均为其提供辅助,因此综述重点聚焦于基础模型如何助力轨迹规划模型 [8] 分层分类体系 - 利用基础模型的轨迹规划方法可分为两大主类别:为轨迹规划定制的基础模型、指导轨迹规划的基础模型 [16] - **为轨迹规划定制的基础模型**:通过微调现有预训练基础模型,直接用于自动驾驶场景,共22种方法,可进一步分为仅专注于轨迹规划的模型和具备额外能力的模型 [19][20] - **指导轨迹规划的基础模型**:不构建专用模型,而是将现成基础模型的知识转移到现有自动驾驶模型中,共15种方法,可根据知识转移发生在训练阶段或推理阶段进一步划分 [20][21][22] 为轨迹规划定制的基础模型 - **微调核心要素**:包括数据整理、模型设计和训练策略 [23] - **数据整理**:取决于模型用例,仅用于轨迹规划的数据集核心是“观测-轨迹”数据对;若需语言或动作交互能力,则需补充相应的问答对或指令-轨迹对数据 [24][28] - **模型设计**:主流思路包括直接使用现成视觉语言模型,或组合视觉编码器与大型语言模型并通过视觉适配器连接 [27][29] - **轨迹表征**:常见方式包括将轨迹作为文本生成、作为离散化的动作token、或作为数值集合通过附加的规划头单次生成 [31] - **模型训练**:通常通过单阶段或多阶段完成,例如先训练视觉适配器,再微调全部或部分参数 [29] - **仅专注于轨迹规划的模型**:根据是否使用思维链及使用方式,可细分为无思维链、文本输出作为思维链、初始轨迹预测作为思维链三类 [25][32] - **具备额外能力的模型**:除轨迹规划外,还具备语言交互和/或动作交互能力 [38] - **语言交互能力**:需要视觉问答数据对进行训练,评估采用自然语言处理领域的经典指标 [38][39][40] - **动作交互能力**:可根据用户指令规划轨迹,目前方法均在CARLA模拟器的合成数据集上训练,需具备规避误导性指令的机制 [43] 指导轨迹规划的基础模型 - **仅在训练阶段进行知识蒸馏的模型**:推理阶段无需调用基础模型,能保持效率,方法包括将CLIP表征对齐到端到端模型中,或利用GPT-4o输出元动作进行蒸馏等 [48][49][51] - **在推理阶段进行知识转移的模型**:训练和推理阶段都调用基础模型,计算成本更高,根据转移知识类型可分为转移场景描述、转移规划决策、或同时转移两者 [48][53] - **知识转移类型**:包括场景描述、元动作、轨迹等,通过不同编码方式融入到自动驾驶模型的各个层级 [53][54][55] 现有方法的数据集与代码开放性 - 开放性是推动研究进展和实际部署的关键,但无任何一种方法的所有资产均支持研究与商业双用途 [57][59] - 仅有5种方法公开了所有资产,但部分仍限制商业使用,其中4种属于“为轨迹规划定制的基础模型”,1种属于“指导模块化自动驾驶模型轨迹规划的基础模型” [59] - “指导端到端自动驾驶模型轨迹规划的基础模型”类别尚无开源实现,训练代码与模型权重是限制最严格的资产 [59] 开放问题与挑战 - **高推理成本导致部署困难**:基础模型参数庞大且自回归生成,导致推理延迟高,难以满足实际部署所需的10-30帧/秒帧率要求,例如Orion模型在A800 GPU上推理帧率仅为0.8帧/秒 [63] - **微调后的能力下降**:微调可能导致视觉语言模型丧失对轨迹规划潜在有用的能力,出现“概念遗忘”现象 [64][66] - **动作交互能力局限**:现有模型仅能处理短时域内可执行的指令,无法拆解和执行人类化的复杂多步指令 [68] - **仿真到现实的差距**:所有具备动作交互能力的模型均在合成场景中训练测试,存在域转移问题,阻碍实际部署 [69] - **性能影响因素不明**:不同方法在架构、数据、训练上差异巨大,难以厘清导致性能差异的核心因素 [70] - **缺乏推理能力评估基准**:需要建立标准基准来评估模型在复杂语言-视觉场景下的推理能力 [71]
“中文AI三大顶会”已有两家报导了理想近期AI进展
理想TOP2· 2025-11-09 14:59
中文AI媒体对理想汽车的报道热度 - 机器之心、量子位、新智元被戏称为“中文AI三大顶会”,在懂中文的AI从业者中拥有广泛读者群 [1] - 量子位于2025年11月8日发布关于ICCV自动驾驶新范式的文章,获得3.2万阅读、926大拇指赞、1617次转发和610爱心赞,阅读量在其近一周推文中排名第二 [1] - 机器之心于2025年10月31日发布关于理想汽车L4自动驾驶新范式的文章,作为次条推送获得3.9万阅读,该阅读量在机器之心的次条和头条中均属较高水平 [1] - 机器之心对理想汽车的报道跟进最为细致,覆盖了i8发布会自动驾驶内容并对多篇论文进行跟踪 [4] - 量子位除2025年11月的报道外,上一次专门撰写理想汽车的内容是对其24Q1财报的解读,再之前的报道集中在2021年 [10] - 新智元对理想汽车的上次报道集中在2022年 [15] 理想汽车自动驾驶技术进展与行业认可 - 理想汽车在ICCV 2025上提出“训练闭环”新范式,为全球首个将世界模型与强化学习结合并落地量产自动驾驶系统的公司 [2] - 该技术通过合成数据解决罕见场景问题,使MPI(人类接管里程)显著提升,技术细节扎实,对自动驾驶/AI领域从业者极具参考价值 [2] - 评论区对理想的评价非常正面,用户称赞其为“中国车企楷模”,认为其科研硬核得不像车企 [2] - 理想的研发资金近一半投在了人工智能领域 [2] - 专注于自动驾驶内容的媒体“自动驾驶之心”在2024年至2025年间约有45篇文章讲述理想汽车,表明理想已成为该领域主流玩家 [17] - 理想汽车从2021年开始辅助驾驶研发,历程从最初的BEV方案发展到无图辅助驾驶 [5] - 公司在自动驾驶技术上探索端到端(e2e)和视觉语言模型(VLM)的实现路径 [5] 理想汽车的AI战略与长期愿景 - 理想汽车在2022年9月内部达成共识,认为要实现自动驾驶,公司必须成为一家AI公司,并于2023年1月正式对外公布,目的之一是招人广告 [17] - 公司创始人李想在2015年因相信自动驾驶能实现且智能车产业足够大而选择创业,当时未意识到自动驾驶本质是AI问题 [17] - 至2024年12月,李想接受了OpenAI定义的AI五阶段理论,认为自动驾驶变成中短期可实现目标,并认为VLA是解决方案 [17] - 公司现阶段需要自己做基座模型,自己开发大语言模型(LLM) [17] - 公司从事这些研究的最终目的不仅是为了实现自动驾驶,更是基于对OpenAI AI五阶段的远期展望,为了挑战成长极限,旨在成为最顶尖的AI公司 [18] - 有AI领域账号在2025年4月对理想汽车做LLM感到困惑,不确定其是想开辟新赛道还是在车企中做差异化竞争 [17] 理想汽车在AI圈的品牌认知度 - 截至2025年5月,理想汽车在自动驾驶以外的中文AI圈知名度很低 [22] - 尽管量子位、机器之心在2025年11月的报道提升了其知名度,但预期现阶段理想在中文自动驾驶圈已非常有名并被充分认可为主流玩家,在非自动驾驶中文AI圈则知名度相当低 [22]
小米智驾正在迎头赶上......
自动驾驶之心· 2025-11-03 00:04
小米汽车技术进展概述 - 小米汽车自2021年9月成立至2025年6月YU7发布,四年内在新能源领域快速发展[2] - 2025年下半年行业竞争焦点集中在智能驾驶、性价比及座舱体验,小米智驾正迎头赶上,新版本即将发布[2] - 2025年小米汽车团队在学术研究上成果显著,论文工作涉及VLA、世界模型、端到端等多个前沿方向,包括ORION、WorldSplat、EvaDrive、Dream4Drive等,探索生成模型在自动驾驶中的落地应用[2] 视觉语言行动模型与端到端驾驶 - **AdaThinkDrive**:引入"快速应答/慢速思考"双模式推理机制,在NAVSIM基准测试中PDMS达90.3,超越最佳纯视觉基线1.7分,在96%复杂场景使用CoT,84%简单场景直接输出轨迹,推理效率提升14%[6] - **EvaDrive**:采用进化对抗策略优化框架,实现轨迹生成与评估的闭环共进化,在NAVSIM v1上PDMS达94.9,Bench2Drive驾驶分数64.96,超越DiffusionDrive等方法[9] - **MTRDrive**:通过记忆-工具协同推理框架提升决策鲁棒性,在NAVSIM和Roadwork-VLM基准上表现出色,有效缓解幻觉问题[14] - **ReCogDrive**:融合VLM认知推理与强化学习增强的扩散规划器,在NAVSIM基准PDMS达90.8,推理速度较纯文本VLM方法提升7.8倍[18] - **ORION**:通过视觉语言模型指导动作生成,在Bench2Drive数据集驾驶分数77.74,成功率54.62%,较之前最优方法提升14.28分和19.61%[23] - **AgentThink**:将动态工具调用与思维链推理结合,在DriveLMM-o1基准整体推理分数提升53.91%,答案准确率提升33.54%[22] 世界模型与场景生成 - **Dream4Drive**:首创3D感知引导的合成数据生成框架,仅插入420个样本(不足真实数据2%)即可提升感知任务性能,在1×训练轮数下mAP从34.5提升至36.1,NDS从46.9提升至47.8[26] - **WorldSplat**:采用高斯中心化前馈式4D场景生成框架,在nuScenes数据集取得最优FVD与FID指标,支持多视角驾驶视频生成[31] - **ViSE**:通过视觉街景外推框架在ICCV 2025 RealADSim-NVS挑战赛综合得分0.441,PSNR达18.228,SSIM 0.514,LPIPS降至0.288[30] - **ExtraGS**:融合几何先验与生成先验,在Waymo数据集NTA-IoU达0.592,NTL-IoU达58.49,nuScenes外推FID@3m降至77.19[35] - **Genesis**:实现多视角视频与LiDAR点云序列联合生成,在nuScenes基准视频生成FVD 16.95、FID 4.24,LiDAR生成Chamfer距离0.611[41] - **Uni-Gaussians**:统一高斯表示方法结合光栅化与光线追踪,在Waymo数据集实现相机与LiDAR数据高效仿真[42] - **CoGen**:通过3D语义条件生成框架提升视频生成3D一致性,在nuScenes数据集FVD指标最优[44] - **MiLA**:实现长达一分钟多视角高保真视频生成,在nuScenes数据集FID与FVD指标达到最先进水平[48] 运动风险预测与感知增强 - **DriveMRP**:基于BEV运动仿真方法合成高风险运动数据,零样本评估准确率从基线29.42%大幅提升至68.50%,增强VLM在长尾场景的风险预测能力[13][15] 深度估计技术 - **Pixel-Perfect Depth**:采用像素空间扩散生成模型,在NYUv2、KITTI等基准AbsRel最低达4.1%,δ1准确率最高97.7%,边缘感知点云Chamfer距离仅0.08[51]
ICCV 2025「端到端自动驾驶」冠军方案分享!
自动驾驶之心· 2025-10-29 00:04
赛事成就与排名 - 浪潮信息AI团队在ICCV 2025自动驾驶国际挑战赛的端到端自动驾驶赛道中夺得冠军,EPDMS综合得分为53.06 [2] - 该团队提出的创新框架"SimpleVSF"在榜单中排名第一,得分显著领先于第二名(51.31)和第三名(51.08) [3] - 此次夺冠是公司继2022年、2023年登顶nuScenes榜单以及2024年在CVPR自动驾驶挑战赛夺冠后的又一重要成果 [13] 技术框架与核心创新 - SimpleVSF框架创新地构建了以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案 [2] - 框架引入VLM增强打分机制,通过将前视图像与车辆状态输入VLM生成认知指令,使轨迹评估融入对交通意图与场景语义的理解 [8] - VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6% [8] - 框架采用双重融合决策机制,包括权重融合器和基于VLM的选择融合器,融合后的结果相比单一模型性能提升达10% [10][11] - 框架采用扩散模型生成高质量候选轨迹,运用ViT-L等先进视觉骨干网络进行特征提取,并引入Qwen2.5VL系列视觉语言模型 [13] 行业挑战与赛题设置 - 端到端自动驾驶当前主要问题在于难以理解如礼让行人、拥堵跟车等高层次语义与场景常识,限制了其在真实开放道路中的可靠性与泛化能力 [5] - 赛题旨在提升模型在复杂动态环境中高效可靠决策的能力,比赛分为两阶段,第二阶段基于真实场景通过Gaussian Splatting技术生成合成场景以测试模型泛化能力 [6] - 比赛引入"反应式背景交通参与者",要求模型具备交互式预测与意图理解能力,而非简单的轨迹外推 [6] - 比赛以NAVSIM v2数据驱动仿真框架作为评估平台,考验纯视觉环视相机输入的轨迹预测与行为规划能力,并优化九项关键指标 [4] 技术影响与行业意义 - SimpleVSF框架有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从"纯几何式"向"认知式"转变 [7] - 该技术为高动态、高交互交通环境下的智能决策提供了全新思路,突破了现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限 [2] - 端到端自动驾驶通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向 [5]
DeepSeek的终极野心:把大语言模型的基本语言都改造成图像
36氪· 2025-10-21 12:52
核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型,该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈,通过将文本信息渲染成图像进行高效压缩,从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式,实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度,其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身,而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元,一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token,表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损,20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器,这是一个约3.8亿参数的串联三级架构,完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下(用64个视觉token解码600-700个文本token),OCR精度高达96.5% [17] - 在20倍压缩率下(用64个token解码1200+token),模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中,DeepSeek-OCR(Small模式)仅用100个视觉token,性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR(Gundam模式)使用不到800个视觉token,性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器(每台搭载8颗A100 GPU)时,系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言,能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本,因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制,通过多分辨率设计实现分层记忆管理,为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩,未来的方向是让压缩变得有选择性,更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一,因为图像模态更合乎人类认知,所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]
特斯拉call back李想的线索
理想TOP2· 2025-10-21 03:13
特斯拉FSD V14与VLA技术路线 - 特斯拉FSD V14证明其采用与VLA相同的技术路线 核心特点是具备对空间的完整理解能力以及执行长任务的多任务能力[1] - 特斯拉前自动驾驶软件总监Ashok Elluswamy指出 FSD系统整合摄像头 LBS定位 自车信息和音频输入至大型升级网络 后端结合语言模型 3D占用网络和3D高斯技术 最终输出动作指令 语言信息对齐被视为关键选项[1] 技术验证与行业动态 - 理想汽车此前已强调语言模型与3D高斯技术的应用 Ashok的表述在实质上呼应了其观点 尽管双方可能并无直接交流[2] - 相关论述出现在ICCV 2025的"自动驾驶基础模型蒸馏"研讨会 该会议于2025年10月20日在夏威夷檀香山举行 专注于通过蒸馏技术将视觉语言模型和生成式AI等大型基础模型部署到自动驾驶车辆中[3][6] 研讨会核心内容 - 特斯拉AI软件副总裁Ashok Elluswamy在会上发表主题演讲"为特斯拉机器人构建基础模型" 演讲时段可能为11:10至11:45[5][6][7] - 研讨会涵盖自动驾驶基础模型 知识蒸馏 小型语言模型 视觉语言模型 生成式AI模型 多模态运动预测与规划 领域自适应及可信机器学习等多个前沿技术话题[6]
光会“看”和“说”还不够,还得会“算”!Tool-Use+强化学习:TIGeR让机器人实现精准操作
具身智能之心· 2025-10-11 16:02
文章核心观点 - 公司提出TIGeR框架 旨在解决当前视觉语言模型在机器人操作中缺乏精确几何量化能力的关键痛点 通过工具调用和强化学习使AI模型能从定性感知转向定量计算 [2] - TIGeR框架的技术路线具有前瞻性 与最新发布的Gemini Robotics 1.5所强调的Agentic Tool Use方向一致 [3] - 在多项空间理解基准测试中 TIGeR的表现超越了包括Gemini-2.5-Pro和GPT-4o在内的主流模型 并在真机测试中完成了其他模型无法胜任的高精度操作任务 [11][16] TIGeR框架的技术优势 - 实现精确定位 通过集成深度信息和相机参数 能将如“上方10厘米”的指令精确转换为三维坐标 达到普通视觉语言模型无法实现的操作精度 [7] - 支持多视角统一推理 在多镜头场景下可将各视角信息合并 并在统一的世界坐标系中进行场景构建和推理 [7] - 具备透明可解释性 模型的每一步推理过程清晰可见 包括工具调用 参数输入和结果输出 便于调试优化并增强操作可信度 [7] TIGeR的训练方法与数据 - 采用两阶段训练流程 第一阶段通过监督学习使用大规模数据集教授基础工具使用方法和推理链 第二阶段通过创新的分层奖励机制进行强化学习 精细打磨模型使用工具的准确性和过程完美度 [8] - 为训练构建了TIGeR-300K大规模高质量数据集 包含30万个样本 覆盖各类核心任务 其构建结合了模板化生成以保证规模和基础问题解决能力 以及利用大模型改写以增强泛化性和应对真实世界复杂指令 [10][13] 性能表现与基准测试 - 在CV-Bench基准的2D-Rel 3D-Depth 3D-Dist任务上分别达到93.85% 96.33% 95.17%的准确率 均超过对比模型 [10][14] - 在BLINK基准的Depth和Spatial任务上分别达到91.94%和86.01%的准确率 [10][14] - 在RoboSpatial基准的M.V. Conf. Comp. Cont.任务上分别达到60.15% 82.11% 82.86% 32.79%的准确率 在EmbSpatial和Q-Spatial++任务上分别达到80.82%和70.30%的准确率 [10][14]
机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控
机器之心· 2025-10-09 02:24
NovaFlow 框架概述 - 提出一种名为 NovaFlow 的全新自动操作框架,其核心目标是绕过机器人学习中的数据瓶颈,实现无需真实演示或训练的零样本复杂操控任务 [2] - 该框架的关键创新在于将任务理解与底层控制解耦,并利用大型视频生成模型中蕴含的常识知识,而非依赖昂贵的机器人亲身经历数据 [4] - 通过让机器人观看由视频模型生成的任务视频,并从中提炼出“可执行3D对象流”作为任务表征,指导机器人执行动作 [2] 核心技术:可执行3D对象流 - 引入核心中间表征“可执行3D对象流”,本质是目标物体在三维空间中运动轨迹的点云集合,只描述物体本身应如何移动 [5] - 这种以物体为中心的设计是实现跨不同机器人平台泛化的关键,使得方法与具体机器人形态无关 [5] - 该动作流作为抽象的任务表征,可被后续模块转化为针对刚性、关节体和可变形物体的具体机器人动作序列 [7][15] 动作流生成器工作流程 - 流程始于使用先进视频生成模型,根据初始场景RGB-D图像和文本指令生成一段任务教学视频 [9][12] - 通过单目视频深度估计算法将2D视频提升至3D空间,并利用第一帧真实深度图对估计深度进行校准,以解决系统性误差 [13] - 使用3D点追踪模型密集追踪场景运动,再通过开放词汇对象检测分割模型提取目标物体的运动轨迹,得到纯净的3D对象流 [14] - 为应对视频模型可能产生的“幻觉”,引入拒绝采样步骤,利用视觉语言模型评估并选择最合理的候选动作流 [14] 动作流执行器控制策略 - 针对刚性物体和铰接物体,通过分析动作流中关键点变化,计算物体在每个时间步的6D位姿,进而生成机械臂末端执行器的位姿序列和关节指令 [20] - 针对可变形物体,将3D动作流用作密集追踪目标,指导基于模型的规划器进行操作,通过粒子动力学模型预测形态变化并优化机器人动作以拟合理想状态 [20] 实验验证与性能表现 - 在Franka机械臂和波士顿动力Spot四足机器人上进行了广泛实验,任务涵盖刚性物体、铰接物体和可变形物体三大类 [16] - 实验结果显示,NovaFlow在所有零样本方法中表现最佳,其成功率甚至超过了使用10个和30个真实示教数据训练的模仿学习策略 [18][19] - 成功率的优势归因于其精确的3D动作表示,相比依赖2D光流的方法,具备更好的3D感知和长期一致性 [19] 挑战与未来方向 - 当前方法的主要局限性在于物理执行的“最后一公里”,如抓取失败或意外物理动态导致的执行偏差,暴露了开环规划系统的脆弱性 [23] - 未来的重要研究方向是开发闭环反馈系统,通过实时感知环境反馈来动态调整生成的动作流,以增强对现实世界不确定性和干扰的鲁棒性 [23]
RoboDexVLM:基于VLM分层架构的通用灵巧机器人操作
具身智能之心· 2025-09-26 00:04
技术框架概述 - RoboDexVLM是一个面向配备灵巧手的协作机械臂的创新性机器人任务规划与抓取检测框架 [2] - 该框架利用灵巧手抓取不同形状和尺寸物体的能力,并基于自然语言指令执行任务 [2] - 该框架是首个融合视觉语言模型的通用灵巧机器人操作框架,支持自然语言指令下的长序列任务规划与零样本抓取控制 [6] 核心技术组件 - 设计了一个具备任务级恢复机制的鲁棒任务规划器,利用视觉语言模型解析并执行开放词汇指令以完成长序列任务 [2] - 提出了一种基于机器人运动学和形式化方法的语言引导灵巧抓取感知算法,专为零样本灵巧操作而设计 [2] - 框架突破传统方法与端到端方法的局限,为具身智能与人机协作开辟新路径 [6] 功能特性与优势 - 支持语言即指令,让机器人听懂自然语言 [7] - 实现灵巧手操作,具备零样本抓取千奇百怪物体的能力 [7] - 利用视觉语言模型作为“大脑”,确保长程任务执行不迷路 [7] - 全面的实验结果验证了该框架在处理长时序场景和执行灵巧抓取方面的有效性、适应性和鲁棒性 [2] 应用与演示 - 框架展示了在复杂环境中运行的能力,以及在开放词汇灵巧操作方面的潜力 [2] - 直播将展示RoboDexVLM从理论到真实世界的实战表现 [7]
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 03:59
模型核心突破 - 推出开源视觉语言模型Mini-o3,能够进行长达数十个步骤的深度多轮视觉推理,在训练轮次限制仅为6轮的情况下,测试阶段可将思考轮数扩展到数十轮[1][2][13] - 模型通过恰当的数据、初始化方法和强化学习微调实现长周期视觉搜索能力,无需消耗大量训练周期资源[13] - 在多个视觉搜索基准测试中达到当前最佳水平,显著优于其他开源基线模型[15][43] 技术架构与训练方法 - 采用两阶段训练流程:第一阶段为冷启动监督微调,仅使用6个人工示范样本便生成约6000条高质量推理轨迹[19][22][24] - 第二阶段实施强化学习,关键创新包括将单张图像最大像素限制从1200万降至200万,使相同上下文容量内容纳更多交互轮次[25][26][27] - 提出超轮次掩码技术,避免对达到最大交互轮次的响应进行惩罚,平衡训练效率与测试扩展性,使测试推理轨迹能延伸至数十轮[28][34][35] 数据集构建 - 专门构建视觉探测数据集VisualProbe,包含4000个训练用视觉问答对和500个测试用问答对,涵盖简单、中等、困难三个难度级别[38] - 数据集特点包括小目标、众多干扰物体和高分辨率图像,这些特性使任务更具挑战性并自然要求迭代探索和试错[39][42] 性能表现 - 在VisualProbe数据集上,Mini-o3在困难、中等、简单任务准确率分别达到48.0%、50.4%、67.0%,显著超越GPT-40的11.2%、15.4%、47.5%[40] - 在V* Bench评估中取得88.2分,优于DyFot的81.2分和Chain-of-FocusT的88.0分[40] - 消融实验显示,移除RL数据导致模型在VisualProbe-Hard上性能下降约8.6分,验证了具有挑战性的RL样本对复杂推理轨迹的重要性[45] 行业影响 - 该技术方案为多轮交互式多模态模型的开发与强化学习应用提供实用指导,相关代码已全部开源[52][53] - 模型由字节跳动与香港大学团队联合开发,团队核心成员在大型多模态模型领域有深厚积累,曾发表多项重要研究成果[54][55][58][61]