Workflow
视觉语言模型(VLM)
icon
搜索文档
免训练!使用贝叶斯去微调VLM,机器人操作任务取得SOTA!
具身智能之心· 2025-12-03 03:47
核心技术框架 - 提出T²-VLM框架 一种无需训练且具有时序一致性的方法 通过跟踪视觉语言模型推导出的子目标状态变化来生成精确奖励 [2] - 框架首先在每轮交互前查询视觉语言模型以建立空间感知的子目标及初始完成度估计 随后采用贝叶斯跟踪算法利用子目标隐藏状态动态更新目标完成状态 [2] - 该方法为强化学习智能体生成结构化奖励 增强长程决策能力并借助强化学习提升故障恢复性能 [2] 技术优势与性能 - T²-VLM在两个机器人操作基准测试中取得最先进性能 在降低计算消耗的同时展现优异奖励准确性 [2] - 方法在不牺牲视觉语言模型通用泛化能力前提下显著提升其空间理解能力 为真机强化学习训练提供更精确反馈 [5] - 解决预训练数据集缺乏领域特定机器人知识及高昂计算成本阻碍实时应用的问题 [2] 应用场景 - 针对长序列机械臂操作任务中视觉语言模型难以稳定提供准确奖励信号的挑战提出解决方案 [5] - 框架专为机器人操作任务设计 通过时序一致性增强在具身任务如目标分解与视觉理解中的性能 [2]
VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
具身智能之心· 2025-12-02 09:30
文章核心观点 - VisPlay研究首次提出自进化强化学习框架,使视觉语言模型仅通过海量未标注图像数据实现自我演化和能力提升[2] - 该框架将基础模型分解为提问者与推理者角色,通过迭代自我进化机制协同进化,结合GRPO算法和多样性/难度奖励平衡问题复杂度与答案质量[2][10] - 实验证明VisPlay在Qwen2.5-VL和MiMo-VL等主流模型上实现持续性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著[3] 技术背景与挑战 - 当前VLM提升复杂推理能力依赖耗费巨大的人工标注数据或启发式奖励,成本高昂且难以规模化[1] - 随着模型规模扩大,人工标注成本速度已跟不上模型演化需求,成为能力提升主要瓶颈[5] VisPlay框架设计 - 核心理念为自我进化,从基础预训练VLM出发分解为提问者和推理者两大相互作用角色[8] - 提问者负责生成具有挑战性但可回答的视觉问题,采用难度奖励和多样性奖励机制指导进化质量[10] - 推理者基于图片和问题生成伪标注答案,采用回答准确性作为训练信号[12] - 通过奖励机制有效解决自进化模型中答案质量低和问题重复度高的问题[11] 实验结果与性能 - 在八个主流基准数据集评估显示VisPlay实现一致且显著准确率增益[15] - Qwen2.5-VL-3B模型在MMMU任务从基准19.95提升至37.11,视觉数学推理从26.14提升至35.15,幻觉检测从32.81大幅提升至90.54[16] - Qwen2.5-VL-7B模型在MMMU任务从23.10提升至38.27,幻觉检测从66.88提升至92.32[16] - MiMo-VL-7B模型在多个任务上实现稳定提升,如视觉数学推理从41.80提升至46.02[16] - 框架展现出强大组合泛化能力和有效抑制幻觉现象的概率[17]
图解Qwen3-VL多模态模型
自动驾驶之心· 2025-11-29 02:06
Qwen3-VL多模态模型架构分析 - 文章核心观点是通过源码解析Qwen3-VL多模态大模型的内部实现细节,重点阐述其如何整合处理视觉和文本信息[2][3] - Qwen3-VL模型将文本和图像作为输入进行处理的自回归AI模型,源码实现包含配置、多模态模型、图片处理和视频处理四大核心模块[4][5] 模型核心组件与处理流程 - 模型入口类Qwen3VLForConditionalGeneration负责整合输入数据,处理流程包括:接收pixel_value和input_ids输入、通过Qwen3VLModel处理多模态数据、经线性层lm_head输出logits、最终以统一格式输出结果[12][13][15][16] - Qwen3VLModel类实现多模态数据融合:通过get_image_features将图像转换为image_embeds,文本通过get_input_embeddings转为inputs_embeds,使用masked_scatter技术将视觉嵌入整合到文本序列中,最终输入大语言模型进行统一处理[18][20][21] 视觉编码器技术实现 - Qwen3-VL采用自研视觉编码器而非现有CLIP或SigLIP方案,通过Qwen3VLVisionPatchEmbed的3维卷积将图像转为hidden_states,结合位置编码后输入27层Attention模块的Qwen3VLVisionBlock进行处理[34][35][37][40] - 视觉处理使用Qwen2VLImageProcessorFast实现图像到pixel_value的转换,预处理过程包含图像分组、尺寸调整、归一化和特征网格重组等步骤,最终输出模型可处理的pixel_values张量[7][8][9][10] 多模态融合与位置编码机制 - 模型采用特殊标记<|im_start|>和<|im_end|>实现视觉与文本特征的精确对齐,通过get_rope_index方法计算旋转位置编码索引,支持图像和视频序列的时空位置信息编码[21][22][23][24] - 视觉特征嵌入过程严格校验占位符标记与特征数量匹配,确保多模态数据融合的准确性,最终生成包含视觉位置掩码和深度堆叠特征的统一表示[30][31][32][33]
性能超越GPT和Google,北京人形机器人创新中心开源全球最强具身VLM
具身智能之心· 2025-11-17 00:47
产品发布与核心定位 - 北京具身智能机器人创新中心于2025年11月14日正式发布全球最大规模开源的具身视觉语言模型 Pelican-VL 1.0,宣称其性能超越GPT-5同类模型和Google Gemini系列 [1] - Pelican-VL 1.0作为机器人的“视觉语言大脑”,负责将图像信息转化为可理解的语言指令并规划具体行动步骤,是实现具身智能(让机器人像人类一样感知、决策、执行)的核心技术 [1] 研发机构背景 - 北京人形机器人创新中心(国家地方共建具身智能机器人创新中心)于2023年11月成立,是中国首家省级人形机器人创新中心,由小米机器人、优必选科技、京城机电、中国科学院自动化所等企业共同组建,并于2024年10月10日挂牌为“国家地方共建具身智能机器人创新中心” [5] - 该中心已推出通用机器人母平台“天工”系列,这是全球首个全尺寸纯电驱拟人奔跑的人形机器人,实测奔跑速度达12公里/小时,其结构设计文档、软件开发接口等关键资料已全面开放,已有上百家机构基于此进行二次开发 [5] 核心技术:DPPO训练范式 - Pelican-VL性能突破的核心在于全球首创的DPPO刻意训练范式,该范式通过“观察-练习-纠错-提升”的闭环,让模型能够针对薄弱环节进行高效学习,仅用20万条数据就实现了性能超越,数据用量仅为同类模型(通常需100万至500万条数据)的1/10甚至1/50 [8][9] - 对比实验显示,采用DPPO训练的72B参数模型,在视觉理解准确率上提升20.3%,在动作规划合理性上提升25.1%,同时训练时间缩短40% [14] - DPPO范式的四大本质区别包括:具备元认知能力、错误驱动优化、高效数据利用以及部署后的自进化能力 [10][17] 技术资源与规模 - Pelican-VL的训练基于一个由1000多块A800 GPU组成的专用计算集群,单次完整的模型检查点训练耗费超过50000 A800 GPU-小时的计算资源,相当于单块GPU需连续工作近6年 [15] - 模型提供7B和72B两种参数版本,覆盖终端实时响应与云端复杂任务处理的不同需求,其72B参数版本在规模上优于GPT-5(约50B)和Google Gemini(34B/68B)的同类模型 [23] - 训练数据经过严格筛选和蒸馏,从12个领域提炼出包含数亿token的元数据集,数据更聚焦于具身任务,与任务匹配度高 [24] 性能表现与应用 - 在全球公认的具身智能评估基准测试中,Pelican-VL的综合性能超越GPT-5同类模型15.79%,比Google Gemini系列模型提升19.25% [25] - 在具体任务中表现出色,例如在“无序物体抓取”任务中展现精准的空间推理能力,在“复杂场景交互”任务中能完成包含视觉识别、自然语言沟通和连续动作规划的复合指令 [27] - 模型泛化能力突出,在训练数据未涉及的“沙地行走取物”和“斜坡环境操作”等陌生场景中,任务成功率仍保持在80%以上 [28] 产业生态影响 - Pelican-VL以开源方式发布,意味着全球开发者可免费获取模型代码、训练数据和使用手册进行二次开发,此举有望降低中小企业应用具身智能技术的门槛,加速技术迭代和创新应用落地 [33][34] - 模型与“天工”机器人平台结合,已能控制机器人在跑步机上平稳奔跑、上下楼梯,并通过语音交互完成如“递送红色文件”等复杂任务,展现了其作为VLA系统“大脑”连接视觉、语言与动作的强大能力 [29][32]
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架
具身智能之心· 2025-11-05 00:02
文章核心观点 - MAESTRO是一种以视觉语言模型为核心的模块化机器人框架,通过动态组合专用模块,在无需大规模机器人训练数据的情况下,实现了超越现有视觉语言动作模型的零样本操作性能[2] - 该框架选择了一条差异化研发路径,利用VLM的通用能力并整合成熟工具模块,以克服机器人数据稀缺和采集成本高的行业瓶颈[4][6] - 实验证明该框架在桌面操作和移动操作任务中均表现出核心性能优势,尤其在语义推理和长时记忆任务中表现突出,展示了"VLM+模块化工具"路径的有效性[15][17][22] 核心架构与关键设计 - 整体框架以VLM编码代理为核心,接收指令后动态编写代码组合工具模块,并采用闭环交互机制持续监控环境反馈,实时调整代码和动作[5] - 模块设计遵循六大原则,覆盖多维度机器人操作需求,具体包括感知、几何与线性代数、控制、预训练视觉运动策略、图像编辑以及移动操作扩展模块[8][10] - 框架具备基于历史运行的进化机制,通过数据库记录过往任务,为新任务提供上下文示例,实现少量真实世界试验后的性能提升[12] 实验结果与性能分析 - 在7项桌面操作任务中,MAESTRO在6项任务上大幅超越现有VLA模型和代码即策略基线,例如在"旋转立方体使紫色面朝上"任务中得分为60.0 ± 38.1分,而基线模型π₀.₅仅为10.0±0.0分[17][18] - 在4项移动操作任务中均实现高完成度,其中"搜索物品并返回"任务达96.0±8.9分,"按按钮开门"任务达93.3±14.9分[17][18] - 进化机制效果显著,在开门任务中,经过三次进化迭代后,完成度从初始的35%提升至85.0±7.4分[17] 关键模块影响分析 - 去除高级感知模块后,折叠毛巾任务完成度从71.3±21.4分降至40.0±7.1分,旋转立方体任务从60.0±38.1分降至25.0±0.0分,表明精准感知是复杂操作的基础[19][20] - 去除几何模块后,旋转立方体任务完成度降至42.5±31.8分,验证了空间推理工具对需姿态调整的任务至关重要[19][20]
跨行转入自动驾驶大厂的经验分享
自动驾驶之心· 2025-11-04 00:03
文章核心观点 - 文章通过分享苹果姐的职业发展案例,强调在自动驾驶行业成功需要抓住机会并持续学习转型 [1] - 自动驾驶之心知识星球是一个综合性技术社区,提供超过40个技术方向的学习资源和行业交流平台 [4][7][10] - 社区目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [4] 社区资源与内容 - 社区汇总了近40+技术路线,涵盖BEV感知、端到端自动驾驶、多传感器融合等核心领域 [7][10][17] - 提供近60+自动驾驶数据集、行业主流仿真平台和各种技术学习路线 [16] - 社区内部梳理了自动驾驶100问系列,包括TensorRT模型部署、毫米波雷达融合等实用问题 [10] - 拥有超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果 [91] 学习与课程体系 - 社区提供七大福利视频教程,涵盖世界模型、自动驾驶大模型、3D目标检测等热门方向 [89] - 原创直播课程包括感知融合、多传感器标定、SLAM与高精地图等8大系列 [11] - 为入门者提供全栈方向学习课程,适合0基础小白系统学习 [10][11] 行业连接与就业支持 - 社区成员来自上海交大、北京大学、CMU等知名高校和蔚小理、华为、英伟达等头部企业 [16] - 与多家自动驾驶公司建立内推机制,提供大模型-端到端算法工程师等热门岗位推荐 [12] - 社区定期分享行业机会挖掘、投资与项目对接信息 [21] 技术领域覆盖 - 重点技术方向包括:VLA学习路线、多模态大模型、Occupancy Network、3DGS与NeRF等 [17][38][41][48] - 详细梳理了端到端自动驾驶的一段式/二段式方案、量产方案和VLA相关算法 [38][48] - 覆盖BEV感知、3D目标检测、轨迹预测、规划控制等自动驾驶核心技术栈 [17][50][54][56]
世界模型==VQA?机器人不用想象画面,预测语义就够了
机器之心· 2025-10-28 00:41
文章核心观点 - 研究提出了一种新型的语义世界模型,该模型不再专注于预测未来的精确像素画面,而是通过回答关于未来结果的语义问题来支持决策规划 [1][8][9] - 该方法将世界建模问题重新定义为一个关于未来结果的视觉问答问题,利用视觉语言模型的强大能力,实现了更灵活、可扩展的机器人控制 [8][9][18] 模型原理与架构 - 语义世界模型以动作条件的视觉语言模型形式存在,输入包括当前观测图像、拟执行的动作序列以及一个关于未来的自然语言问题,输出为相应的文本回答 [11][20][24] - 模型基于开源的30亿参数视觉语言模型PaliGemma构建,包含Transformer自回归语言模型、SigLIP图像编码器和投影矩阵等核心组件 [24] - 通过引入新的投影矩阵将单个动作映射到语言模型的潜空间,使模型能够以动作为条件回答问题 [24][25] - 模型通过优化标准交叉熵损失进行端到端微调,在语言空间中捕捉环境动态,无需显式生成像素级表征 [26][27] 训练方法与数据 - SWM可在对通用序列数据质量要求极低的情况下训练,训练数据可从任何专家或非专家数据语料库中获取,格式为当前观测结果、行动、关于未来的问题及预期答案 [15] - 训练使用状态-动作-问题-答案数据集,混入次优数据比仅使用专家数据进行训练能提高准确率,结合使用专家和次优数据时在LangTable和OGBench上的准确率分别达到92.92%和96.86% [22][35][36] 实验性能与效果 - 在LangTable和OGBench仿真环境上的评估表明,SWM能够准确回答关于未来结果的问题,并能泛化到新场景中 [17] - 基于SWM的规划方法在LangTable上相比基础策略的平均性能从14.4%提升至81.6%;在OGBench上从45.33%提升至76%,在所有任务上均优于AVD和IDQL基线 [31] - 在处理多步长程任务时,SWM的平均策略改进幅度达52.0%,优于AVD基线 [33][34] - 模型展现出组合泛化能力,在引入新物体或修改颜色-形状组合的条件下,与基础策略相比平均性能提高20.0% [39][40] 模型优势与特性 - SWM继承了基础VLM的泛化能力,能够正确关注图像中与任务相关的位置,即使从未在涉及两个以上物体的问题上微调,也能正确关注三个物体 [41] - 该方法与零阶基于采样的方法以及一阶梯度规划方法都兼容,规划方法在计算上可行,相比常规动作选择方法能在测试时带来显著改进 [16][29][31]
做了几期线上交流,我发现大家还是太迷茫
自动驾驶之心· 2025-10-24 00:04
社区概况与规模 - 社区名称为“自动驾驶之心知识星球”,是一个专注于自动驾驶领域的综合类技术社区 [1][3] - 社区集视频、图文、学习路线、问答、求职交流为一体,已运营三年之久 [1][3] - 目前社区成员数量已超过4000人,公司目标是在未来2年内将规模扩张至近万人 [1][3] 社区服务与资源 - 社区联合了众多学术界和工业界专家,为成员提供技术分享和交流渠道 [1][3] - 内部梳理了超过40种自动驾驶技术路线,帮助成员缩短信息检索时间 [5][6] - 提供近40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台的汇总资料 [14] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达心仪公司 [10] 技术内容覆盖范围 - 社区内容全面覆盖自动驾驶感知、规划控制、仿真、端到端学习等核心领域 [14][15] - 具体技术方向包括BEV感知、多传感器融合、3D目标检测、VLA、世界模型、扩散模型等近40个细分领域 [8][14][15][20] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等工程化主题 [8] 学习与交流活动 - 定期举办线上交流活动,单场活动参与人数超过100人 [1] - 社区内部经常解答各类实用技术问题,例如端到端入门、VLA学习路线等 [5][18] - 不定期邀请一线学术界和工业界大佬进行直播分享,目前直播场次已超过一百场 [84] - 成员可在社区内自由提问,获得关于工作选择、研究方向等问题的解答 [87]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-17 16:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
突然发现,新势力在集中IPO......
自动驾驶之心· 2025-10-06 04:05
行业动态与资源整合 - 国庆期间观察到多家新势力公司启动IPO进程,国内外行业正进行新一轮资源整合[1] - 9月22日国家市场监管总局公示中国第一汽车股份有限公司收购深圳市卓驭科技有限公司股权案,同日英国自动驾驶初创公司Wayve与英伟达签署意向书计划在下一轮融资中投资5亿美元(约合人民币36亿元)[1] - 9月27日魔视智能科技(上海)股份有限公司向港交所提交上市申请书,9月30日博泰车联网科技(上海)股份有限公司在港交所上市敲钟,同日北京四维图新科技股份有限公司宣布完成对鉴智机器人母公司PhiGent Robotics Limited的战略投资,10月2日岚图汽车向港交所递交招股书[1] - 自动驾驶领域技术栈趋于收敛,量产方案趋同,行业出现VLA/WA路线之争[1] 社区资源与服务体系 - 自动驾驶之心知识星球社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人,目标未来2年内达到近万人规模[3] - 社区联合学术界和工业界专家,梳理近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[4] - 社区提供40+自动驾驶技术方向资源,包括国内外高校著名自动驾驶团队整理、算法进阶、规划控制等分类内容[10] - 社区内部提供全栈方向学习课程,包括自动驾驶数据工程系列、2D/3D目标跟踪系列、多传感器标定系列等9大视频教程体系[12] - 社区与近300家机构与自动驾驶公司建立联系,提供岗位内推机制,成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等头部企业[19] 技术领域覆盖范围 - 社区技术资源覆盖自动驾驶感知学习路线、仿真学习路线、规划控制学习路线三大方向[19] - 具体技术板块包括端到端学习路线、3DGS算法原理、VLA学习路线、多模态大模型、占用网络、BEV感知、扩散模型、世界模型等40多个细分领域[19] - 专业分类包含3D目标感知最新综述、激光点云方法汇总、单目3D检测方法汇总、多模态3D检测方法汇总等28个技术模块[28] - 重点技术方向包括自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知、3D目标检测等核心领域[44][46][49][53][55] 行业交流与知识共享 - 社区不定期邀请行业大佬开展直播分享,目前已超过一百场专业技术直播,内容涵盖Impomptu VLA、LangCoop、Diffusion planner等前沿技术[89] - 星球内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等领域[87] - 社区提供国内外自动驾驶与机器人高校汇总、自动驾驶公司汇总、开源项目汇总、自动驾驶开源数据集等产业资源[29][31][35][37] - 日常讨论话题包括端到端自动驾驶入门、VLA学习路线、多传感器融合就业前景、3DGS与闭环仿真结合等实践性问题[20]