视觉语言模型(VLM)

搜索文档
车圈一个月48位高管变动,新一轮的变革要开始了......
自动驾驶之心· 2025-09-25 03:45
车企的新一轮变革已经拉开了帷幕。 这一个月车企48位高管变动。理想把智驾团队拆成 11 个二级部门,比亚迪从斑马挖来 CTO 搞座 舱,长安汽车的高层也正经历大变动,连蔚来的任少卿都一边在公司管自动驾驶,一边去中科大搭 实验室了。 整个自动驾驶行业在"踩油门" 变方向,老话说的透彻, 这个世界上唯一不变的恰恰就是变化本身。 对于搞算法的同学来说,更是深有感触。三年前还是BEV,两年前是无图,一年期是端到端,今年 是VLA和世界模型,下一步是什么呢?在人工智能这条大的赛道上,什么才是算法岗位真正的活力 和壁垒? 柱哥认为是持续不断的更新自己的认知,要敢于跳出自己的舒适圈。 这一个月,柱哥和很多学术界&工业界的小伙伴进行了交流。有打算转行具身、转行Agent的,有研 一想做自动驾驶摸索方向的,也有车企大佬在联系柱哥招人攻坚端到端的。 自动驾驶还行不行这个话题总是有不同的答案,每个人都会基于自己的认知做出选择。 所以我们搭建了自动驾驶、具身智能和大模型三个平台,在变化中不断摸索前行的道路并反过来提 升自己。别盼着稳定,要在变化里找新机会。这一个月我们在尝试新的文章风格,开启了第一次星 球内部成员的线上交流活动,也正 ...
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-22 00:03
为解决这些问题,研究团队提出 PhysicalAgent ——一个融合迭代推理、扩散视频生成与闭环执行的机器人操控框架。其核心思路是:用基础模型(视觉语言模 型、扩散视频模型)承担感知与推理的"重活",仅保留轻量级机器人适配层负责执行,最终实现跨形态、跨任务的通用操控,同时通过迭代修正提升执行鲁棒 性。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Artem Lykov等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 核心定位与动机 当前机器人操控领域存在两大关键瓶颈:一是主流视觉-语言-动作(VLM)模型(如RT-1/RT-2、OpenVLA)依赖任务与平台特定微调,换机器人或环境后鲁棒 性骤降;二是基于世界模型的方法(如DreamGen)需依赖专门训练的预测模型(如Cosmos Predict),且训练数据需精心筛选机器人-场景对,通用性受限。 架构设计:泛化性的核心逻辑 该框架的核心原则是 感知与推理模块不绑定特定机器人形 ...
想跳槽去具身,还在犹豫...
自动驾驶之心· 2025-09-12 16:03
自动驾驶技术方向与职业发展 - 研一学生在感知背景下面临端到端VLA、具身智能或自动驾驶方向选择 需考虑本科电子通信背景及2-3年后就业前景[1] - 行业关注智驾与具身智能的转换可行性 以及持续学习方向的发展潜力[2] - 技术转型涉及从基于规则到端到端的组织与人员调整过程[2] 行业领先企业与成功要素 - 新势力公司存在裁员情况[1] - 行业关注Momenta等智能驾驶企业的成功关键因素[2] - 传统主机厂如长安、东风、比亚迪、吉利、蔚来在智驾领域的发展受关注[2] 技术发展趋势与就业选择 - 行业讨论L2+L3与L4发展方向的前景比较[2] - 端到端VLA算法主机岗与L4 Robotaxi决策规划岗位的就业选择[2] - 感知迭代快速导致部分从业者考虑转向相对稳定的部署岗位[2] 关键技术应用与仿真 - 3DGS在自动驾驶和具身智能中的应用程度受关注[2] - 各家公司的闭环仿真发展状况被讨论[2] - 感知后处理与多目标融合技术仍具应用价值[2] 社区资源与学习体系 - 自动驾驶之心知识星球拥有超过4000名成员 覆盖近40+技术方向学习路线[5][8] - 社区提供端到端入门、多模态大模型、数据闭环工程实践等实用问题解答[5] - 与近300家机构及自动驾驶公司建立内推机制 提供岗位对接服务[11] 技术领域细分与资源整合 - 汇总国内外自动驾驶高校实验室及企业资源 包括RoboTaxi、重卡、新势力等领域[26] - 整理自动驾驶与CV相关书籍、开源项目及数据集 涵盖3D检测、BEV感知、世界模型等方向[27][28] - 端到端自动驾驶技术梳理兼顾学术界与工业界 包含一段式、二段式及量产方案[29] 前沿技术聚焦 - 3DGS与NeRF技术应用于自动驾驶场景重建与闭环仿真[30] - 自动驾驶世界模型作为学术界与工业界热点 涵盖技术前沿与业界应用[31] - 视觉语言模型(VLM)汇总最新综述、开源数据集及量产方案如DriveVLM[32][33] 量产技术与核心模块 - 自动驾驶VLA技术梳理涵盖2025年最新综述、开源数据集及量产讨论[34] - 在线高精地图作为无图NOA量产方案核心 受学术界与工业界重点关注[41] - BEV感知作为量产基石 覆盖纯视觉、多模态融合及工程部署方案[38] 行业活动与专家交流 - 社区举办超过100场专业技术直播 分享VLA、世界模型、3D检测等前沿工作[55] - 邀请学术界与工业界大佬探讨自动驾驶发展趋势及量产痛点[6] - 会员可获取独享福利视频教程 涵盖世界模型、自动驾驶大模型等技术领域[52]
李飞飞的答案:大模型之后,Agent 向何处去?
36氪· 2025-09-04 08:28
Agent AI核心架构 - 提出由环境与感知、认知、行动、学习与记忆五大模块构成的完整认知闭环架构 实现从感知到行动的动态迭代智能体系[5][10] - 感知模块主动从物理或虚拟世界获取多模态信息 并内嵌任务规划与技能观察能力实现有目的的信息理解[7][8] - 认知模块作为处理中枢 由大语言模型(LLM)和视觉语言模型(VLM)驱动 负责解释信息、多步推理和策略制定[8] - 行动模块生成具体操作指令 通过控制器执行物理世界交互或虚拟世界API调用[8] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等多种机制 通过环境反馈实现持续优化[9] - 记忆模块突破传统上下文窗口限制 形成持久化结构系统存储知识、逻辑和推理结果[10] 大模型驱动机制 - LLM和VLM通过海量数据预训练内化世界常识 为Agent提供强大的零样本规划能力 显著降低任务规则编写成本[11][12] - 环境交互成为解决大模型幻觉问题的关键锚点 通过真实或模拟环境的物理反馈倒逼模型实现知识与现实对齐[13] - 需通过多元化数据训练和偏见检测机制解决基础模型继承的社会偏见问题 将包容性作为核心设计原则[13] - 在医疗等敏感领域需建立明确法规框架 通过提示工程和人类监督层确保数据隐私与行为安全[13] 应用场景实践 - 游戏领域彻底改变NPC行为模式 基于LLM的Agent可拥有独立记忆情感 实现动态行为调整和自然语言交互 提升沉浸感与开发效率[14][15] - 机器人领域实现自然语言指令驱动 通过GPT-4V理解人类演示视频并转化为可执行任务 结合多模态感知实现精细物理操作[17] - 医疗健康领域应用包括智能问诊聊天机器人 连接实时医学数据库进行事实核查 以及慢性病监控与预警系统提升诊疗效率[19][21] 行业影响与验证 - 论文框架已获谷歌 OpenAI和微软等主流厂商实际验证 其核心打法均遵循论文提出的能力栈推进[1][4] - 尽管发表仅半年 该综述已成为AI领域纲领性著作 为碎片化的Agent研究提供系统化框架与发展地图[4][22] - 行业面临多模态深度融合、跨领域通用化及标准化评测体系建立等核心挑战 需突破现有技术局限[22]
4000人的自动驾驶社区,开学季招生了!!!
自动驾驶之心· 2025-09-02 03:14
社区定位与规模 - 社区定位为综合类自动驾驶技术交流平台,集视频、图文、学习路线、问答与求职交流于一体,已吸引超过4000名成员,目标在未来2年内达到近万人规模[3] - 社区成员主要来自头部自动驾驶公司、具身智能公司、互联网企业、Top高校实验室及传统机器人公司,形成工业界与学术界互补的生态结构[1] - 社区覆盖近40个前沿技术方向,包括多模态大模型、VLM、VLA、闭环仿真、世界模型、端到端自动驾驶等主流方法论[1][3] 技术资源体系 - 汇总近40+技术路线、近60+自动驾驶数据集、行业主流仿真平台及开源项目,涵盖感知、规划控制、仿真等核心领域[12][23][24][25] - 提供超过100场专业技术直播分享,内容涉及VLA、3D检测、扩散模型等前沿课题,并邀请学术界与工业界专家参与[52] - 整理完备的学习资料库,包括数学基础、计算机视觉、深度学习、编程、经典书籍与课程课件,适配从入门到进阶的学习需求[7][24] 就业与产业链接 - 与近300家机构及自动驾驶公司建立内推合作机制,提供岗位推荐与简历直推服务,覆盖蔚小理、华为、大疆、英伟达等头部企业[8][12][59] - 定期开展行业趋势讨论,聚焦技术走向与量产痛点,并提供企业前景分析、跳槽建议及博士研究方向指导[4][16][57] - 构建求职交流板块,涵盖岗位开放信息、内推渠道及产业机会挖掘,强化社区与产业实践的连接[8][16][59] 内容服务特色 - 提供快速技术答疑服务,针对端到端入门、VLA学习路线、多传感器融合就业前景等实用问题提供解决方案[3][4][16] - 独家梳理自动驾驶100问系列专题,包括TensorRT部署、毫米波雷达融合、车道线检测等工程实践关键问题[7] - 打造多维度学习路径,如感知学习路线、仿真学习路线、规划控制学习路线等,系统性降低学习检索成本[12][13]
NIPS 2025 MARS 多智能体具身智能挑战赛正式启动!
具身智能之心· 2025-08-18 00:07
具身智能新挑战 - 单一智能体难以胜任复杂多变的任务场景,多具身智能体系统(如人形机器人、四足机器人、机械臂)成为实现通用自主的关键力量[3] - 多具身智能体需要在复杂环境中制定高层任务计划并稳健执行精细操作,但面临异构机器人、不同感知能力与部分可观测性等难题[3] - MARS Challenge通过两条互补赛道推动具身智能研究向真实世界落地,鼓励探索高层规划与低层控制能力[3][4] 赛道1:多智能体具身规划 - 面向异构机器人协同配合环境下的高层任务规划与角色分配,基于ManiSkill平台与RoboCasa数据集[5] - 通过视觉大语言模型完成智能体选择和动作分配,根据自然语言指令挑选最优机器人组合并制定高层动作序列[5][6] - 评估视觉大语言模型在多智能体分配、角色指派与符号规划等方面的推理能力,模拟现实环境中的协作[7][8] 赛道2:多智能体协同控制 - 致力于推动多智能体系统在复杂任务中的协作能力,如机械臂紧密配合堆叠方块等[12] - 基于RoboFactory仿真环境,要求智能体在动态、部分可观测条件下实时交互,设计端到端可部署控制模型[12][13] - 参赛者需通过仿真平台收集数据训练模型,最终提交部署后的模型供测试[12] 比赛安排与参与方式 - 时间安排:热身赛2025年8月18日开启,正式赛9月1日开启,10月31日结束,12月公布结果[25] - 参赛方式:通过比赛主页、微信交流群或Discord群参与,联系邮箱为marschallenge2025@gmail.com[25] - 比赛结果将在NeurIPS 2025的SpaVLE Workshop上公布,参赛者有机会赢得奖金并共同撰写报告[4][25] 行业展望 - 未来不同形态的智能体将协作完成超越单一能力边界的任务,MARS Challenge是推动多具身智能体走向通用自主的重要一步[26] - 该挑战为机器人、计算机视觉、自然语言处理及多模态AI领域的研究者提供了展示创意与技术的全球舞台[26][27]
自动驾驶前沿方案:从端到端到VLA工作一览
自动驾驶之心· 2025-08-10 03:31
自动驾驶技术趋势 - 端到端自动驾驶方案分为一段式和二段式,一段式直接建模传感器输入到轨迹输出,二段式侧重感知输入与轨迹预测联合优化 [3] - 主流一段式方案包括基于感知的UniAD、基于扩散模型的DiffusionDrive、基于世界模型的Drive-OccWorld,量产中会融合多种方法优势 [3] - VLA(视觉语言模型+端到端)通过大模型提升场景理解能力,当前研究涵盖语言解释器、模块化VLA、端到端VLA及推理增强算法 [5] 技术资源体系 - 社区整合40+技术路线,覆盖VLA benchmark、综述、入门路线及产业项目方案 [7][15] - 汇总60+自动驾驶数据集,包括多模态大模型预训练/微调数据集、强化学习数据集等 [35] - 梳理近40+开源项目,涉及3D目标检测、BEV感知、世界模型、3DGS等前沿领域 [33] 行业生态与人才 - 社区成员来自国内外顶尖高校(清华、CMU、ETH等)及头部企业(蔚小理、华为、英伟达等) [19] - 建立企业内推机制,覆盖RoboTaxi、重卡、造车新势力等自动驾驶相关公司 [10][29] - 定期举办100+场技术直播,分享VLA、3D检测、扩散模型等最新研究成果 [82] 关键技术研究方向 - 端到端自动驾驶研究聚焦纯视觉/多模态方案、世界模型结合、长尾分布处理等细分方向 [26][37] - 世界模型应用涵盖场景生成、交通仿真、传感器仿真等技术落地路径 [26][41] - BEV感知作为量产基石,覆盖纯视觉/多模态方案及工程部署优化 [50] - 3D目标检测技术路线包括激光点云、单目/双目视觉、多模态融合等方法 [52]
DriveBench:VLM在自动驾驶中真的可靠吗?(ICCV'25)
自动驾驶之心· 2025-08-07 23:32
研究背景与动机 - 视觉语言模型(VLM)在自动驾驶领域的应用兴趣激增,但缺乏对其可靠性和可解释性的系统验证 [3] - 当前VLM能否为驾驶决策提供基于视觉的可靠解释仍属未经验证的假设 [3] DriveBench基准数据集 - 推出DriveBench基准数据集,旨在评估VLM在17种设置下的可靠性 [3] - 数据集包含19,200帧图像、20,498个问答对和三种问题类型 [3] - 覆盖四大核心驾驶任务:感知、预测、规划和行为 [3][7] - 引入15种OoD(Out-of-Distribution)类型以系统性测试VLM在复杂场景中的可靠性 [3][7] - 评估涵盖12个主流VLM模型 [3] 研究内容与结构 - 研究从可靠性、数据和指标三个角度对VLM在自动驾驶中的适用性进行实证分析 [5] - 分享内容包含VLM概述、可靠性基准评估、分析方法和未来应用前景 [9] 技术交流活动 - 加州大学尔湾分校博士生谢少远将于8月8日11:00-12:00通过直播分享DriveBench研究成果 [7][9] - 完整技术细节及深度解析内容已发布于自动驾驶之心知识星球平台 [11]
4000人了,我们搭建了一个非常全栈的自动驾驶社区!
自动驾驶之心· 2025-08-03 00:33
自动驾驶行业现状与趋势 - 自动驾驶技术栈趋同 端到端+大模型成为主流方向 行业从百花齐放进入收敛阶段 [2] - 国内智测量产存在浮躁现象 方案未完全收敛即急于上车 行业需沉淀解决实际问题 [3] - 具身智能领域吸引部分从业者转行 但自动驾驶仍被视为最接近实现的通用具身智能赛道 [3] 技术发展方向 - 未来量产模型将呈现统一、多模态、端到端特征 模块化方法逐渐被淘汰 [3] - 行业对全栈人才需求迫切 需同时掌握感知、规划、预测、大模型及部署优化等技能 [3] - VLA(视觉语言模型)成为2025年热点技术方向 涉及开源数据集、模块化设计及量产方案等研究 [42] 学术与产业资源 - 自动驾驶之心社区整合40+技术路线 覆盖BEV感知、3DGS、世界模型等前沿方向 [5][16] - 汇集60+自动驾驶数据集 包括多模态大模型预训练/微调专用数据集 [32] - 链接国内外顶尖高校实验室(清华、CMU、ETH等)及头部企业(蔚小理、华为、大疆等) [16] 职业发展观察 - 行业薪资仍具竞争力 但面临转型压力 部分从业者权衡高薪与稳定性 [83] - 主机厂与供应商岗位选择成焦点 华为车BU、Momenta等企业技术认可度高 [83] - 应届生职业规划关注技术成长与企业前景 滴滴KargoBot等新兴领域受青睐 [83] 社区生态建设 - 提供学术前沿内容、工业界圆桌会议、开源代码及求职信息 形成产学研闭环 [5][21] - 定期举办超100场专业直播 邀请清华、上海AI Lab等机构专家分享最新成果 [79] - 建立40+开源项目库 涵盖BEV感知、Occupancy Network等关键技术 [30]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-12 12:00
视觉大语言模型 - 文章汇总了视觉大语言模型(VLM)在自动驾驶和智能交通领域的最新研究资源和论文 [3][4] - 提供了多个开源项目链接,涵盖视觉语言模型的理论、应用和安全等方面 [3] - 列出了多个顶级会议(CVPR 2024、ICLR 2024等)的最新论文,涉及视觉语言模型的预训练、对齐和推理优化 [5][7] 迁移学习方法 - 总结了视觉语言模型在迁移学习中的最新进展,包括非自回归序列模型、公平性优化和高效微调方法 [7] - 提出了多种改进视觉语言模型迁移性能的技术,如动态视觉标记、上下文学习和检索增强对比学习 [7] - 涵盖了CVPR、ICLR、NeurIPS等会议的多篇论文,涉及模型架构优化和零样本泛化能力提升 [7] 知识蒸馏 - 讨论了视觉语言模型在检测、分割和多任务学习中的知识蒸馏技术 [8] - 未提供具体数据或论文细节,仅作为研究方向提及 [8] 世界模型 - 综述了自动驾驶中世界模型的研究,包括场景理解、未来预测和4D重建 [9][12] - 列出了多个创新模型,如HERMES、DriveDreamer4D和Vista,涵盖3D场景生成和可控视频预测 [9][12] - 提供了世界模型在自动驾驶中的全面调查和未来趋势分析 [12] 扩散模型 - 汇总了扩散模型在图像处理、视频生成和自动驾驶中的应用 [14][15] - 列出了多个开源资源和论文集合,涵盖图像恢复、3D视觉和推荐系统等领域 [14][15] - 提供了扩散模型在低层视觉、时间序列和多模态编辑中的最新研究进展 [15] 端到端自动驾驶 - 介绍了端到端自动驾驶的最新研究方向和论文资源 [16][19] - 提供了多个开源项目链接,涵盖感知、预测、规划和仿真等方向 [19] - 列出了CVPR、ICRA、NeurIPS等会议的相关研讨会和论文,涉及大规模基础模型和行为驱动驾驶 [19] 行业动态 - 提到自动驾驶行业有近4000人的交流社区,涵盖30+技术栈和300+公司与科研机构 [17] - 涉及感知、定位、规划控制等多个领域的技术方案和岗位发布 [17]