视觉语言模型 - 财报，业绩电话会，研报，新闻 - Reportify

视觉语言模型

搜索文档

自动驾驶超视距VLA如何实现？小鹏NavigScene另辟蹊径！

自动驾驶之心· 2025-09-04 23:33

文章核心观点 - 小鹏汽车团队提出NavigScene系统旨在解决自动驾驶领域局部感知与全局导航信息脱节的关键瓶颈通过导航引导的自然语言数据集和三种创新方法实现超越视觉范围的推理能力显著提升自动驾驶系统的感知、预测和规划性能 [3][4][9] 技术方案 - NavigScene构建导航引导的自然语言数据集在自动驾驶系统内部仿真类人化驾驶环境弥合局部传感器数据与全局导航信息之间的差距 [4][5] - 开发导航引导推理范式通过将导航上下文融入提示方法增强视觉语言模型的推理能力 [5] - 采用导航引导偏好优化方法扩展直接偏好优化技术通过建立导航相关信息摘要的偏好关系改进视觉语言模型响应 [5] - 创建导航引导视觉-语言-动作模型(NVLA) 通过特征融合将导航引导和视觉语言模型与传统端到端驾驶模型集成 [5] 应用价值 - 系统显著提升自动驾驶在基于局部视觉信息的问答、感知、预测和规划方面的性能为构建更可靠的自动驾驶系统奠定基础 [4][9] - 使自动驾驶系统具备"高瞻远瞩"的导航思维突破当前系统只能"看清"周围却难以"预见"远方道路与决策的限制 [3] - 研究成果以论文形式发布标题为《NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving》 [6] 内容安排 - 直播将涵盖自动驾驶研究问题简介导航数据集的视觉生成和文本生成基于导航数据集的多模态大模型后训练以及视觉-语言-动作模型等核心内容 [10] - 技术分享由NavigScene论文第一作者Qucheng Peng主讲深度解析团队如何开创性弥合局部感知与全局导航的鸿沟 [3]

小鹏汽车(US:XPEV)

视觉语言模型

视觉语言模型

百度视觉技术部多模态感知与理解招聘（社招/校招/实习）

自动驾驶之心· 2025-09-03 23:33

百度视频理解算法岗位招聘 - 招聘类型包括校招、社招和实习（可转正）工作地点为北京或深圳 [2] - 负责文心一言在视频理解方向的SOTA算法研发聚焦视频问答、视频描述/摘要生成、时序行为定位、视频主题检测等核心任务 [2] - 要求计算机/人工智能相关领域硕士或博士学历在顶级会议（CVPR/ICCV等）发表论文者优先 [4][5] 团队优势与福利 - 团队处于快速扩张期校招、社招、实习岗位Headcount充足 [6] - 提供大牛导师一对一指导深度参与文心大模型项目 [6] - 福利包含免费水果、健身房及有竞争力的薪资 [6] AutoRobo求职社区资源 - 社区专注自动驾驶/机器人/具身智能/大模型领域已有近1000名成员涵盖智元机器人、地平线、理想汽车等企业员工及2024/2025届校招者 [9] - 每日更新算法/开发/产品岗位招聘信息包含校招、社招、实习等类型 [10] - 提供行业研报如《世界机器人报告》《中国人形机器人发展蓝皮书》等覆盖技术路线与市场前景分析 [19] 专业面试资源库 - 汇总自动驾驶领域专项问题集包括毫米波视觉融合、BEV感知、多传感器标定等10个核心模块的"一百问"专题 [14] - 包含具身智能方向Nerf应用、轨迹预测、Occupancy感知等6个技术方向的面试题库 [15][18] - 整理多家企业面经如滴滴算法工程师、英伟达春招、小米汽车算法岗等7类实战案例 [21] 职业发展支持服务 - 提供谈薪技巧指导包含HR面常见问题汇总与薪资谈判关键回答 [23][25] - 分享转行自动驾驶行业经验面试官建议及算法岗基础技能树构建方法 [25] - 提供专业书籍资源与简历优化服务支持C++、产品经理等岗位面试准备 [24]

大语言模型

视觉语言模型

多模态学习

Artificial Intelligence

大语言模型

视觉语言模型

多模态学习

Artificial Intelligence

苹果FastVLM视觉语言模型开放试用：视频字幕生成速度可提升85倍

环球网资讯· 2025-09-02 04:07

公司技术发布 - 苹果发布视觉语言模型FastVLM 并已在Hugging Face平台开放访问 [1] - 模型提供近乎即时的高分辨率图像处理能力 [2] - 视频字幕生成速度提高85倍 [2] - 模型体积比同类产品小3倍以上 [2] 技术性能表现 - 用户可在浏览器内加载轻量级FastVLM-0.5B版本 [2] - 在16GB M2 Pro MacBook Pro设备上加载耗时数分钟 [2] - 加载完成后可准确识别用户外貌房间环境及周边物体 [2] 技术应用优势 - 模型在浏览器本地运行确保数据不离开设备 [2] - 支持完全离线运行模式 [2] - 轻便性与低延迟特性特别适合可穿戴设备应用场景 [2] - 在辅助技术领域展现显著应用潜力 [2]

苹果(US:AAPL)

视觉语言模型

视觉语言模型

告别高耗时！上交Prune2Drive：自动驾驶VLM裁剪利器，加速6倍性能保持

自动驾驶之心· 2025-08-28 23:32

研究背景与挑战 - 视觉语言模型（VLMs）为自动驾驶提供统一的感知、推理与决策框架，通过联合建模视觉输入与自然语言指令实现可解释性更强的场景理解，端到端设计可缓解传统模块化系统的误差传播问题 [2] - VLMs在真实驾驶场景部署面临核心障碍：多视图高分辨率图像带来巨大计算开销，自动驾驶系统通常采用6个同步相机实现全环境感知，这些图像经视觉编码器会生成大量视觉token，而Transformer架构的自注意力机制存在二次复杂度，视觉token与文本token拼接后会显著增加推理延迟与内存消耗，难以满足实时性要求 [3] - 现有token修剪方法存在三大局限：仅针对单张图像设计忽略多视图场景下的空间语义多样性与视图间冗余；多依赖特定层注意力权重选token与Flash Attention等高效注意力实现不兼容；未考虑不同相机视图对驾驶决策的贡献差异采用均匀修剪或手工设定比例无法实现全局最优 [4] Prune2Drive框架核心设计 - 提出Token-wise Farthest Point Sampling（T-FPS）机制，受点云处理中最远点采样启发，核心目标是最大化多视图token的语义与空间覆盖度而非仅依赖单个token显著性 [6] - T-FPS采用余弦距离衡量token间语义相似性避免因嵌入空间尺度差异导致的误选，每次新增token时选择与已选token集合语义距离最大的token，确保保留非冗余且语义丰富的信息 [7] - 设计视图自适应修剪控制器，将视图专属修剪比例转化为优化问题，以任务性能最大化为目标同时约束总修剪量保证效率，优化目标含奖励项通过语言相似度衡量VLM输出与真值任务匹配度，惩罚项为所有视图修剪比例总和反映计算开销 [11][12][13] 实验设计与结果 - 实验针对两大自动驾驶多视图VLM基准数据集DriveLM和DriveLMM-o1，验证Prune2Drive性能保留与效率提升能力，对比基线包括FastV、SparseVLM、DART、PACT等主流无重训token修剪方法 [16] - 在DriveLM数据集上修剪75%（保留180 token/图）时准确率达0.80（原模型0.81），BLEU-4达0.60高于所有基线，Match评分34.0甚至超过原模型33.9，平均得分58.3仅比原模型低0.8；修剪90%（保留72 token/图）时平均得分57.4比FastV高3.3比PACT高0.6 [20] - 在DriveLMM-o1数据集上修剪90%（保留25 token/图）时风险评估准确率达68.34比PACT高1.33，场景感知与目标理解达69.86比FastV高3.43，整体推理得分68.3比所有基线高1-3分 [21][22] - 效率提升显著：在保留10%token场景下，DriveMM上预填充阶段加速6.40倍，解码阶段加速1.09倍，FLOPs仅为原模型13.4%；DriveLMM-o1上预填充阶段加速2.64倍，解码阶段加速1.04倍，FLOPs为原模型20.3% [24][25] 消融实验与关键发现 - 距离度量中余弦距离表现最优，DriveLMM-o1整体得分达68.3；若改用选最近token策略性能暴跌至63.0，证明冗余token剔除对性能的关键作用；l1和l2距离性能稍差说明余弦距离更适配token嵌入空间的语义相似性衡量 [26][27] - 优化策略中TPE效果最好，DriveLM平均得分57.4；GridSearch和Evolutionary仅轻微落后分别得57.2和57.1，证明框架对优化策略鲁棒性 [27] - 定性对比显示FastV存在位置偏差因依赖注意力权重而过多保留后视图token漏掉前视图关键车辆；DART均匀修剪各视图未考虑视图重要性导致后右视图关键障碍物丢失；Prune2Drive通过视图自适应比例和T-FPS精准保留前视图白色车、黑色车及后右视图黑色车 [31] 核心优势总结 - 即插即用无需重训VLM，不依赖注意力图，兼容Flash Attention等高效实现 [31] - 多视图适配首次考虑自动驾驶多视图的空间语义多样性与视图贡献差异 [31] - 性能-效率平衡极端修剪保留10%token下仅降3-6%性能，同时实现6.4倍加速与86%以上FLOPs降低 [31]

视觉语言模型

Prune2Drive框架

视觉语言模型（VLMs）

视觉语言模型

Prune2Drive框架

视觉语言模型（VLMs）

真实场景也能批量造「险」！VLM+扩散模型打造极限测试

具身智能之心· 2025-08-26 00:03

自动驾驶系统测试现状 - 懂车帝测试显示目前量产自动驾驶系统的NOA功能在黑夜施工工地、高速公路前方车辆事故及障碍物后突然驶出车辆等高危场景中均无法完全避免事故[2] - 此类安全关键场景在真实道路中发生率低但潜在危害大可能导致严重交通事故[3] - 提升系统可靠性需在多样化高风险场景中进行广泛测试但现实采集难度极高[4][5] 仿真测试技术挑战 - 现有模拟器画面真实度不足难以直接用于真实域下端到端系统的极限测试[6] - 安全关键车辆选择依赖简单启发式规则（如选择最近车辆）缺乏场景关系理解易导致选错目标车辆[9] - 多视角视频生成模型因训练数据缺乏极端场景在碰撞或近距离互动时生成质量显著下降[9] SafeMVDrive技术创新 - 首创面向真实域的多视角安全关键驾驶视频生成框架结合VLM关键车辆选择器与两阶段轨迹生成[7] - 采用GRPO微调视觉语言模型从多视角画面推理交通关系精准识别对抗车辆[10] - 双阶段轨迹生成：先生成符合物理规律的碰撞轨迹再转化为接近碰撞但成功规避的轨迹[10][22] - 通过三类损失函数（对抗损失/无碰损失/在路损失）确保轨迹合理性与威胁性[22] 系统性能表现 - 碰撞率指标显著优于基线：Sample-level CR达0.097（Origin方法仅0.001） Scene-level CR达0.207（Origin仅0.004）[29] - 视频真实感指标FID为20.626 远优于Naive方法的23.346 更接近真实视频质量[29] - VLM车辆选择器精准度超传统方法：F1-score达0.675（最近车辆法仅0.654 基于规则法仅0.600）[33] - 支持生成加塞/急刹/后方突然加速等危险行为并呈现自车规避动作[12] 技术实现路径 - 采用UniMLVG作为骨干网络支持显式控制车辆运动轨迹并保持长时视频稳定[26] - 通过自回归滚动生成方式将规避轨迹编码为逐帧控制信号（3D边界框/高清地图/相机参数）[26] - 首阶段碰撞轨迹模拟通过test-time loss guidance引导车辆发生有效碰撞[22] - 次阶段仅更新自车轨迹以无碰损失和在路损失引导实现自然规避[22] 行业应用价值 - 实现高保真多视角安全关键视频批量生成显著提升极端场景覆盖率[11][28] - 为端到端自动驾驶系统提供兼具真实性及危险性的极限压测数据[11][30] - 研究成果由浙江大学与哈工大（深圳）联合发布获论文/代码/数据集全方位开源支持[7][9]

视觉语言模型

NOA辅助驾驶功能

视觉语言模型

NOA辅助驾驶功能

均普智能发展逐步多元化具身智能机器人业务实现突破式进展

证券日报网· 2025-08-23 04:13

财务表现 - 2025年上半年营业收入10.32亿元[1] - 期末在手订单规模34.64亿元[1] - 新接订单11.12亿元，同比增长20.22%[1] 业务结构 - 非汽车业务订单达4.45亿元，占总新接订单约40%[1] - 医疗健康领域中标连续血糖监测传感器生产线项目，年设计产能1500万件[1] - 获得胰岛素注射笔及自动注射器全自动生产线项目[1] 技术创新与突破 - 自主研发多刃体智能装配工艺应用于国际知名品牌剃须刀刀片组装订单[1] - 获得高端电动牙刷驱动单元柔性装配线订单[1] - 人形机器人贾维斯2.0智能系统完成多模态升级，接入大语言模型和视觉语言模型[2] 战略合作与产能建设 - 与国内头部医疗企业达成战略合作开发胰岛素注射笔平台化凸轮技术[1] - 与智元机器人合资公司首条本体量产中试线投产[2] - 合资公司接获超2800万元人形机器人生产销售订单，三款具身智能机器人同步生产[2] 研发与教育合作 - 贾维斯轻量化1.0版本交付清华大学等高校用于科研教学[2]

均普智能(SH:688306)

大语言模型

视觉语言模型

机器人制造

医疗设备制造

高端消费品制造

大语言模型

视觉语言模型

机器人制造

医疗设备制造

高端消费品制造

又帮到了一位同学拿到了VLA算法岗......

具身智能之心· 2025-08-22 16:03

具身智能行业发展趋势 - 具身智能行业处于早期发展阶段对标自动驾驶行业2017-2018年阶段仍存在窗口期机会 [83] - 技术发展重点从传统SLAM转向大模型和端到端方案传统机器人从业者与具身感知技术派系分化明显 [83] - 行业平均薪资水平较高初创公司1-2年工作经验人员总包可达70-80万但稳定性较差 [83] 技术发展重点 - 视觉语言模型(VLA)和视觉语言动作模型(VLA)成为技术热点应用涵盖机器人抓取与规划任务 [2][58] - 强化学习与VLA结合(VLA+RL)成为重要技术方向 [40][42] - 多模态大模型技术快速发展涵盖理解与生成两大方向包括Image+Text到Text等多种模态组合 [52][54] - 仿真技术(sim2real)和数据采集成为关键环节存在real2sim2real等解决方案 [2][66] 人才需求与就业情况 - 企业招聘偏好有实习经验的候选人机器人创业公司普遍要求实习经历 [81] - 自动驾驶领域人才向具身智能领域迁移技术栈通用性较高 [80][83] - 算法岗位需求旺盛 VLA算法岗位薪资较高某案例显示强化学习岗位薪资达(N+6000)*15水平 [1][81] 技术社区生态 - 具身智能之心知识星球为国内首个具身全栈技术社区成员近2000人目标2年内达到近万人规模 [1][16] - 社区汇聚40+开源项目 60+数据集 30+技术路线覆盖感知、交互、导航等全方位技术领域 [16] - 社区成员来自斯坦福大学、清华大学等顶尖高校和智元机器人、优必选等头部企业 [16] - 建立企业内推机制与多家具身公司合作提供岗位对接服务 [10] 技术资源体系 - 汇总国内外40+高校实验室资源提供读研、申博参考 [18][20] - 汇总国内外具身机器人公司涵盖教育、工业、医疗等多个应用方向 [21] - 整理机器人相关书籍包括导航、动力学、运动学等基础学习资料 [26] - 汇集零部件制造厂商信息涵盖芯片、激光雷达、相机等核心部件 [28] 技术应用方向 - 视觉语言导航成为自动驾驶与机器人的重要应用领域 [48] - 触觉感知为前沿应用方向包括传感器应用和多模态算法集成 [50] - 机械臂技术涵盖抓取、位姿估计和策略学习等多个环节 [69] - 双足与四足机器人技术发展迅速提供从零搭建机器人的完整方案 [71] 学习与培训体系 - 为入门者提供完整技术栈和学习路线 [11] - 为从业者提供产业体系和项目方案 [13] - 社区提供问答交流、直播分享等多元学习方式 [76][78] - 建立专家答疑机制数十位产业界和工业界大佬提供技术支持 [2]

机器人仿真

视觉语言模型

机器人仿真

视觉语言模型

VLA方向的论文还不知怎么下手？有的同学已经CCF-A了......

自动驾驶之心· 2025-08-22 12:00

理想VLA司机大模型技术突破 - 多模态输入提升语义理解能力，结合动态目标、静态元素、导航地图和空间理解实现综合决策 [1] - 思维链推理技术增强模型逻辑能力，轨迹规划更接近人类驾驶直觉 [1][3] - 采用RAG技术强化记忆能力，整合视觉语言模型与端到端自动驾驶框架 [3][5] 自动驾驶技术发展趋势 - VLA成为学术界和工业界核心方向，涵盖端到端学习、轨迹预测和强化学习等技术栈 [5] - 传统BEV感知和Occupancy技术研究热度下降，顶会论文方向转向大模型应用 [5] - 工业界持续优化传统感知方案，学术界聚焦VLA子领域创新 [5] VLA科研培训课程体系 - 课程周期为14周，包含先导课、传统端到端自动驾驶介绍（4周）、VLA端到端自动驾驶介绍（4周）和论文写作指导 [9][11][30] - 提供模块化VLA模型（Week8-9）、统一端到端模型（Week10-11）和推理增强模型（Week12）三大研究方向 [30][35] - 每周课时1-1.5小时，覆盖算法原理、代码实践和论文写作方法论 [30][34] 课程资源与支持 - 提供公开数据集包括nuScenes、Waymo和Argoverse，支持感知任务和VLA任务开发 [27] - Baseline代码库涵盖模仿学习（VAD、UniAD）、扩散模型（DiffusionDrive、OccNet）和VLA模型（OpenDriveVLA、Senna） [26] - 必读论文包括Senna（2410.22313）、SimLingo（2503.09594）和OpenDriveVLA（2503.23463）等5篇核心文献 [28][29] 学员成果与培养目标 - 产出论文初稿、结业证书和推荐信（根据优秀程度） [24][34] - 获得定制化研究idea（每位学员1个）、baseline代码调试能力和数据集应用经验 [20][34] - 掌握创新点挖掘、实验方法设计和投稿策略等全流程科研能力 [6][20] 技术实施要求 - 硬件最低要求4张4090显卡，推荐8张4090或云服务器租赁方案 [21] - 需掌握Python编程、PyTorch框架和Linux开发环境，具备深度学习基础 [21] - 每周课后需投入1-2小时自学，完成作业和论文阅读任务 [19][23]

端到端自动驾驶

视觉语言模型

理想VLA司机大模型

端到端自动驾驶

视觉语言模型

理想VLA司机大模型

当一家成立11年的AI公司投身具身智能战场

36氪· 2025-08-19 10:12

公司战略转型 - 宇泛智能宣布全面拥抱具身智能时代推出空间认知大模型Manas和四足机器狗两款产品并采取"智能+硬件"全栈自研战略 [1][3][5] - 公司具备11年视觉AI技术积累拥有软硬件协同开发经验曾基于端侧芯片性能重构算法实现端到端性能优化 [1][20] - 创始团队2014年就以机器人Demo获得天使投资现技术条件成熟后重启智能机器人梦想 [10] 产品技术布局 - 空间认知大模型Manas为多模态语言模型在VSI-Bench和SQA3D数据集上取得SOTA成绩专门强化空间理解能力 [3][14] - 四足机器狗完全自研机械结构电机和运动控制平台目前已迭代至第三代产品 [4][17] - 技术演进路径包括：自研多模态推理架构UUMM 创新图像分割集成方案HiMTok 以及强化学习提升多模态输出能力 [16] 行业发展趋势 - 2024年被称为具身智能元年机器视觉与多模态大模型融合推动机器人向具备自主决策能力进化 [1][6] - 视觉能力成为机器理解物理世界的核心入口计算机视觉派系成为具身智能领域重要力量 [7][10] - 行业技术路线尚未收敛存在VLA模型大小脑架构和世界模型等多种方案 [11] 竞争优势 - 具备软硬件协同开发能力曾通过算法整形计算和硬件适配实现端到端优化 [20] - 拥有11年智能硬件落地经验积累丰富渠道供应链和量产能力 [23] - 全栈自研战略确保大脑小脑与本体之间的系统配合提升产品质量控制效果 [18] 技术突破方向 - 多模态视觉-语言模型需实现跨模态对齐将像素 3D结构和文字映射到同一向量空间 [11] - 机器人大脑需融合语言模型与空间感知能力同时具备语义理解和空间推理功能 [13] - 宇泛Manas模型在目标计数绝对/相对距离物理尺寸等空间理解基准测试中表现优异 [17]

多模态推理

视觉语言模型

空间认知大模型Manas

四足机器狗

多模态推理

视觉语言模型

空间认知大模型Manas

四足机器狗

在复杂真实场景中评估 π0 这类通用 policy 的性能和边界

自动驾驶之心· 2025-08-17 03:23

核心观点 - PI0-FAST-DROID是一种通用机器人策略模型，能够在复杂真实场景中执行多样化任务，展现出强大的视觉-语言理解能力和适应性 [4][13][16] - 模型在透明物体识别、铰接物体操作等任务中表现优异，但存在空间推理不足、动作冻结等局限性 [20][48][39] - 通过300多次试验验证，模型平均任务完成度为42%，对提示工程和摄像头角度高度敏感 [77][12][61] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器，仅依赖未校准单目RGB输入(224x224像素) [19] - 基于FAST+动作标记器，预训练数据包含100万条真实机器人轨迹，在DROID数据集上微调 [79] - 硬件配置：Franka Panda机械臂+Robotiq夹持器，ZED 2立体相机+ZED Mini腕部摄像头 [79] 性能表现优势领域 - 透明物体操作：成功抓取透明瓶子并完成放置任务，无需特殊重建技术 [20] - 复杂背景识别：在彩色棋盘背景中准确定位黄色鱼形物体 [21] - 人体干扰鲁棒性：侧视摄像头捕捉移动人体时仍能专注任务 [25] 主要局限 - 空间推理缺陷：无法精确判断容器高度导致放置失败率高达50% [48][50] - 动作冻结：30%试验因语义模糊或解码错误导致任务中断 [39][43] - 触觉反馈缺失：对精细物体施力不当，塑料瓶抓取失败率63% [58] 任务分类表现 - 拾取放置：平均完成度53.5%，透明物体成功率76% [82][20] - 铰接物体：抽屉操作成功率63%，但咖啡机操作仅8%进度 [91][111] - 人机交互：物体传递成功率62.5%，但握手任务完全失败 [109][115] - 织物处理：T恤折叠进度35%，报纸折叠成功率62% [99][107] 影响因素 - 提示工程：指令措辞变化可使成功率从0%提升至100% [61] - 摄像头依赖：腕部摄像头遮挡直接导致0%成功率 [67] - 数据偏差：无指令时默认抓取出现频率16.67%的记号笔 [63] 行业意义 - 首次实现开箱即用的跨场景策略部署，突破传统策略环境适应性瓶颈 [4][77] - 验证了视觉语言模型在具身智能领域的迁移潜力，为通用机器人开发提供新范式 [19][28] - 当前20-50%的任务成功率虽不足，但标志机器人技术从专用系统向通用系统的范式转变 [77]

通用机器人

视觉语言模型

PI0-FAST-DROID模型

通用机器人

视觉语言模型

PI0-FAST-DROID模型