视觉语言模型

搜索文档
当一家成立11年的AI公司投身具身智能战场
36氪· 2025-08-19 10:12
公司战略转型 - 宇泛智能宣布全面拥抱具身智能时代 推出空间认知大模型Manas和四足机器狗两款产品 并采取"智能+硬件"全栈自研战略 [1][3][5] - 公司具备11年视觉AI技术积累 拥有软硬件协同开发经验 曾基于端侧芯片性能重构算法实现端到端性能优化 [1][20] - 创始团队2014年就以机器人Demo获得天使投资 现技术条件成熟后重启智能机器人梦想 [10] 产品技术布局 - 空间认知大模型Manas为多模态语言模型 在VSI-Bench和SQA3D数据集上取得SOTA成绩 专门强化空间理解能力 [3][14] - 四足机器狗完全自研机械结构 电机和运动控制平台 目前已迭代至第三代产品 [4][17] - 技术演进路径包括:自研多模态推理架构UUMM 创新图像分割集成方案HiMTok 以及强化学习提升多模态输出能力 [16] 行业发展趋势 - 2024年被称为具身智能元年 机器视觉与多模态大模型融合推动机器人向具备自主决策能力进化 [1][6] - 视觉能力成为机器理解物理世界的核心入口 计算机视觉派系成为具身智能领域重要力量 [7][10] - 行业技术路线尚未收敛 存在VLA模型 大小脑架构和世界模型等多种方案 [11] 竞争优势 - 具备软硬件协同开发能力 曾通过算法整形计算和硬件适配实现端到端优化 [20] - 拥有11年智能硬件落地经验 积累丰富渠道 供应链和量产能力 [23] - 全栈自研战略确保大脑 小脑与本体之间的系统配合 提升产品质量控制效果 [18] 技术突破方向 - 多模态视觉-语言模型需实现跨模态对齐 将像素 3D结构和文字映射到同一向量空间 [11] - 机器人大脑需融合语言模型与空间感知能力 同时具备语义理解和空间推理功能 [13] - 宇泛Manas模型在目标计数 绝对/相对距离 物理尺寸等空间理解基准测试中表现优异 [17]
在复杂真实场景中评估 π0 这类通用 policy 的性能和边界
自动驾驶之心· 2025-08-17 03:23
核心观点 - PI0-FAST-DROID是一种通用机器人策略模型,能够在复杂真实场景中执行多样化任务,展现出强大的视觉-语言理解能力和适应性 [4][13][16] - 模型在透明物体识别、铰接物体操作等任务中表现优异,但存在空间推理不足、动作冻结等局限性 [20][48][39] - 通过300多次试验验证,模型平均任务完成度为42%,对提示工程和摄像头角度高度敏感 [77][12][61] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器,仅依赖未校准单目RGB输入(224x224像素) [19] - 基于FAST+动作标记器,预训练数据包含100万条真实机器人轨迹,在DROID数据集上微调 [79] - 硬件配置:Franka Panda机械臂+Robotiq夹持器,ZED 2立体相机+ZED Mini腕部摄像头 [79] 性能表现 优势领域 - 透明物体操作:成功抓取透明瓶子并完成放置任务,无需特殊重建技术 [20] - 复杂背景识别:在彩色棋盘背景中准确定位黄色鱼形物体 [21] - 人体干扰鲁棒性:侧视摄像头捕捉移动人体时仍能专注任务 [25] 主要局限 - 空间推理缺陷:无法精确判断容器高度导致放置失败率高达50% [48][50] - 动作冻结:30%试验因语义模糊或解码错误导致任务中断 [39][43] - 触觉反馈缺失:对精细物体施力不当,塑料瓶抓取失败率63% [58] 任务分类表现 - 拾取放置:平均完成度53.5%,透明物体成功率76% [82][20] - 铰接物体:抽屉操作成功率63%,但咖啡机操作仅8%进度 [91][111] - 人机交互:物体传递成功率62.5%,但握手任务完全失败 [109][115] - 织物处理:T恤折叠进度35%,报纸折叠成功率62% [99][107] 影响因素 - 提示工程:指令措辞变化可使成功率从0%提升至100% [61] - 摄像头依赖:腕部摄像头遮挡直接导致0%成功率 [67] - 数据偏差:无指令时默认抓取出现频率16.67%的记号笔 [63] 行业意义 - 首次实现开箱即用的跨场景策略部署,突破传统策略环境适应性瓶颈 [4][77] - 验证了视觉语言模型在具身智能领域的迁移潜力,为通用机器人开发提供新范式 [19][28] - 当前20-50%的任务成功率虽不足,但标志机器人技术从专用系统向通用系统的范式转变 [77]
VLA与自动驾驶科研论文辅导第二期来啦~
自动驾驶之心· 2025-08-16 12:00
理想VLA司机大模型技术进展 - 核心能力提升体现在三方面:更懂语义(多模态输入)、更擅长推理(思维链)、更接近人类驾驶直觉(轨迹规划)[1] - 四大核心能力展示:空间理解能力、思维能力、沟通与记忆能力(含RAG技术)、行为能力[1][3] - 技术演进路径:从VLM+E2E发展为涵盖端到端、轨迹预测、视觉语言模型、强化学习的综合技术栈[5] 自动驾驶技术研究趋势 - 学术界焦点转移:传统BEV感知、车道线检测等研究减少,大模型与VLA成为顶会主流方向[5] - 工业界动态:传统感知/规划方案仍在优化,但技术迭代明显向VLA倾斜[5] - 典型技术融合案例:思维链输出结合动态目标、静态元素、导航地图等多维度数据[3] VLA论文指导课程体系 课程架构 - 周期设置:12周在线科研+2周论文指导+10周维护期[14][34] - 核心模块:模块化VLA模型(Week8-9)、统一端到端模型(Week10-11)、推理增强模型(Week12)[9][11][35][37] - 方法论覆盖:选题(Week3)、传统端到端技术(Week4-5)、VLA端到端技术(Week6-7)[9][11][30] 教学资源 - 代码库支持:提供基于模仿学习、扩散模型、VLA的6个开源项目基准代码[26] - 数据集配置:采用nuScenes/Waymo/Argoverse等公开数据集,VLA任务结合大语言模型生成数据[27] - 必读论文清单:包含5篇顶会论文如《Senna》《OpenDriveVLA》等[28][29] 学员培养目标 - 能力输出:完成论文初稿、掌握算法对比分析方法、获得定制化研究idea[20][34] - 技术深化路径:从理论认知(Week1-2)到代码实践(Week6-8)最终形成完整论文(Week13-14)[30][31] - 硬件门槛:建议配置8张NVIDIA 4090显卡,最低要求4张[21]
全球工业机器人市场遇冷,中国逆势增长成最大亮点
第一财经· 2025-08-10 01:23
全球工业机器人市场概况 - 2024年全球工业机器人新装机量下降3%至52 3万台 亚欧美三大市场集体遇冷 亚洲下滑2% 欧洲萎缩6% 美洲跌幅达9% [3] - 主要客户行业分化明显 电子行业略有增长 汽车行业出现较大下滑 金属和机械行业保持全球第三大客户地位 塑料 化学品 食品行业均处于增长期 [3] - 区域分化显著 中国市场逆势增长5%至29万台 全球份额占比从51%升至54% 通用工业领域装机量占比从38%跃升至53% 电子行业份额从45%骤降至28% [3] 中国机器人产业表现 - 2024年中国工业机器人市场销量达30 2万套 连续12年保持全球最大市场地位 工业机器人产量从2015年3 3万套增长至2024年55 6万套 服务机器人产量1051 9万套 同比增长34 3% [4] - 中国机器人专利申请量占全球总量2/3 机器人密度达470台/万人 首次超越日本和德国跃居全球第三 仅次于韩国(1012台/万人)和新加坡(770台/万人) [4][6] 其他主要市场动态 - 日本工业机器人装机量下滑7%至4 3万台 仅汽车行业同比增长11% 美国市场萎缩9% 汽车业贡献近40%装机量 欧洲下降6%至8 6万台 创历史第二高位 塑料化工和食品行业成为新增长极 [6] - 德国作为欧洲最大市场装机量下降5%至2 7万台 但机械与电子领域展现韧性 [6] 行业未来趋势 - 亚洲市场2025年一季度订单呈个位数增长 电子业温和复苏 中国将持续引领全球机器人需求 [6] - 技术发展方向聚焦人工智能融合 数字孪生技术突破训练瓶颈 视觉语言模型提升人机交互能力 AI编程重构生产流程 [6] - 人形机器人领域商业化关键在安全性与场景适配 物流与物料搬运或成早期落地领域 建筑业 实验室自动化 仓储物流等行业加速机器人渗透 [6]
全球工业机器人市场遇冷 中国逆势增长成最大亮点
第一财经· 2025-08-09 07:17
全球工业机器人市场概况 - 2024年全球工业机器人新装机量下降3%至52.3万台[1] - 亚欧美三大市场集体遇冷:亚洲下滑2% 欧洲萎缩6% 美洲跌幅达9%[1] - 中国市场逆势增长5%至29万台 全球份额从51%升至54%[1] - 中国连续12年保持全球最大工业机器人市场 2024年销量达30.2万套[2] 行业需求结构变化 - 电子行业略有增长 汽车行业出现较大下滑[1] - 金属和机械行业保持全球第三大客户地位[1] - 塑料、化学品、食品行业处于增长期[1] - 中国市场通用工业领域装机量占比从38%跃升至53% 电子行业份额从45%骤降至28%[1] 区域市场表现 - 日本工业机器人装机量下滑7%至4.3万台 仅汽车行业同比增长11%[4] - 美国市场萎缩9% 汽车业贡献近40%装机量[4] - 欧洲下降6%至8.6万台 创历史第二高位 塑料化工和食品行业成新增长极[4] - 德国装机量下降5%至2.7万台 机械与电子领域展现韧性[4] 机器人密度与技术创新 - 韩国(1012台/万人)新加坡(770台/万人)稳居机器人密度前两位[4] - 中国以470台/万人首超日本和德国跃居第三[4] - 行业聚焦人工智能融合 数字孪生技术突破训练瓶颈[4] - 视觉语言模型提升人机交互能力 AI编程重构生产流程[4] 中国机器人产业发展 - 工业机器人产量从2015年3.3万套增长至2024年55.6万套[2] - 服务机器人产量达1051.9万套 同比增长34.3%[2] - 中国专利申请量占全球机器人专利总量的2/3[2] 行业未来展望 - 亚洲2025年一季度订单呈个位数增长 电子业温和复苏[4] - 中国将持续引领全球机器人需求[4] - 人形机器人商业化关键在安全性与场景适配 物流与物料搬运或成早期落地领域[4] - 建筑业、实验室自动化、仓储物流等行业加速机器人渗透[4]
全球工业机器人市场遇冷,中国逆势增长成最大亮点
第一财经· 2025-08-09 07:13
全球工业机器人市场概况 - 2024年全球工业机器人新装机量下降3%至52.3万台,亚欧美三大市场集体遇冷:亚洲下滑2%,欧洲萎缩6%,美洲跌幅达9% [1] - 主要客户行业中,电子行业略有增长,汽车行业出现较大下滑,金属和机械行业为全球第三大客户,塑料、化学品、食品行业处于增长期 [1] 中国市场表现 - 中国2024年工业机器人新装机量逆势增长5%至29万台,全球份额占比从51%升至54% [1] - 结构性变化显著:通用工业领域装机量占比从38%跃升至53%,电子行业份额从45%骤降至28% [1] - 中国连续12年保持全球最大工业机器人市场,2024年销量达30.2万套 [2] - 中国机器人专利申请量占全球总量的2/3 [2] - 中国工业机器人产量从2015年3.3万套增长至2024年55.6万套,服务机器人产量1051.9万套(同比增长34.3%) [2] 其他区域市场对比 - 日本工业机器人装机量下滑7%至4.3万台,仅汽车行业同比增长11% [4] - 美国市场萎缩9%,汽车业贡献近40%装机量 [4] - 欧洲下降6%至8.6万台(历史第二高位),塑料化工和食品行业为新增点,德国装机量下降5%至2.7万台但机械与电子领域展现韧性 [4] 自动化程度与行业趋势 - 机器人密度排名:韩国(1012台/万人)、新加坡(770台/万人)、中国(470台/万人首超日德) [4] - 亚洲2025年一季度订单呈个位数增长,电子业温和复苏,中国将持续引领全球需求 [4] - 行业技术趋势:AI融合、数字孪生突破训练瓶颈、视觉语言模型提升交互能力、AI编程重构生产流程 [4] - 人形机器人商业化关键在安全性与场景适配,物流与物料搬运或成早期落地领域,建筑业、实验室自动化、仓储物流加速渗透 [4]
性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV'25)
自动驾驶之心· 2025-08-03 23:32
核心观点 - 上海科技大学与香港中文大学联合提出的ReAL-AD框架通过模拟人类"策略-战术-操作"三层级联推理机制,显著提升端到端自动驾驶的决策能力 [3] - 该框架引入视觉-语言模型(VLM)作为"副驾驶",将环境感知转化为结构化推理指令,实现从语义策略到可执行轨迹的分层解码 [3][5] - 在nuScenes和Bench2Drive数据集测试中,ReAL-AD的L2误差和碰撞率比基线模型降低超30%,驾驶评分提升11% [36][37][39] 技术架构 策略推理注入器 - 采用VLM生成驾驶策略文本(如"看到足球→可能有小孩→需减速避让"),通过预训练语言编码器映射至语义空间 [7][11] - 设计轻量级adaptor模块弥合语义空间与视觉特征的差距,使用余弦相似度损失确保策略语义与规划动态一致 [12] 战术推理整合器 - 将抽象策略转化为结构化指令,包括方向、紧急、车道、速度四类可执行命令 [15][17] - 通过正则表达式解析VLM输出,并采用类别特定编码器生成反应层(方向/紧急)与监管层(车道/速度)指令 [16][19] 分层轨迹解码器 - 第一层解码器基于反应级指令生成粗略运动模式(潜码z^ε),第二层融合监管级指令输出精细轨迹 [22][25] - 采用双潜变量流处理时间维度,粗粒度流预测宏观运动模式,细粒度流生成精确航点序列 [27] 性能表现 开环评估 - 在nuScenes数据集实现0.48米平均L2误差(行业基线0.72米)和0.15%碰撞率(基线0.22%) [36][38] - Bench2Drive数据集上达到0.84米L2误差,较VAD基线提升10.6% [39] 闭环评估 - 驾驶评分提升至41.17(基线39.42),成功率提高1.36个百分点 [39] - 使用Qwen-VL模型时保持0.87米L2误差,验证框架兼容性 [39] 技术创新 - 首创策略-战术双阶段指令生成机制,使VLM输出可直接指导轨迹规划 [14][19] - 分层变分解码器实现人类式"先直觉反应后精细调整"的决策过程,较传统MLP解码器降低7%轨迹误差 [25][41] - 复合损失函数整合策略语义对齐、轨迹编码监督和分层KL散度约束,优化端到端训练效果 [29][31][33]
自驾一边是大量岗位,一遍是招不到人,太魔幻了......
自动驾驶之心· 2025-07-26 02:39
自动驾驶行业现状 - 自动驾驶行业进入理性发展阶段,资本更加谨慎,公司首要目标是"活下去"和"跑通商业模式"[2] - 行业预计在未来1-3年将经历深度调整和洗牌[2] - 技术栈虽完备但距离大规模商业化落地仍有差距,实验室效果与真实路况表现存在工程鸿沟[3] 人才供需矛盾 - 行业出现"岗位虚位以待但人才难觅"现象,企业对顶尖人才和高度适配人才需求达到前所未有的高度[2][4] - 3-5年经验岗位薪资可达百万级别[2] - 求职者需具备过硬技术能力且适配前沿研究和量产方向[3] 技术社区发展 - 自动驾驶之心知识星球已成为国内最大自驾技术社区,拥有4000名成员和100+行业专家[7][9] - 社区提供30+自动驾驶技术学习路线,覆盖感知、定位、规划控制等几乎所有子方向[9][69] - 与数十家自动驾驶公司建立内推渠道,简历可直接送达[10][67] 前沿技术方向 - 视觉大语言模型(VLM)成为研究热点,涉及预训练、迁移学习、知识蒸馏等多个技术领域[15][16][17] - 世界模型在自动驾驶中的应用日益广泛,如HERMES、DriveWorld等模型实现3D场景理解和生成[34][36] - 扩散模型在自动驾驶视频生成、数据增强等方面发挥重要作用[37][43] - 端到端自动驾驶成为重要研究方向,涉及感知、预测、规划等多个环节[31][49][52] 技术应用与数据集 - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等多个任务[25] - 语言增强的自动驾驶系统数据集快速发展,支持自然语言导航和空间推理等高级功能[26] - 智能交通领域应用包括车辆检索、视觉问答等实际场景[27] - 自动驾驶感知技术应用于行人检测、3D目标检测等具体任务[28] 行业挑战与解决方案 - 远距离Occupancy检测效果不佳,可能由激光雷达稀疏和监督真值空洞导致[100][101] - 地下车库自动泊车通过视觉传感器和建图技术实现定位[96] - 3D目标检测研究趋于成熟,建议从BEV感知入手学习前沿算法[96]
ICCV‘25 | 华科提出HERMES:首个统一驾驶世界模型!
自动驾驶之心· 2025-07-25 10:47
核心观点 - 提出首个统一驾驶世界模型HERMES,实现3D场景理解与未来场景生成的协同优化 [1][3] - 通过BEV表示整合多视图空间信息,引入"世界查询"机制桥接理解与生成任务 [3][8] - 在nuScenes和OmniDrive-nuScenes数据集上,生成任务误差降低32.4%,理解任务CIDEr指标提升8.0% [4] 技术框架 核心创新 - BEV-based世界分词器:将多视图图像压缩为统一BEV特征,突破LLM的token长度限制并保留空间关系 [5] - 世界查询机制:从BEV特征初始化查询,通过LLM增强后与未来生成模块交互,实现知识注入 [8][15] - 统一模块设计:共享BEV特征与渲染器,通过"当前到未来链接"模块实现理解与生成的深度协同 [15] 关键组件 - **世界分词器**:CLIP图像编码器+BEVFormer处理多视图图像,输出压缩BEV特征 [14] - **渲染器**:基于隐式SDF场的可微分体渲染,通过三线性插值预测射线深度 [11][14] - **LLM处理**:BEV特征投影至语言空间,自回归完成场景描述/VQA等理解任务 [15] 性能表现 定量结果 - 生成任务:3秒内Chamfer距离显著低于4D-Occ和ViDAR [17] - 理解任务:CIDEr指标超过OmniDrive等方法8.0% [17] - 消融实验:世界查询使3秒点云预测误差降低10% [20] 参数优化 - BEV特征尺寸:50×50较25×25在CIDEr和0秒生成任务上分别提升7.3%和10% [23] - 查询初始化:BEV特征最大池化初始化的查询表现最优 [21] 应用场景 - 复杂场景中准确生成未来点云演化(如车辆运动跟踪) [24] - 精准理解场景语义(如识别商业标志物) [24] - 当前局限:复杂转向、遮挡及夜间场景仍有挑战 [24] 行业资源 - 覆盖30+自动驾驶技术栈学习路线(BEV感知、Occupancy、多传感器融合等) [25] - 提供端到端自动驾驶、大模型、仿真测试等专业课程 [28]
从“想得好”到“做得好”有多远?具身大小脑协同之路解密
具身智能之心· 2025-07-23 08:45
具身智能系统架构 - 具身智能系统由"大脑"、"小脑"和"身体"三部分组成,分别对应认知决策、运动控制和物理执行功能 [2] - "大脑"采用大语言模型和视觉语言模型,具备感知、理解、推理和规划能力,是系统的智慧核心 [2] - "小脑"运用运动控制算法和反馈控制系统,实现精准流畅的动作控制,被称为"动作艺术家" [2] - "身体"作为物理载体,负责将认知决策和运动指令转化为实际动作,完成"知行合一" [2] 当前技术挑战 - "大脑"需提升自主推理能力,实现无指令、无地图环境下的实时在线思考与路径规划 [3] - "小脑"需增强适应性,在复杂物理环境中实现类人类的直觉反应和精细操作 [3] - 系统需解决"大脑"与"小脑"的协同问题,目前存在信息传递延迟和动作响应滞后 [3] - 数据采集面临成本高、质量差等挑战,需构建真实多样且可迁移的训练数据集 [3] 行业技术进展 - 北京智源人工智能研究院和智元机器人正在开展具身智能相关研究 [3] - RoboBrain 2.0和RoboOS 2.0等系统展示了最新技术成果 [5] - 对抗性数据收集方法(Human-Collaborative Perturbations)可提升模仿学习效率与鲁棒性 [5] - 相关研究成果已在ArXiv等平台公开发表,涉及机器人操作系统和脑机协同等领域 [7] 未来发展方向 - 行业聚焦于提升具身智能系统的认知能力、运动控制精度和系统协同效率 [4] - 需建立更高效的数据获取与处理体系,解决数据质量与成本问题 [3] - 技术突破将推动具身智能向通用人工智能(AGI)方向发展 [3]