Workflow
多模态融合
icon
搜索文档
乌镇峰会风向标:AI应用竞逐“空间智能”新赛道
21世纪经济报道· 2025-11-06 13:36
会议概况 - 2025年世界互联网大会乌镇峰会及"互联网之光"博览会于11月6日至7日启幕 [1] - 大会主题为"共筑开放合作、安全普惠的数智未来——携手构建网络空间命运共同体" [2] - "互联网之光"博览会以"AI共生、智启未来"为主题,设置两大场馆7个主题展区,汇聚全球600多家企业带来的1000多项人工智能前沿技术产品 [4] 人工智能行业趋势 - 人工智能发展从2023年热议"ChatGPT时刻"、2024年涌现国产大模型,演进至2025年各家大模型已形成体系,应用覆盖各个行业 [3] - "十五五"规划建议提出加快人工智能等数智技术创新,突破基础理论和核心技术,全面实施"人工智能+"行动,全方位赋能千行百业 [3] - 多模态融合成为行业发展趋势,大模型向"视觉、语音、文本等"全模态融合方向演进 [5] - 人工智能正从封闭竞争走向协同创新,开源趋势能加速模型与算法迭代,降低中小企业参与AI生态的门槛 [6][7] 多模态模型与应用落地 - 国内多模态生成模型已进入落地应用阶段,从"会看、会听"迈向"能理解、能创作" [5] - 在医疗健康领域,AI应用可连接血压计、血糖仪等硬件设备,智能解读健康数据并支持异常预警,改变传统家庭健康检测方式 [4] - 在文旅等生活领域,大模型应用继续集成化、垂直化,不同智能体成为人们的智慧管家 [3] 工业AI与空间智能 - 工业场景被普遍预期是具身智能最快落地的场景之一 [7] - 空间智能模型持续赋能制造业智能转型,AI帮助具身智能加快在工厂落地 [3] - 数字孪生进一步融入人工智能技术,推动工业数字化向更高层次的智能制造和虚实融合迈进 [7] - 群核科技展示的SpatialTwin工业AI孪生平台融合数字孪生技术,通过实时渲染与物理仿真技术,能够1:1在数字空间复刻真实工业场景 [8][10] - AI能力在数字孪生中体现在识别、理解和生成三个方面,支持机器人在数字空间模拟真实作业流程,大幅降低试错成本 [11] - 数字孪生是具身时代智慧工厂的必须项,通过孪生世界的无限预演来预测和优化工厂产出 [12] 开源生态发展 - 中国AI大模型技术在开源生态中跃升到更重要位置,例如百灵大模型系列在开源社区受关注,Ling-1T持续位居Hugging Face开源社区模型趋势榜首 [6] - "直通乌镇"全球互联网大赛首次面向开发者办赛,新设开源项目赛道,联合阿里云、华为、腾讯云等7家企业(社区),吸引600余名开发者参赛 [6] 未来竞争核心 - 未来行业竞争的核心不再只是技术壁垒,而是开放生态和持续创新的能力 [12] - 通过开放生态的方式,打造可互联、可协作的工业生态格局,提升运营效率并降低企业成本 [12]
丁宁:大模型是“智能基建” 资本与技术融合重塑AI版图
21世纪经济报道· 2025-11-05 09:36
行业宏观定位 - 当前处于以人工智能和大数据为代表的第四次工业革命,人工智能有望成为未来世界不可或缺的核心技术 [1] - 2022年底ChatGPT的出现标志着人工智能发展的转折点,开启了大模型的产业化竞争 [2] 技术发展趋势 - 大模型发展从盲目追求参数量扩张回归理性,转向结构创新和精细训练 [2] - 模型性能提升遵循“规模法则”,与参数量、算力和数据规模呈幂律关系,但并非线性依赖参数 [2] - 模型从单模态(文本)向图像、语音、代码等多模态融合演进,AI能感知和生成来自不同世界的信息 [2][3] - 主流大模型仍以Transformer架构为基础,训练方式从“预训练+监督微调”向持续学习和参数高效微调演化 [3] - 未来趋势包括多模态融合、大规模与轻量化并行、具身智能、通用人工智能探索以及更前瞻的超级智能概念 [4][5] 产业化应用前景 - 基于高质量预训练模型和参数高效微调的微调大模型可广泛嵌入科研、制造、教育、医疗、金融等领域 [3] - 技术演进使AI从技术突破走向可负担的产业落地,用更少算力实现更快适配 [3] 资本与技术协同 - 大模型快速发展依赖资本投入与产业协同,资本是技术的放大器,技术是资本的倍增器 [4] - 大模型训练前期成本极高,包括算力、数据、算法和人才,需要资本介入才能形成高质量基础模型 [4] 全球竞争格局 - 美国在头部企业、算力中心和生态层面领先 [4] - 中国在人工智能领域的论文数量占全球41%,专利数占比达到69% [4] - 算力是制约行业发展的关键瓶颈,芯片、GPU、系统与模型生态需要配套发展 [4]
丁宁:大模型是“智能基建”,资本与技术融合重塑AI版图
21世纪经济报道· 2025-11-05 09:23
行业宏观定位 - 当前处于以人工智能和大数据为代表的第四次工业革命阶段,人工智能有望成为未来世界不可或缺的核心技术 [1] - 2022年底ChatGPT的出现标志着人工智能发展的转折点,开启了大模型的产业化竞争 [2] - 资本是技术的放大器,技术是资本的倍增器,大模型训练前期成本极高,需要资本介入才能形成高质量基础模型 [3] 技术演进趋势 - 大模型发展从早期盲目追求参数量扩张回归理性,转向结构创新和精细训练,性能提升并非线性依赖于参数 [2] - 训练方式从“预训练+监督微调”向持续学习和参数高效微调演化,目标是用更少算力实现更快适配 [3] - 模型形态从过去单模态(仅文本)向图像、语音、代码等多模态融合演进,AI能感知和生成来自不同世界的信息 [2] 未来发展方向 - 多模态融合成为趋势,即文字、图像、语音、传感数据全面打通 [4] - 大规模与轻量化并行发展,在追求能力极限的同时推动端侧部署 [4] - 具身智能是重要方向,即AI与物理世界交互以催生机器人新生态 [4] - 通用人工智能(AGI)成为长期目标,超级智能是更前瞻的概念,目前仍停留在理论探讨阶段 [4][5] 国际竞争格局 - 美国在头部企业、算力中心和生态层面仍保持领先地位 [3] - 中国在人工智能领域的论文数量占全球的41%,专利数占比达到69% [3] - 算力是制约中国AI发展的关键瓶颈,芯片、GPU、系统与模型生态需要配套发展 [3]
大模型专题:2025年中国大模型行业发展研究报告
搜狐财经· 2025-11-03 16:20
大模型行业发展概况 - 大模型是新一代人工智能发展的战略核心与关键引擎,可从应用广度、部署形态和技术路径三个维度进行分类,包括通用与行业模型、云端与端侧模型、闭源与开源模型 [15][16] - 2024年中国大模型市场规模约294.16亿元,预计2026年将突破700亿元,行业处于爆发式发展阶段 [26][27] - 多模态融合与智能体演进成为竞争焦点,2024年中国多模态大模型市场规模达156.3亿元,主要应用场景包括数字人(占比24%)、游戏(13%)、广告商拍(13%)等 [26][27] - 全球大模型行业正从技术竞速转向生态竞合,中国凭借完备产业链与广阔应用场景稳居全球发展第一梯队,厂商已从技术跟随转向并行乃至部分引领 [18] - 中国人工智能政策体系形成"创新驱动、基础强化、场景牵引、安全治理"四位一体格局,2025年《关于深入实施"人工智能 + "行动的意见》推动AI赋能千行百业 [20][21][22][23] 大模型生态新范式与企业竞争力 - CBDG四维生态模型(消费者Consumer、企业Business、设备Device、政府Government)成为中国大模型发展新范式,四者通过深度耦合形成相互作用与赋能的有机整体 [42][43] - 消费者(C端)是应用创新的活力源泉与商业模式验证的试金石,其快速反馈驱动模型迭代 [43] - 企业(B端)是价值创造与落地核心,驱动大模型技术与行业Know-how深度融合,催生面向特定场景的深度解决方案 [43] - 企业竞争力体现在生态构建、技术研发、行业赋能、商业变现、创新拓展五大能力,竞争从技术和产品单点对决转向全方位的体系化竞争 [8] 大模型企业典型案例分析 - 科大讯飞深耕G/B端,2024年央国企大模型解决方案市场份额居首,2025年Q3中标数量和金额双第一,并通过"机器人超脑"平台布局具身智能 [7][38][39] - 字节跳动依托C端流量与数据飞轮构建生态闭环 [7] - 阿里以夸克转型AI工具集提升用户粘性,实现差异化突围 [7] 大模型行业未来发展趋势 - 技术向多模态融合、智能体化、具身智能突破,大模型凭借涌现性特征驱动具身智能系统自我进化,成为连接虚拟与物理世界的核心枢纽 [8][36][37] - 产业竞争转向生态协同,价值向应用服务层聚集 [8] - 大模型应用正从试点验证迈向规模化深耕,B端与G端成为价值实现的主阵地,截止到2025年3月中国AI原生应用月活用户已突破2.7亿 [33] - 据预测,到2030年中国具身智能市场规模预计达到4,000亿元,2035年有望突破万亿元,应用主要集中在机器人(占比约56%)和自动驾驶(占比约44%)两大领域 [35][36]
谷歌OCS和产业链详解
2025-10-27 00:31
涉及的行业与公司 * **行业**:人工智能、云计算服务、数据中心光通信、光模块制造[1][3][5] * **公司**:谷歌、Anthropic、Oracle、微软、AWS等云服务商[1][2][3];光模块及上游组件供应商如旭创、新易盛、天孚、Coherent、腾景科技、福晶科技、源杰、世佳光子、长光华芯、博创、太辰光等[12][17][18] 核心观点与论据 * **AI商业闭环验证推动资本开支**:谷歌Gemini系列C端产品渗透超预期,企业侧围绕会议转写、代码助手等付费渗透加速,上下文能力和多模态能力提升驱动推理需求呈现日级、周级和月级持续高增长,带来云收入和在手订单增长[1][2] * **云服务商对AI算力投资信心强劲**:谷歌、Oracle、微软和AWS等云服务商均表达对AI长期增长的信心,加大对GPU、TPU、智能网卡、交换机和高速光互联的投资,AI进入稳态迭代式投入周期[1][3][4] * **AI应用发展提升光通信网络价值**:AI应用多模态融合及智能体升级需多次网络通信,推理需求的长连接、高并发及低延时特性对数据中心内外光互联提出更高要求,光模块成为系统瓶颈[1][5][7] * **谷歌网络架构演进以满足性能需求**:谷歌采用OCS方案和Ironwood架构,旨在降低链路损耗,满足大规模训练性能需求,Ironwood架构Super Pod可实现9,216张卡互联,通过3D Torus拓扑及OCS全光互联优化AI网络[1][6] * **推理与训练阶段对硬件要求差异**:推理阶段强调与C端和B端高频交互,对带宽网络要求更高,推理集群规模走向百万级别,Anthropic采购超100万张DTPU表明用户付费场景提供稳定现金流[1][7][8] * **光模块需求受谷歌驱动显著上修**:谷歌TPU V4架构Super Pod包含4,096张TPU,每颗TPU对应约1.5个高速光模块[9],谷歌需求驱动下,2026年800G光模块需求或达4,500万至5,000万只,1.6T光模块需求上修至至少2000万只以上,理想情况下可能达到3,000万只[3][16] 其他重要内容 * **OCS方案成本结构**:谷歌使用的MEMS方案中,单个2D MEMS阵列价值约6,000-7,000美元,两组合计约14,000-15,000美元,环形器每个约40美元,总计256个成本超10,000美元[11];液晶方案单台设备价值量较高,可达9-10万美元,简化结构后可降至3万到4万美元左右[13] * **技术方案对比**:MEMS方案成熟度更高、成本更低,但端口切换需通过微电机驱动镜子转角度;液晶方案实验率更低,更接近电交换机的实验率,但价格较高[15] * **需求增长向上游传导**:光模块行业供需不平衡蔓延至上游EML芯片、硅光芯片、CW光源及MPO等环节,国内企业扩产意愿增加并有机会进入大客户供应链[17] * **冷却技术**:谷歌在其Android架构中明确采用了水冷技术以管理热量[14]
不管是中国还是美国最终走向都是人工智能时代是这样吗?
搜狐财经· 2025-10-08 20:55
技术发展格局 - 美国在基础算法、大模型架构及核心专利领域保持优势,其科研生态更注重底层突破 [1] - 中国依托庞大的用户基数、移动互联网积淀及产业链协同,在场景化应用推进速度更快,部分领域体验已超越美国 [1] - 微信AI助手"元宝"实现社交生态无缝集成,腾讯豆包模型推理能力跻身全球第一梯队 [1] 产业生态与政策驱动 - 美国战略强化技术霸权主导地位,通过出口管制、标准制定及盟友合作遏制竞争者,2025年新政策主张放松监管、推动开源 [3] - 中国发挥制造业根基与数据规模优势,聚焦"AI+实体产业"融合,张亚勤指出中国将在5年内成为全球最大AI应用国 [3] - 中国AI发展的核心推力来自成熟的移动生态延续性及产业链协同效应 [3] 核心竞争优势与挑战 - 美国创新重心为基础理论与通用大模型,竞争优势在于学术原创性及全球标准主导,挑战为监管反复与政治干预 [5] - 中国创新重心为场景应用与工程化落地,竞争优势在于商业化速度与市场规模,挑战为核心技术自主性待提升 [5] 未来竞争焦点 - 双方竞赛将围绕智能体普及、混合专家模型降本增效以及多模态融合创造增量市场三大技术主线展开 [7] - 中国在移动互联网时代积累的5-8年领先优势,可能为AI应用层竞争提供关键跳板 [7] - 人工智能作为核心生产力引擎的地位已不可逆,两国终将在AI定义的新经济秩序中深度交织 [7]
非植入式脑机接口+苹果Vision Pro
思宇MedTech· 2025-10-04 14:33
公司动态与产品技术 - 公司于2025年10月1日宣布正式启动一项临床研究,探索其基于脑电图(EEG)的非植入式脑机接口(BCI)与Apple Vision Pro的结合应用 [2] - 公司拥有自主研发的可穿戴、非侵入式神经接口设备平台Axon-R,具备先进的EEG测量与反馈能力 [4] - 该技术的核心特点是“无手术、可穿戴、可日常化”,区别于市场上如Synchron和Neuralink等多为植入式的脑机接口方案 [4] - 技术结合了脑电信号与眼动追踪,实现多模态交互,并利用人工智能算法提升解码效率 [6] - 临床研究已启动招募,将持续至2026年4月,并计划在完成可行性研究后于2026年开展关键性临床试验并申请FDA批准 [5] 临床研究与应用场景 - 临床研究的主要目标是验证通过脑电信号与眼动控制支持患者进行流畅、自然交流的能力 [6] - 研究旨在评估技术在移动设备控制、娱乐、教育和工作中的应用价值 [6] - 研究重点关注ALS(渐冻症)、脊髓损伤(SCI)、中风后言语障碍、创伤性脑损伤(TBI)等患者人群 [6] - 技术的应用场景包括交流沟通、设备控制、教育娱乐与辅助现实,旨在从实验室走向家庭与工作环境 [6][10] 行业趋势与竞争格局 - 脑机接口技术正在快速走向临床与消费市场融合,非侵入式BCI与主流消费电子生态结合代表新趋势 [8] - 行业重要发展方向是多模态融合,即将脑电信号与眼动追踪、头部姿态等多通道信号结合以提高交互准确性与自然度 [10] - 在植入式BCI仍处于科研与早期临床阶段时,公司通过“可穿戴EEG + 主流XR平台”的组合提供了更低门槛的解决方案 [10] - 与植入式BCI厂商相比,公司的策略是走一条更快商业化、更贴近日常生活的道路 [10]
AI云计算行业发展现状
2025-09-26 02:29
**AI 云计算行业发展现状与阿里巴巴战略分析** **一 行业与公司概况** * 纪要涉及的行业为AI云计算行业 公司为阿里巴巴及其阿里云[1] * 阿里云在中国云计算市场占据领先地位 市场份额约为33-35% 排名第一 同时也是全球第四大先进营销厂商[2] * 国内云计算赛道已形成两个梯队 阿里属于前站的新一代云计算厂商 其技术架构与谷歌相似 从底层自研芯片到智能体应用 与其他竞争者拉开差距[1][2] * 华为云位居国内第二 市场份额约13% 火山引擎紧随其后占比接近14% 其他主要厂商包括腾讯和百度[2] **二 市场竞争格局与技术优势** * 阿里云拥有自研芯片和智能体应用能力 形成包括数据标注 模型后训练及托管的MAAS 2.0服务矩阵[1][3] * 阿里开源社区拥有400万用户 并提供丰富的模型矩阵覆盖语言模型 视觉理解与生成 全模态及语音模型等[3] * 火山引擎尚未实现自研芯片 百度有一定前站特征但较弱 腾讯主要做应用层面工作 华为由于其深层架构且不开源 不能完全对标全球领先的谷歌 微软和AWS[2] * 从全球布局来看 阿里的数据中心遍布东南亚 中美洲 中东及欧洲多个国家 如新加坡 泰国 墨西哥 迪拜 西班牙等地 而其他几家如腾讯和华为则仅在东南亚有一些数据中心[2] * 目前国内各大云厂商收入结构中 一半以上仍来自于传统IaaS服务 如云主机 存储 安全网络带宽等 然而未来几年内 这些收入结构将逐步转向PaaS SaaS以及AI驱动产品[3] **三 Token需求 价格与用户行为趋势** * 国内Token需求激增 主要由互联网巨头利用AI重构产品驱动 如高德地图 淘宝和美团等 互联网流量中约60%来自巨头重构原有产品体系[1][4] * 以阿里的10亿DAU为例 每人每天使用10次 每次消耗2000个Token 总计每天消耗20万亿个Token 推算出市场接近90万亿个Token需求[4] * 预计每年渗透率将从30%增长到明年的60% 再到后年的90% 将保持高速增长并持续增加Token消耗量[4] * 2023年第三季度 主流模型Token价格较第一季度下降30%-50% 从每百万token 16元降至8元左右 字节跳动甚至将部分模型调价至4元或2元[6] * 但阿里巴巴新模型23MAX主导定价权 其新定价为每百万token 24元 输入6元[6] * AI Chatbot豆包平均停留时长从第一季度的13分钟增加到第三季度的一次对话半小时左右[6] * AIGC视频生成速度显著提升 从第一季度生成一个十几秒的视频需要20分钟 到现在只需3-5分钟[6] **四 产品发布与技术亮点** * 阿里云栖大会发布7款大模型 旗舰产品23MAX拥有万亿参数 具备极致稀疏性(仅有3.7%的参数在推理时激活)和超低幻觉率(降至1%) 支持百万token上下文[7] * 千问3 Only是国内首个全模态模型 可以处理文本 声音 视觉理解和生成等任务[7] * 通用万象代表阿里视频生成能力 重返全球前三 在电商平台上已有40%的图片和视频通过此模式生成[7] * 未来迭代方向将从语言模型为骨干逐步走向多模态融合 并对标GPT-5 从明年开始 全模态将成为主流技术路径[7] **五 资本支出与战略投入** * 未来三年 阿里巴巴计划投入3800亿CAPEX 主要用于全球化数据中心建设(占1/3) AI服务器采购(占硬件相关支出60%)和网络设备升级[10] * 全球化布局重点在亚洲和欧洲 南美洲以墨西哥为起点辐射巴西等人口密集国家[1][10] * 云业务中的硬件服务器折旧周期为5年 每年约20% 2025年开始进入加速折旧期 到2026年会产生大量老旧卡淘汰替换[11] * 阿里资本支出的逻辑是通过这些技术赋能内部核心场景 如电商 通过提升用户停留时长 广告投放精准率等指标来增加GMV 而不是直接销售AI产品[11] **六 算力基础设施与芯片合作** * 当前云计算卡市场总量约为36万张 先进训练卡约8万张 推理卡十几万张[2][12] * 国产推理卡性能已超过H20 国产海关账号芯片指标与A100相当甚至更优(IP16达到400多TFRAPS IP32超过100 带宽达到500多G)[2][12] * 阿里巴巴与NVIDIA合作聚焦"Physical AI" 将Isaac Cosmos世界模型及Universe自动驾驶模拟和机器模拟架构组件部署到阿里云 并迭代聚生智能平台 提供全流程解决方案[2][13][14] * 今年发布的所有模型均使用英伟达CUDA训练卡进行训练[17] * 目前对外服务的推理部分全部使用英伟达CUDA卡 国产卡预计明年上线对外出租 目前仍处于内部测试阶段[18] * 明年的存量CUDA芯片可以支撑现有模型迭代 但需要补充新的型号如B3A或B30A以承接下一代模型训练[19] **七 应用场景与市场拓展** * 垂直智能体结合模型和Agent框架 使客户能够将业务数据填入其中 适用于许多垂直行业 AI编程是最早落地的应用之一[8] * 在企业实际应用中 99%的客户使用的是智能体而非直接使用AI模型[22] * 在C端市场 AI技术主要应用于AI搜索 虚拟社交 数字人 面向C端的AI编程助手 以及图像生成和视频生成等AIGC玩法[9] * 阿里巴巴将其端侧模型与手机芯片进行合作 并推送给手机制造商 如传音 OPPO vivo 魅族和荣耀等 在新能源汽车领域 也与高通 地平线等车载芯片供应商合作[16] * 硬件侧是重要战略之一 其小尺寸语言模型(如1.5B 3B 7B)专为端侧硬件设计[15] **八 其他重要信息** * 由于受到限制 中国的AI基础设施建设速度慢于海外 抑制了国内AI应用爆发[1][5] * 当前国内每日token消耗量约为90万亿 其中阿里的消耗量接近18万亿[20] * 随着多智能体架构AgentScope的发展 单次交互token消耗从两三千增加至两三万倍 明年多模态架构底座将进一步增加token处理量[20] * 国内多模态模型不追求超大参数规模 而是通过极致稀疏激活来优化推理效率[21] * 海外计算中心建设目前以通用算力为主 AI技术作为补充 由于兼容性 合规性等问题 海外市场暂时仍以英伟达的卡为主导[22] * 对于服务器组装业务 一般采用就近原则进行采购和组装 在中国境内则与新华三 富士康或浪潮等厂商合作[22]
如何向一段式端到端注入类人思考的能力?港科OmniScene提出了一种新的范式...
自动驾驶之心· 2025-09-25 23:33
文章核心观点 - 提出了一种名为OmniScene的全新类人框架,旨在解决当前自动驾驶系统缺乏真正场景理解能力的问题,通过结合环视感知与时序融合实现全面的4D场景理解 [2] - 该框架通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征以实现语义监督,并采用分层融合策略解决多模态融合中的模态贡献不平衡问题 [2] - 在nuScenes数据集上的评估表明,OmniScene在所有任务中均实现了更优性能,特别是在视觉问答性能上实现了21.40%的显著提升 [3] 技术框架与创新 - 引入OmniScene视觉-语言模型,这是一种结合环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解 [2] - 通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实现语义监督,明确捕捉类人的注意力语义信息 [2] - 提出分层融合策略,以解决多模态融合过程中模态贡献不平衡的问题,该方法能在多个抽象层级上自适应校准几何特征与语义特征的相对重要性 [2] - 框架输入包括环视图像、操作指令与用户提示,通过学生端OmniVLM模块生成文本标注,并与视觉特征、三维实例特征融合形成全面特征表示 [23] 算法核心组件 - 采用基于稀疏查询的范式初始化三维目标实例集,有效降低计算复杂度并使模型聚焦于信息区域 [41][45] - 设计4D时空融合模块,通过解耦交叉注意力显式建模实例在多帧间的时间依赖关系,并通过解耦自注意力挖掘当前帧内实例间的空间关系 [46][52] - 引入视觉可变形聚合模块,以每个实例的几何先验为引导,自适应从环视图像特征中聚合信息线索 [53][59] - 设计文本条件聚合模块,将文本语义信息整合到每个三维实例特征中,实现上下文感知推理 [60][65] - 引入深度优化模块,利用增强实例特征与来自环视图像的辅助深度线索,对每个实例的估计深度进行校正与优化 [66][69] 性能评估结果 - 在nuScenes验证集上的感知任务中,所提模型的nuScenes检测得分达到0.526,平均平移误差最低为0.555米 [96] - 在跟踪任务上,平均多目标跟踪精度为1.235,召回率为0.528,身份切换次数仅为503次,显著优于所有现有基线模型 [98][99] - 在预测任务中,最小平均位移误差和最小最终位移误差分别低至0.61米和0.96米,遗漏率最低为0.128 [100][101] - 在规划任务中,轨迹L2误差平均值最低为0.58米,在所有预测时域下均表现领先 [102] - 在视觉问答任务中,OmniVLM 7B模型的CIDEr得分为87.39,比最佳基线模型高出24.9% [104][106] 行业应用与前景 - 该技术框架展示了在复杂城市驾驶环境中实现全面场景理解与推理的显著优势,为自动驾驶系统的智能决策与安全规划提供了新思路 [107][109] - 实时性能评估表明,OmniVLM 3B模型在A800平台上仅需88毫秒处理300个输入令牌,总处理时间在113毫秒到139毫秒之间,满足实时任务要求 [125][127] - 行业对VLA/VLM大模型算法专家的需求旺盛,相关岗位薪资范围在40-70K之间,反映了该技术方向的市场价值和发展潜力 [9]
基于313篇VLA论文的综述与1661字压缩版
理想TOP2· 2025-09-25 13:33
VLA模型综述核心观点 - VLA模型的出现标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,将视觉语言模型从被动的序列生成器重构为能够在复杂动态环境中进行主动操作和决策的智能体[1][12] - 该综述对VLA方法进行清晰的分类和系统性的回顾,基于300多项最新研究,将VLA方法主要分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法[1][2][12] - VLA模型通过整合视觉编码器的表征能力、大语言模型的推理能力、强化学习与控制框架的决策能力,有望弥合"感知-理解-动作"的鸿沟,成为实现通用具身智能的核心路径[38][39] VLA方法分类与特点 基于自回归的模型 - 核心思想是将动作序列视为时间依赖过程,逐步生成动作,通过统一的多模态Transformer实现跨任务的泛化[4][46] - 创新点包括结合大语言模型进行链式思考和分层规划处理长时程和复杂任务,直接将语言指令映射为运动轨迹并通过视频预训练增强时间建模能力[4][47][48] - 采用层级规划、动态推理、量化和并行解码等技术减少计算冗余和延迟,典型模型包括Gato、RT-1/RT-2、PaLM-E等[4][48] 基于扩散的模型 - 核心思想是将动作生成视为一个条件去噪过程,能够对多模态的动作分布进行建模,将策略学习重新解释为视频生成[5][59] - 利用几何感知方法确保动作的物理一致性,利用Transformer统一处理视觉、语言和动作等异构模态实现灵活的目标条件化[5][63] - 出现轻量化设计以降低训练成本,发展出双系统/三系统等认知启发式架构提升任务性能和可解释性,典型模型包括SE(3)-DiffusionFields、Dita等[5][63][67] 基于强化学习的模型 - 核心思想是整合视觉语言模型与强化学习,利用视觉和语言输入在交互式环境中生成上下文感知的动作[6][72] - 利用视觉语言模型从人类演示中学习奖励代理简化奖励工程,提出约束学习对齐机制防止高风险行为同时不牺牲任务性能[6][73] - 结合离线学习和在线学习实现安全高效的训练,采用量化、剪枝和知识蒸馏等方法压缩模型提高推理速度并减少内存占用[6][73] 混合与专用方法 - 混合架构结合不同范式,利用扩散生成平滑的轨迹同时保留自回归模型的推理能力,典型代表如HybridVLA[7][80] - 从早期的特征拼接发展到显式建模几何、功能可见性和空间约束的3D感知架构,如CLIPort、3D-VLA等[7][80][82] - 将VLA框架扩展到自动驾驶、人形机器人控制和图形用户界面交互等特定领域,通过大规模多模态数据集和可扩展架构构建通用机器人智能体[7][80][83] 数据集与仿真平台 - VLA模型的发展严重依赖高质量数据集,真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集,包含527项技能和160,266个任务[8][35][99] - 模拟数据集如ALFRED、RLBench和CARLA为大规模、可控和安全的模型训练与评估提供了环境,模拟器如THOR、Habitat、MuJoCo和Isaac Gym为开发和评估智能机器人在多样化交互环境中的能力提供了平台[8][35][41] - 自动驾驶领域的数据集提供包含相机图像、激光雷达点云、雷达信号和高清地图在内的多模态传感器数据,但大多数公开数据集是在开环场景下采集的,主要反映正常驾驶行为[101][102] 核心挑战与未来机遇 - 核心挑战包括数据稀缺性、架构异构性、实时性约束和评估局限性,真实世界机器人交互数据的规模和多样性仍然不足,大规模Transformer架构的推理速度严重限制了其在需要毫秒级响应的真实机器人上的应用[9][43] - 未来机遇包括实现语言、视觉和行动的深度耦合使VLA演变为能够联合建模环境、推理和交互的"世界模型",发展能够基于因果定律进行探索和验证的模型[10][39] - 结合高保真模拟和合成数据生成构建超大规模轨迹数据集,建立风险评估、可解释性和问责制的标准化框架,将VLA从实验室工具转变为社会中值得信赖的合作伙伴[10][39]