图文交错思维链

搜索文档
商汤林达华:破解图文交错思维链技术,商汤的“两步走”路径
36氪· 2025-08-15 09:09
多模态智能技术路径 - 多模态是通向AGI的必经之路 因语言仅是智能的产物而非本源 需通过多模态感知和处理信息实现通用性[4] - 智能演进需经历四次破壁:长序列建模、多模态理解、多模态推理、数字与物理空间交互[5] - 公司2023年初推出国内最早多模态模型 2024年突破原生多模态融合技术 2025年实现图文交错思维链[5] 原生多模态技术优势 - 适应训练通过微调实现模态对齐 成本低但仅僵硬遵循范例模式[7] - 原生训练在预训练阶段融合多模态数据 从根源具备多模态能力[7] - 公司2024年确定融合路径:预训练中段开始多模态融合 形成统一模型且不再生产单独语言模型[7] 技术成果与性能表现 - 2024年Q3完成融合训练数据配方验证 Q4完成千亿参数级别多模态模型训练[8] - 模型在OpenCompass和SuperCLUE评测中位居国内首位 语言任务与DeepSeek V3并列[8] - 日日新6.5仅有多模态模型 无单独语言模型 与国内其他厂商架构存在显著差异[9] 图文交错思维链突破 - 主流多模态模型推理链仍为纯文本 通过图像转文本描述再进行语言推理[9] - 公司通过图像编辑工具构建图文交错思维链 实现逻辑思维与形象思维结合[10] - 采用两步走路径:先通过工具构建对外智能体 再通过多模态理解实现内生混合思考[10] 模型架构效率优化 - 视觉编码器专注连续信号感知 语言模型主干处理离散语义 需差异化结构与学习方式[11] - 架构更新后处理高分辨率大图和长视频更快捷 数据优化使同性能下效率提升超3倍[11] - 性能成本曲线显著优化 实现比Gemini 2.5系列更优的效费比[11] 具身智能与世界模型 - 世界模型通过虚拟系统模拟现实交互 提供近真实反馈且效率远高于真实环境[12] - 开悟世界模型基于多模态能力构建 用智能汽车业务数据增强模拟生成能力[12] - 可根据指定路径生成多视角视频 有效支撑智能驾驶系统训练[12] 商业战略与落地成果 - 采用"基础设施-模型-应用"三位一体战略 形成技术与商业正向循环[13] - 基础技术实现原生融合训练/多模态强化学习/无限时长视频交互记忆等突破[14] - 生产力AI装机量从百万级走向千万级 交互AI落地新型硬件与机器人[14]