多模态大模型 - 财报，业绩电话会，研报，新闻

多模态大模型

搜索文档

36氪· 2025-12-05 07:06

行业范式转移 - 行业顶尖研究者如Ilya Sutskever指出，单纯依赖扩大数据、参数和算力的Scaling Law时代已经结束，大模型的未来在于架构创新而非规模堆砌 [1] - 行业过去几年陷入“唯规模论”的路径依赖，但Transformer架构的固有局限日益凸显，仅靠堆叠算力和数据无法通往真正的通用智能 [8] - 以NEO为代表的原生多模态架构的出现，标志着行业正从模块化拼接范式向更高效、更统一的原生架构范式迁移 [26] 现有技术瓶颈 - 当前主流多模态大模型（如GPT-4V、Claude 3.5）采用模块化拼接架构，将预训练的视觉编码器通过投影层嫁接到大语言模型上，视觉与语言信息在数据层面被粗暴拉拢，而非深度融合 [3] - 模块化架构存在三大技术鸿沟：1) 效率鸿沟：训练流程复杂、成本高昂，且各阶段可能引入误差；2) 能力鸿沟：视觉编码器的固定分辨率等设计限制了对复杂图像（如长图、工程图纸）的理解；3) 融合鸿沟：视觉与语言信息未在同一语义空间进行深度融合推理，导致细粒度任务表现不佳 [6][7][8] NEO架构的核心创新 - NEO是全球首个可大规模落地的开源原生多模态架构，其设计从第一性原理出发，打造了一个视觉与语言从诞生之初就统一的模型，不再区分视觉模块和语言模块 [3][8] - 核心创新体现在三大底层技术上：1) 原生图块嵌入：通过轻量级卷积神经网络直接从像素构建连续、高保真的视觉表征，突破了主流模型的图像建模瓶颈 [11][12]；2) 原生三维旋转位置编码：为时间、高度、宽度三个维度分配不同频率，精准刻画视觉细节与空间结构，并为扩展到视频和3D场景铺平道路 [14]；3) 原生多头注意力：在统一注意力框架下，让文本的因果注意力与视觉的双向注意力并存，提升对图像内部空间结构的理解能力 [16] - 配套采用Pre-Buffer & Post-LLM双阶段融合训练策略，巧妙解决了在不损害语言能力前提下学习视觉知识的难题，最终模型融为一个端到端的整体 [17] 性能与效率表现 - NEO展现出极高的数据效率，仅使用3.9亿个图像文本对进行训练，数据量仅为同类顶级模型所需数据的十分之一 [5][19] - 在多项视觉理解任务评测中，NEO追平甚至超越了Qwen2-VL、InternVL3等顶级模块化旗舰模型 [5][19] - 在2B参数规模下，NEO在AI2D、DocVQA、ChartQA等关键评测中得分分别为80.1、89.9、81.2，表现亮眼 [20] - 在8B参数规模下，NEO在MMMU、MMBench、MMStar、SEED-I、POPE等多个关键基准测试中均取得高分，展现出优于其他原生VLM的综合性能 [21][22] - NEO在2B到8B的中小参数规模区间内展现出较高的推理性价比，实现了精度与效率的双重跃迁，并大幅降低了推理成本 [22][23] 潜在影响与行业意义 - NEO为多模态AI的演进指明了新路径，其原生一体化架构从底层打通了视觉与语言的语义鸿沟，天然支持任意分辨率图像和长图文交错推理，并为视频理解、3D空间感知及具身智能等更高阶场景预留了扩展接口 [24] - 商汤科技已开源基于NEO架构的2B与9B模型，此举有望推动整个开源社区向更高效统一的原生架构迁移，加速形成新一代多模态技术的事实标准 [24] - NEO在中小参数规模下的高性价比，正在打破大模型垄断高性能的固有认知，使得强大的视觉理解能力可以下沉到手机、机器人、智能汽车、AR/VR眼镜、工业边缘设备等对成本、功耗和延迟敏感的终端场景 [23][24] - NEO是“架构创新重于规模堆砌”新趋势的首个成功范例，重新定义了多模态模型的构建方式，是通往下一代普惠化、终端化、具身化AI基础设施的关键雏形 [25][26]