原生多模态架构
搜索文档
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
36氪· 2025-12-05 07:06
行业范式转移 - 行业顶尖研究者如Ilya Sutskever指出,单纯依赖扩大数据、参数和算力的Scaling Law时代已经结束,大模型的未来在于架构创新而非规模堆砌 [1] - 行业过去几年陷入“唯规模论”的路径依赖,但Transformer架构的固有局限日益凸显,仅靠堆叠算力和数据无法通往真正的通用智能 [8] - 以NEO为代表的原生多模态架构的出现,标志着行业正从模块化拼接范式向更高效、更统一的原生架构范式迁移 [26] 现有技术瓶颈 - 当前主流多模态大模型(如GPT-4V、Claude 3.5)采用模块化拼接架构,将预训练的视觉编码器通过投影层嫁接到大语言模型上,视觉与语言信息在数据层面被粗暴拉拢,而非深度融合 [3] - 模块化架构存在三大技术鸿沟:1) 效率鸿沟:训练流程复杂、成本高昂,且各阶段可能引入误差;2) 能力鸿沟:视觉编码器的固定分辨率等设计限制了对复杂图像(如长图、工程图纸)的理解;3) 融合鸿沟:视觉与语言信息未在同一语义空间进行深度融合推理,导致细粒度任务表现不佳 [6][7][8] NEO架构的核心创新 - NEO是全球首个可大规模落地的开源原生多模态架构,其设计从第一性原理出发,打造了一个视觉与语言从诞生之初就统一的模型,不再区分视觉模块和语言模块 [3][8] - 核心创新体现在三大底层技术上:1) 原生图块嵌入:通过轻量级卷积神经网络直接从像素构建连续、高保真的视觉表征,突破了主流模型的图像建模瓶颈 [11][12];2) 原生三维旋转位置编码:为时间、高度、宽度三个维度分配不同频率,精准刻画视觉细节与空间结构,并为扩展到视频和3D场景铺平道路 [14];3) 原生多头注意力:在统一注意力框架下,让文本的因果注意力与视觉的双向注意力并存,提升对图像内部空间结构的理解能力 [16] - 配套采用Pre-Buffer & Post-LLM双阶段融合训练策略,巧妙解决了在不损害语言能力前提下学习视觉知识的难题,最终模型融为一个端到端的整体 [17] 性能与效率表现 - NEO展现出极高的数据效率,仅使用3.9亿个图像文本对进行训练,数据量仅为同类顶级模型所需数据的十分之一 [5][19] - 在多项视觉理解任务评测中,NEO追平甚至超越了Qwen2-VL、InternVL3等顶级模块化旗舰模型 [5][19] - 在2B参数规模下,NEO在AI2D、DocVQA、ChartQA等关键评测中得分分别为80.1、89.9、81.2,表现亮眼 [20] - 在8B参数规模下,NEO在MMMU、MMBench、MMStar、SEED-I、POPE等多个关键基准测试中均取得高分,展现出优于其他原生VLM的综合性能 [21][22] - NEO在2B到8B的中小参数规模区间内展现出较高的推理性价比,实现了精度与效率的双重跃迁,并大幅降低了推理成本 [22][23] 潜在影响与行业意义 - NEO为多模态AI的演进指明了新路径,其原生一体化架构从底层打通了视觉与语言的语义鸿沟,天然支持任意分辨率图像和长图文交错推理,并为视频理解、3D空间感知及具身智能等更高阶场景预留了扩展接口 [24] - 商汤科技已开源基于NEO架构的2B与9B模型,此举有望推动整个开源社区向更高效统一的原生架构迁移,加速形成新一代多模态技术的事实标准 [24] - NEO在中小参数规模下的高性价比,正在打破大模型垄断高性能的固有认知,使得强大的视觉理解能力可以下沉到手机、机器人、智能汽车、AR/VR眼镜、工业边缘设备等对成本、功耗和延迟敏感的终端场景 [23][24] - NEO是“架构创新重于规模堆砌”新趋势的首个成功范例,重新定义了多模态模型的构建方式,是通往下一代普惠化、终端化、具身化AI基础设施的关键雏形 [25][26]
Nano Banana,OpenAI你学不会
虎嗅APP· 2025-11-24 13:21
文章核心观点 - 谷歌新发布的Nano Banana Pro图像生成模型在技术路径上实现了对物理世界的模拟,通过引入思维链推理机制,在逻辑准确性和物理真实性上对OpenAI的GPT-4o构成了显著优势 [4][10] - 技术差异源于两家公司不同的发展路径:谷歌采用“原生多模态”架构,而OpenAI采用“模块化拼接”架构,这导致了两者在模型能力上的根本区别 [27][28][29] - OpenAI在图像生成领域面临压力,其CEO萨姆·奥特曼已内部承认谷歌正在缩短差距,并带来了不小的压力 [4] 技术路径差异 - GPT-4o的生成机制基于统计学相关性,通过在海量训练数据中检索视觉特征并进行概率匹配,未真正理解数量概念或构建物理模型 [10] - Nano Banana Pro引入了思维链机制,将图像生成过程升级为逻辑推演,在生成像素前先在潜空间进行符号化规划,实现从语义理解到执行生成的全链路闭环 [10] - OpenAI体系存在“文本信息瓶颈”,用户指令需经GPT改写为详尽Prompt再传递给图像模型,此过程易导致关键约束信息丢失 [16] - Nano Banana Pro采用原生多模态架构,用户输入直接映射为包含语义、空间及物理属性的高维向量,无需文本-图像转译中介,实现端到端映射 [21] 模型能力对比 - 在处理“三个苹果”的生成任务时,GPT-4o生成的图像在细节上暴露出概率生成的缺陷,如水珠排布不符合客观规律,腐烂状态过于刻意 [6] - Nano Banana Pro输出的图像数量精确,每个对象属性严格对应,能精准还原咬痕缺口、水珠折射光感、氧化纹理等细节 [8] - 在涉及物理规律的复杂场景中,GPT-4o生成的光影关系存在物理矛盾,而Nano Banana Pro会先行计算光源向量、阴影投射方向及液体折射率 [12][14] - Nano Banana Pro在文字渲染上具有碾压性优势,能精准控制文字元素,而GPT-4o长期存在汉字书写“乱码”问题 [16][19] - Nano Banana Pro通过类似代码的提示词实现精确控制,能清晰区分不同对象属性归属,避免属性泄露问题,但提示词门槛较高 [24][25][26] 公司战略与资源禀赋 - 谷歌选择原生多模态路径,从模型训练第一天起就将文本、图像、视频、音频数据混合训练,使模型能直接理解多模态信息 [28] - OpenAI走模块化拼接路线,让不同专业模块各司其职,再通过API连接,其策略强调快速迭代和产品市场契合度 [29][38] - 谷歌拥有YouTube这一全球最大视频库,内含几十亿小时包含时间序列和因果关系的动态数据,为模型理解物理世界运行逻辑提供了独特优势 [31] - 谷歌通过几十年OCR技术积累,拥有全球最大的图片-文字对齐数据库,这直接支撑了其在文字渲染上的优势 [33] - OpenAI起家于文本,其视觉能力是后期添加,训练数据主要来自网络抓取的静态图片,缺乏时间维度和物理过程信息 [33][34] 训练方式与产品理念 - OpenAI采用RLHF路线,雇佣人类标注员对生成图片打分,导致模型被训练成“讨好型人格”,倾向于生成色彩鲜艳、构图完美但牺牲物理真实感的图像 [35] - 谷歌的训练更注重“真实”而非“美”,其目标是实现“Grounding”,即模型的输出更接地气和真实 [35][36] - 谷歌为实现质的提升,不惜增加计算成本,在图像生成过程中引入思考步骤,通过思维链让模型先理解再生成 [36][37] - OpenAI将最强推理能力集中在o1系列模型上,对于图像生成,其判断是GPT-4o的“直觉式”生成已足够维持市场领先,无需继续提升 [38] - OpenAI的“胶水科技”市场策略导致积累了大量技术债,未来若想转向原生多模态将面临巨大挑战 [39]
Gemini 3 Pro刷新ScienceQA SOTA|xbench快报
红杉汇· 2025-11-20 03:38
文章核心观点 - Google正式发布新一代基础模型Gemini 3,在深度推理与思考、多模态理解、Agent编程能力上有极大提升[1] - Gemini 3 Pro在xbench-ScienceQA榜单中以71.6的平均分超越Grok-4成为新SOTA,并且响应时间快,价格低[1] - 模型实现了从“反应式”推理向“审慎式”推理的转变,解决了大模型常见的“幻觉”问题,标志着AI从“知识检索”向“逻辑推理”的跨越[8] 模型性能表现 - Gemini 3 Pro在ScienceQA榜单中平均分为71.6,BoN(N=5)达到85分,超越第二名Grok-4的分数6分[3][5] - 平均响应时间仅48.62秒,远快于Grok-4的227.24秒和GPT-5-high的149.91秒[3] - 官网API价格为输入每百万token 2美元,输出每百万token 12美元,低于Grok-4的3美元/15美元和GPT-5-high的1.25美元/10美元[3] - 与Gemini 2.5 Pro相比,平均分从59.4提升到71.6[5] - 运行ScienceQA成本估算显示,GPT-5.1花费32美元,Gemini 3 Pro仅花费3美元,成本约为前者的1/10[6] 技术架构创新 - 引入“深度思考”模式,在处理高复杂度任务时在内部构建多条推理链路进行自我博弈与验证[8] - 采用稀疏MoE架构,拥有海量参数专家但每次仅激活一小部分,显著降低计算开销[8] - 彻底摒弃外挂式编码器,采用极致的原生多模态架构,使文本、代码、图像、视频和音频在模型底层共享同一套“世界模型”[11] - 上下文长度显著扩充至百万级,可直接处理整本书、完整代码库或长时间音视频逐字稿[12] Agent与开发能力 - 带来“氛围编程”概念,模型能捕捉代码库中隐含的工程风格、架构规范及开发者直觉[9] - 作为自主Agent在IDE中运行,具备操作终端、浏览器和文件系统权限,拥有长程规划能力[9] - 在Google Antigravity平台中与Gemini 2.5 Computer Use模型、视觉模型Nano Banana等深度集成,实现“计划-执行-反馈”的自主多步骤工作流[10] 交互与生成能力 - 引入Generative UI,模型能根据用户意图实时编写前端代码并渲染出动态可交互界面[12] - 具备惊人感知能力,能转录3小时会议视频,精准识别说话人语气,从模糊低质量文档照片中无损提取结构化数据[11] 硬件支持体系 - 在Google自研的TPU上训练,TPU是为大型模型特别设计的高带宽、高并行计算芯片[13] - 借助TPU集群的强大算力和高效并行,在相对可控时间内完成训练,实现能耗与成本平衡[13]