原生全模态
搜索文档
2.4万亿参数原生全模态,文心5.0一手实测来了
量子位· 2025-11-13 09:25
产品核心特性 - 全新一代文心5.0主打原生全模态,从训练伊始就将语言、图像、视频、音频置于同一套自回归统一架构中进行统一的理解与生成训练[1] - 模型支持全模态输入(文字/图片/音频/视频)与全模态输出(文字/图片/音频/视频),在创意写作、指令遵循、智能体规划方面能力更强[1] - 预览版(Preview)当前支持全模态输入,但输出暂为多模态(文字/图片),能够实现全模态输出的完整版正在进行产品体验优化,后续将推出[15] 技术能力与性能表现 - 在官方基准测试中,文心5.0 Preview在语言、视觉理解、音频理解、视觉生成多维度表现突出[7] - 在大模型竞技场LMArena的文本排行榜(Text Arena)上得分1432,与GPT-4.5-preview、Claude-Opus-4-1、Claude-Sonnet-4-5等并列全球第二,位居国内第一[9] - 模型具备精细的多模态理解能力,能精准识别视频中的动作阶段、选手信息、动作名称、难度系数,甚至识别慢放片段和视频情感[26][27][28][30] - 具备跨模态信息整合与综合推理能力,能结合视频情节、台词等内容理解情感氛围和叙事意图,不易被单一模态误导[51] 技术架构与实现 - 采用非后期拼接的原生全模态路线,通过自回归统一结构对不同模态的训练目标进行离散化建模,使多模态特征在统一架构中融合与协同优化[63][64][66] - 引入超大规模混合专家架构,通过稀疏激活机制降低计算负载,每次推理仅激活与任务最相关的专家模块[67] - 模型总参数规模超过2.4万亿,激活比例低于3%,在保持性能的同时显著优化了计算与推理效率[69] - 百度飞桨深度学习框架为万亿级参数模型的高效分布式训练和推理成本优化提供了关键支撑[69] 应用场景与功能展示 - 支持单次交互中跨文件类别混合上传文档、图片、音频、视频,经用户授权可与百度网盘关联,直接访问处理网盘文件[18][20] - 具备智能体能力,可自主调用搜索工具进行信息查询与角色定位[36] - 支持文图混合输入生成新图,并能对视频、音频内容进行快速总结,一次性最多可上传10个视频进行多任务内容整理[53][56][57] - 能够进行音视频融合生成,例如生成3D交互式地球与卫星演示模型,用户可通过鼠标拖拽旋转视角[5] 行业定位与迭代节奏 - 行业竞争逻辑转向注重底层架构创新、训练与推理效率、落地成本等多维度综合考量[72] - 公司基础模型迭代步伐加快,4月发布文心4.5 Turbo和文心X1 Turbo,6月底文心4.5系列10款模型宣布开源,9月发布文心X1.1深度思考模型[73][74] - 文心5.0原生全模态模型的推出是公司在底层架构实现的差异化突破,体现了在算法训练、推理优化及生态协同等全链路的系统性积累[75]
同一天,百度、OpenAI双双发力高智能AI!先来实测一波原生全模态文心5.0
机器之心· 2025-11-13 08:26
文章核心观点 - 百度在2025百度世界大会上正式发布新一代文心大模型5.0,其核心创新在于采用了“原生全模态统一建模”技术,旨在持续推高AI智能天花板 [3][5] - 文心5.0在参数规模上达到2.4万亿,位列业界已公开模型之首,并在多项权威基准评测中与GPT-5-High、Gemini-2.5-Pro等全球顶尖模型能力持平 [7][9] - 通过一手实测,文心5.0 Preview在情商对话、视频理解、创意写作、代码生成等多场景展现出强大的原生全模态理解与生成能力,标志着大模型技术从理解语言迈向理解世界 [15][73][82] 模型技术架构与性能 - 文心5.0采用原生全模态统一建模技术,从训练之初即将文本、图像、音频、视频等多模态数据在同一语义空间中学习,不同于业界主流的后期融合方案,实现了真正的语义对齐与一致推理 [5][75] - 模型采用统一的自回归架构与超稀疏混合专家模型结构,在2.4万亿总参数中激活比低于3%,有效平衡了强大性能与训练推理成本 [76] - 基于飞桨自研的多模态编码器分离异步训练架构等一系列技术,公司实现了万亿级参数模型的高效训练和高性能推理 [76][77] 多模态能力实测表现 - 在视频理解测试中,模型能准确识别视频出处、分析画面细节(如人物服饰),并能根据剧情生成风格贴切的弹幕,展现了强大的时空连续性与内容一致性理解能力 [17][18][21][24][26] - 在文本理解与生成方面,模型能精准模仿特定风格(如林黛玉口吻的工作总结),并能快速、准确地总结复杂学术论文的核心要点,显示出出色的深度思考与内容创作能力 [47][50][51][52] - 在代码生成任务中,模型可根据自然语言描述生成功能完整的3D模拟网页代码(如地球卫星系统、太阳系模型),展示了其强大的工具应用与逻辑规划能力 [61][63][66] 行业竞争与战略意义 - 在全球大模型Scaling Laws收益趋缓的背景下,行业竞争焦点转向“谁更通用、谁更集成”,百度通过文心5.0的“原生全模态”路线进行了底层架构创新的重要突破 [81][83] - 此次发布被视为公司重新回到AI竞争舞台中心的信号,公司计划以文心5.0为起点,加速“模型-应用-生态”一体化布局,构建以原生全模态能力为底座的智能生态体系 [84]