豆包 1.8 多模态超越谷歌Gemini 3！字节祭出“推理代工”，要做模型届的英特尔？

豆包大模型1.8核心性能与能力 - 火山引擎正式推出新一代豆包大模型1.8，面向多模态Agent场景深度优化 [2] - 模型上下文窗口达256k，最大输入Token长度为224k，最大输出及思考内容Token长度均为64k [2] - 运行效率高，TPM（每分钟处理Token数）达5000k，RPM（每分钟请求数）为30k [3] - 原生支持智能上下文管理，可配置策略清除低价值历史信息，确保多步骤任务稳定完成 [7] 评测表现与行业地位 - 在AIME 2025等Agent评测集上稳步提升，在通用智能体测评Benchmark上取得全球领先成绩 [3] - 多模态理解方面，在视觉判断准确性、空间理解、文档解析、视频运动识别等多项能力上超越Gemini 3，其他任务处于全球第一梯队 [3] - 具体评测数据：在数学（AIME-25）得分94.3，推理（GPQA-Diamond）得分83.8，复杂指令遵循（MultiChallenge）得分66.7，通用智能体（BrowseComp-en）得分67.6 [4] - 多模态能力评测：多模态推理（MMMU-Pro）得分73.2，通用视觉问答（VLMsAreBiased）得分62.0，空间理解（MMS/Bench）得分25.8，文档与图表理解（OmniDocBench）得分0.106，动作机感知（MotionBench）得分70.6，长视频理解（VideoMME）得分87.8 [4] 多模态与Agent应用场景 - 演示中成功规划流程，调用十余个工具，在多个电商平台完成耳机全网比价与最优选择，能力可应用于电商、生活服务及企业自动化流程 [5] - 能快速低帧率浏览1小时4分钟的监控视频，精准定位事故画面并分析肇事车辆与时间，能力可拓展至在线教育、安全巡检、产品质检等领域 [5] - 大幅提升视觉理解基础能力，可低帧率理解超长视频，并在视频运动理解、复杂空间理解、文档结构化解析能力上有所提升 [7] - Tool Use能力、复杂指令遵循能力、OS Agent能力均实现大幅增强 [7] 图像与视频生成能力 - 豆包大模型拥有全球领先的图像与视频生成能力，覆盖从图像创作与编辑、视频生成、数字人制作到3D模型生成的完整创作链条 [8] - 新一代豆包生图模型Seedream 4.5在复杂指令遵循、画面元素保持能力上大幅提升，融入更丰富世界知识 [8] - Seedream 4.5能将不同人物、物体与场景照片智能组合生成创意合影，将汽车渲染成分解结构图，制作多卡通角色主题拼图，实现逼真的模特虚拟试穿及专业级产品营销海报 [8] - 视频生成模型Seedance 1.5 Pro正式登场，核心特点为音画同步输出、多人多语言对白配音及更强的影视级叙事张力 [9] - Seedance 1.5 Pro实现声音与画面在时间、语义上的精准同步，能根据角色数量和身份精准匹配口型，原生支持多种语言及中国各地方言 [9] - Seedance 1.5 Pro能通过提示词生成充满细节和情感张力的画面，驾驭影视级镜头语言和叙事张力 [11] - Seedance系列将上线“Draft样片”功能，可先快速生成低分辨率样片验证创意，帮助用户将整体创作效率提升65%，并减少60%的无效创作成本 [13] 企业服务与市场进展 - 截至今年12月，豆包大模型的日均tokens调用量已突破50万亿，自发布以来实现417倍增长，与去年12月相比实现超过10倍增长 [6] - 2025年已有超过100万家企业及个人使用火山引擎大模型服务，覆盖百余行业，其中超过100家企业在火山引擎的累计tokens使用量突破1万亿 [16] - 火山引擎正式推出“豆包助手API”，将豆包APP核心的对话、思考、搜索、创作等Agent能力以API形式开放，首批文本相关能力已上线 [16] - 豆包APP是国内用户规模最大的AI应用，从技术角度看是中国最复杂、难度最高的AI Agent之一 [16] 成本优化与推理服务 - 火山引擎推出业界首个“AI节省计划”，平台上所有按量付费的大模型均可参与，企业各部门享受统一价格优惠，不同模型用量可合并累计 [17] - “AI节省计划”采用阶梯折扣，用量越多节省越多，最高可节省47%的成本 [17] - 火山方舟正式推出“推理代工”服务，针对典型开源大模型结构提供极致的弹性伸缩、全栈推理优化与分布式缓存等支持 [18] - 用户上传加密模型参数后无需运维底层GPU，根据测试，以云上集群替代自建集群可使硬件与运维成本下降约一半，采用方舟推理代工服务对比云上租赁GPU算力可获得额外1.6倍左右的吞吐提升 [18] - 火山引擎能在分钟级完成百卡到千卡的算力伸缩以应对突发流量 [18] - AI产业的推理与训练走向分工与分层是大势所趋，对大多数团队而言，低成本、高吞吐地“推理好”一个大模型可能比“后训练好”一个模型更为困难 [19]