多模态Agent - 财报，业绩电话会，研报，新闻 - Reportify

多模态Agent

搜索文档

火山引擎FORCE大会追踪（1）：豆包1.8/Seedance1.5Pro发布

海通国际证券· 2025-12-21 13:32

报告行业投资评级 * 报告未明确给出行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18] 报告的核心观点 * 火山引擎通过发布豆包大模型1.8、音视频模型Seedance 1.5 Pro以及配套的企业平台与定价方案，构建了“模型-平台-定价”一体化的竞争壁垒，旨在系统性降低企业AI规模化部署的门槛与总拥有成本，推动智能体从试点走向规模化部署 [1][4][17] 根据相关目录分别进行总结豆包大模型表现与升级 * 截至2025年12月，豆包大模型日均token使用量突破**50万亿**，同比增长超**10倍**，服务超**100家**万亿级企业客户，表明模型已在生产环境中实现规模化验证 [1][13] * “50万亿日均tokens”是一项反映实际业务负载、服务等级协议及成本结构的经营指标，表明其已超越“可演示”阶段，进入高并发、长周期的企业生产环境 [2][14] * 豆包1.8的升级重点并非单纯提升文本生成能力，而是系统性增强多工具调用、复杂指令的稳定执行以及操作系统级智能体的可操作性，聚焦解决智能体规模化落地的“最后一公里”问题 [2][15] * 豆包1.8通过将视频理解帧数翻倍并提供长视频分层理解方案，为质量检测、教育培训、安防巡检、门店运营等高价值场景提供了工程化、可集成的能力接口 [2][15] Seedance 1.5 Pro音视频模型 * Seedance 1.5 Pro通过原生音视频联合生成架构实现**毫秒级**音画同步与多语言口型适配 [1][13] * 其“Draft样片”机制可提升约**65%**的创作效率，有效缓解了AI视频生成中输出不稳定、需反复调整的痛点 [1][13] * 该技术将高精度音画同步转化为稳定可交付的方案，有望推动品牌营销、电商内容、短剧等领域将生成式视频纳入标准化、规模化生产流程 [3][16] * 其能力已在豆包、即梦AI等个人端产品完成用户体验验证，并通过企业端API开放集成，形成了从消费端验证到商业端部署的完整商业化路径 [3][16] 企业端支持体系与竞争策略 * 火山引擎推出AgentKit/HiAgent平台，着力解决企业在权限管理、身份认证、可观测性、效果评估及系统运维等环节面临的系统性部署与集成成本 [1][4][17] * 火山引擎推出“AI节省计划”，通过承诺消费换取阶梯折扣的机制，将大模型调用从零散试用转变为可预算、可统筹的集中采购方式，有助于推动AI调用从“项目制费用”纳入企业“常态化IT支出” [1][4][17] * 火山引擎正通过“模型能力+平台工具+定价机制”的组合策略，系统性降低企业AI规模化部署的门槛与总拥有成本，旨在形成更高粘性的客户锁定效应 [4][17]

豆包大模型1.8

音视频创作模型Seedance 1.5 Pro

AgentKit/HiAgent平台

豆包大模型1.8

音视频创作模型Seedance 1.5 Pro

AgentKit/HiAgent平台

豆包家族继续发力，Agent是下一个战场？

证券时报网· 2025-12-21 07:17

豆包大模型1.8与多模态Agent战略发布 - 字节跳动在2025冬季FORCE原动力大会上正式发布豆包大模型1.8，切入“多模态Agent”核心赛道，标志着大模型技术进入从认知到协同的质变期 [1] - 公司通过强化模型的自主规划与API调用能力，旨在将AI打造为具备执行力的数字员工，而不仅是知识问答工具 [1] - 此次发布是继豆包手机助手后，公司在AI Agent领域的又一次重要尝试，此前已将大模型能力深度植入手机底层以实现跨应用串联任务 [1] Seedance 1.5 Pro视频生成模型升级 - 公司同步推出Seedance 1.5 Pro音视频创作模型，采用创新的原生音视频联合生成架构，支持环境音、背景音乐、人声等多种元素，实现毫秒级音画同步输出 [2] - 该系列即将上线“Draft样片”功能，允许创作者先生成低分辨率样片预览，其关键要素与最终成片高度一致，数据显示该功能可帮助创作者提升65%的整体效率并减少60%的无效创作成本 [2] - 个人用户已可在豆包、即梦AI等平台体验该模型，企业用户则从12月23日起通过火山引擎API接入服务 [2] 火山引擎的行业策略与成本优化 - 火山引擎总裁认为模型之间最重要的是共同做大市场，公司最早推动模型降价，通过技术大幅降低成本并保持毛利，以加速AI在行业的落地速度 [2] - 火山引擎推出业内首个“AI节省计划”，覆盖所有按量后付费的大模型产品，通过阶梯式折扣最高可帮助企业节省47%的成本 [3] - 公司指出传统IT架构已无法满足Agent时代需求，正在形成以模型为中心的AI云原生架构，并围绕Agent的开发与运营进行重构 [3] AI技术向核心生产系统深度渗透 - 公司通过豆包1.8与Seedance 1.5 Pro的发布，正加速推动AI向核心生产系统的深度渗透 [1][2] - 火山引擎通过从模型能力到基础设施的全面革新，推动AI应用从单一的模型调用向复杂的Agent智能体生态演进，以加速AI能力在各行各业的深度落地 [3]

Seedance 1.5 pro音视频创作模型

豆包大模型1.8

豆包手机助手

Seedance 1.5 pro音视频创作模型

豆包大模型1.8

豆包手机助手

豆包大模型日均调用量突破50万亿tokens 火山引擎深化AI时代Agent生态变革

新浪财经· 2025-12-19 20:27

中经记者李静上海报道在人工智能技术飞速发展的2025年，大模型技术正从单一的生成能力向复杂的多模态Agent场景深化。 12月18日，火山引擎在2025冬季Force原动力大会上，正式发布了最新的豆包大模型1.8和音视频创作模型Seedance 1.5 pro。多个权威评测数据显示，豆包大模型在多模态理解、生成能力及Agent能力上，已跻身全球第一梯队。另外，火山引擎还交出了一份令人瞩目的AI成绩单。据火山引擎总裁谭待介绍，截至今年12月，豆包大模型日均token使用量突破50万亿，较去年同期增长超过10倍；并且目前火山引擎已有超过100家企业客户累计token使用量超过1万亿。谭待在接受《中国经营报》等媒体记者采访时透露："火山引擎还会不断通过技术和产品创新，通过更高层次的封装、成本的优化，推动人工智能技术门槛持续降低，最终实现人工智能的普惠化落地。" 在复杂的商业场景中，单一的问答往往无法解决问题，处理复杂问题的Agent能力就显得更重要。豆包大模型1.8显著增强了工具调用能力（Tool Use）和复杂指令遵循能力、GUI Agent能力等。这意味着模型不再被动等待指令，而是能够像 ...

AI云原生架构

音视频创作模型Seedance 1.5 pro

豆包大模型1.8

AI云原生架构

音视频创作模型Seedance 1.5 pro

豆包大模型1.8

大厂多模态Agent能力激战正酣

证券日报· 2025-12-18 15:40

本次发布的豆包大模型1.8，其核心升级完全围绕"打造更强大的Agent大脑"展开。与单纯追求参数规模不同，该版本在设计之初便针对多模态Agent场景进行定向优化，在复杂指令遵循、多轮交互以及操作系统级别的实际操作(OS Agent)能力上实现了系统性增强。技术突围在至关重要的多模态理解层面，豆包1.8完成了视觉能力的底层升级。其单次视频理解帧数提升至1280 帧，并能以低帧率解析超长视频，在需要时调用工具对关键片段进行高精度分析。这一能力使得模型能够处理在线教育课程、工业质检视频等复杂冗长的视觉信息，为Agent在真实场景中自主决策提供了感知基础。同步亮相的音视频创作模型Seedance1.5Pro，则从内容创作端展示了多模态融合的更高阶形态。该模型采用创新的原生音视频联合生成架构，实现了毫秒级的音画同步，并能基于画面景深和角色数量，精准匹配多人、多语言对话的口型。这解决了AI视频生成中长期存在的"张口无声"或口型错位的顽疾，将技术从"炫技"推向"实用"。火山引擎推出上述两个模型，标志着大模型行业已从单纯的参数竞赛，全面进入了以多模态Agent为核心的产业落地新阶段。赛智产业研究院人工 ...

AI云原生架构

Artificial Intelligence

豆包大模型1.8

音视频创作模型Seedance1.5Pro

AI云原生架构

Artificial Intelligence

豆包大模型1.8

音视频创作模型Seedance1.5Pro

豆包大模型1.8正式发布，拥有更强多模态Agent能力，豆包日均使用量超过50万亿，推出成本节省计划降幅达47%

硬AI· 2025-12-18 14:05

除主力模型外，火山引擎同步发布图像创作模型Doubao-Seedream-4.5和视频生成模型Seedance系列，进一步完善多模态能力版图。新推出的Seedance-1.0-Pro 支持2至12秒1080P自由生成，可实现多人语言对白和多镜头叙事。火山引擎正式推出"AI节省计划"，一次加入即可覆盖豆包大模型、视频图像创作模型及第三方开源大模型，支持全预付、零预付等灵活付款方式。开源证券研报指出，此次发布有望推动AI在企业生产场景中的落地应用。豆包大模型1.8具备更强的多模态Agent能力，256K超长上下文使其能够处理更复杂的信息，擅长处理复杂多步任务。火山引擎正式发布的"AI节省计划"，普惠覆盖豆包大模型、豆包视频及图像创作模型与第三方开源大模型，全面优化用户调用成本，最高节省幅度达47%。 | | | 编辑 | 硬 AI 火山引擎在2025原动力大会上发布豆包大模型1.8，具备更强的多模态Agent能力，256K超长上下文和原生API上下文管理，擅长处理复杂多步任务。火山引擎总裁谭待在12月18日的大会上透露，平台"万亿Tokens俱乐部"成员已突破100家。并披露豆包大模型日均使用量超50万 ...

豆包大模型1.8

Viking系列产品

Doubao - Seedream - 4.5

豆包大模型1.8

Viking系列产品

Doubao - Seedream - 4.5

【周四美股盘前你需要了解的全球要闻】通胀超预期放缓！美国11月核心CPI为2.6%，创2021年以来最低涨幅。美国上周首申人数回落至22.4万人，好于预期。特朗普：将很快宣布新任美联储主席，是一个认同低利率的人选。 5比4惊险过关！英国央行“鹰派”降息25个基点，称进一步判断宽...

搜狐财经· 2025-12-18 14:05

【周四美股盘前你需要了解的全球要闻】通胀超预期放缓！美国11月核心CPI为2.6%，创2021年以来最低涨幅。美国上周首申人数回落至22.4万人，好于预期。特朗普媒体集团盘前一度大涨逾30%，公司拟并购核聚变公司TAE，计划明年开始建设核聚变发电厂。报道：OpenAI已商讨以约7500亿美元估值融资数百亿美元，最高1000亿美元。豆包大模型1.8正式发布，拥有更强多模态Agent能力。礼来：患者从Wegovy、Zepbound转用其口服药后能有效维持减重成果。对冲基金巨头纷纷涌入，Steve Cohen旗下Point 72考虑开启大宗商品交易。 * 日经225收跌1%，沪指收涨0.16%；恒生指数收涨0.12%。特朗普：将很快宣布新任美联储主席，是一个认同低利率的人选。 5比4惊险过关！英国央行"鹰派"降息25个基点，称进一步判断宽松将更艰难。欧央行连续第四次按兵不动，重申通胀将在中期回归2%目标。德国上调明年发债规模至5120亿欧元，为基建和国防输血。美光科技美股盘前涨超14%，芯片需求旺盛，美光业绩与指引双双"爆表"。 ...

豆包大模型1.8

豆包大模型1.8

港股尾盘走强！关注今晚大事件，明天日本央行或加息、股指期货交割

搜狐财经· 2025-12-18 09:04

再来看今天的重磅消息：昨天科技股大涨，今天科技股大跌，这行情跟玩似的，只要动了追高的歪心思大概率就会被套。然后过了一天，平常消息灵通的各大渠道，也没给出昨天到底是什么资金在买，为啥买？难道真是要守住3800点吗？那这跨度还挺大的，我记得去年gjd是在跌破 3000后才开始护盘。今日火山引擎原动力大会上，火山引擎总裁谭待正式发布豆包大模型1.8。该模型具备更强多模态Agent能力，256K超长上下文、原生API上下文管理，擅长复杂多步任务。谭待透露，豆包大模型日均使用量（Tokens）超过50万亿，自发布以来增长417倍。据报道，福特汽车取消了与LG新能源签订的65亿美元(折合人民币约460亿元)电动汽车电池合同，金额相当于LG新能源去年总收入的37.5%，LG股价暴跌近9%，今天A股宁德时代股价也大跌近3%。昨晚纳指大跌，走势已经不好看了，英伟达更是面临破位风险，纳指想要企稳反弹，除了AI产业趋势外，更需要"金发姑娘"的叙事。周二美国公布的非农就业数据，算是给出了一个"差又没到衰退"的场景，如果今晚的通胀数据低于预期，那有望提振降息叙事，反之如果通胀超预期反弹，那对于当前依赖债务融资的AI ...

豆包大模型1.8

豆包大模型1.8

豆包 1.8 多模态超越谷歌Gemini 3！字节祭出“推理代工”，要做模型届的英特尔？

AI前线· 2025-12-18 07:24

运行效率方面，豆包 1.8 的 TPM（每分钟处理 Token 数）达到了 5000k，而 RPM（每分钟请求数）为 30k。谭待表示，这些能力让豆包 1.8 在 AIME 2025 等 Agent 评测集上稳步提升，在通用智能体测评 Benchmark 上取得全球领先成绩；在多模态理解方面，于视觉判断准确性、空间理解、文档解析、视频运动识别等多项能力上超越 Gemini 3，在其他任务上也都处于全球第一梯队水平。 | | | | | 豆包大模型1.8 | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | | | | | | | | Qwen3-235b-a22b- | | | 紹力推度 | 测浮集 | GPT-5 High | Claude-Sonnet-4.5 | Gemini-3-pro | Doubao Seed-1.8 | Doubao Seed-1.6-1015-high | thinking | | | 数学 | AIME-25 | 94.6 | 87.0 | 95.0 | 94.3 | 85.0 | 87 ...

豆包大模型1.8

豆包大模型1.8

前字节剪映AI产品负责人创业，获硅谷基金及BV百度风投投资，要做营销多模态Agent

36氪· 2025-11-01 01:16

文章核心观点 - 文章聚焦于AI多模态领域的创业机会，认为当前技术拐点已至，创业公司应聚焦于垂直场景的AI应用开发，而非基础模型[7][8][9] - 核心论点是企业用户不需要复杂的AI工具，而是需要能够直接交付成品视频的端到端解决方案，这存在明确的商业机会[11][21][30] - 面对Sora等基础模型的快速迭代，应用层公司应将自己定位为"造船的人"，利用底层模型能力的提升来增强自身产品，并保持快速迭代以应对变化[7][44][78] 创始人背景与创业契机 - 创始人廖谦拥有丰富的AI产品经验，曾在腾讯云、字节跳动火山引擎和剪映负责AI产品，其主导的产品曾达到千万DAU和百万月活[5][13][17] - 2024年初Sora的发布被视为多模态的"ChatGPT时刻"，促使廖谦加入生数科技，带领Vidu产品从0到1达到数千万美金收入[5][18][19] - 在生数科技期间，通过处理上千单企业级AIGC需求，发现企业端到端交付解决方案的痛点，从而决定创立"极致上下文"公司[8][20][21] - 公司于2024年8月成立，在融资PPT未完成的情况下，半个月内迅速敲定了由HT investment和BV百度风投投资的数百万美金首轮融资[5] 公司定位与产品战略 - "极致上下文"公司不做基础模型，而是定位为"造船的人"，即通过整合各种AI模型能力，为企业提供端到端的营销视频生成服务[7][9][30] - 首款产品是一个营销Agent，前端通过多模态交互理解企业需求，后端整合AI模型，直接交付成品视频，而非工具[9][30][34] - 公司选择从"生产力信息"场景切入，如企业营销内容，因为这类需求ROI清晰可量化，目标是将制作成本降低十倍，速度提升百倍[9][35][36] - 未来愿景是打造一个新时代的"AI表达系统"，但当前阶段务实聚焦垂直场景，类比移动互联网早期应专注像美团、滴滴这样的垂直应用[10][31][69] 技术拐点与市场判断 - 多模态模型在2024年达到商业化拐点，效果与成本综合达标，AI生成视频成本相比传统制作可降低到十分之一[23][36] - 2024年9月ChatGPT o1的发布标志着大模型推理能力成为优化问题而非可行性问题，多模态模型的一致性也得到显著提升[24][25] - 中国在AI视频领域具有独特优势，短视频生态领先全球1-2年，国内对视频落地的理解和经验可以迁移至海外市场[10][17][62] - 多模态领域的发展路径与大语言模型不同，数据质量的重要性远超参数规模，数据做得好即使模型不大效果也可能很好[60][61] 对Sora的评估与行业影响 - Sora App的发布被评估为一项AI System而不仅是模型，其具备叙事能力和镜头语言，尤其在社交娱乐内容上表现领先[47][48][50] - Sora的发布对应用层公司是重大利好，意味着可用工具更强大、门槛更低，同时会刺激整个行业和资本市场的活跃度[43][45][51] - OpenAI通过Sora App的账号体系设计显示出其构建GPT生态的野心，将永久降低AI社交和娱乐的毛利，迫使大厂防守[54][55] - 创业公司需找到足够硬的切入点，使用户愿意"多持"不同产品，并建立快速反应机制，以每周迭代应对基础模型每两三个月的更新[58][78] 商业模式与未来拓展 - 商业模式是直接交付服务结果（如合格视频），而非保证业务效果（如转化率），价格和质量标准明确，用户为确定性的交付物付费[72][73] - 未来拓展方向是沿垂类场景进行，如教育、办公等，因不同场景的交互形态和行业知识差异大，通用Agent难以做深[69][70][76] - 信息表达正进入"生成时代"，AI能聚合理解信息后动态生成全新内容，实现真正个性化，这改变了推荐时代的游戏规则[67][68][76] - 创业公司应更冒险和激进，尝试未被验证的可能性，建立快速迭代文化以在不确定的技术环境中保持竞争力[80][81][83]

信息表达系统

Artificial Intelligence

信息表达系统

Artificial Intelligence

启明创投于WAIC 2025再发AI十大展望：围绕基础模型、AI应用、具身智能等

机器人圈· 2025-07-29 09:41

启明创投AI领域布局 - 启明创投是中国在AI领域最早投资且布局最丰富的投资机构 [1] - 连续三年主办世界人工智能大会"启明创投·创业与投资论坛" [2] - 累计投资100余个AI项目，覆盖AI产业全链条 [2] - 是人工智能领域中国乃至亚洲最活跃、最具影响力的投资机构 [2] 2025启明创投AI十大展望基础模型 - 未来12-24个月，200万Token的上下文窗口将成为顶级AI模型的标配 [3] 多模态模型 - 通用视频模型有望在12-24个月内出现，可处理视频模态下的生成、推理与任务理解 [4] AI Agent - Agent形态将从"工具辅助"走向"任务承接"，首批真正意义上的"AI员工"将进入企业 [5] - 多模态Agent将不断走向实用化，在医疗、金融、法律等行业率先实现突破 [5] AI基础设施 - AI芯片领域将有更多"国设"且"国造"的GPU开启批量交付 [6] - 未来12-24个月Token消耗量将提高1至2个数量级 [6] AI应用 - AI交互范式转移将在未来两年内加速到来，推动AI原生超级应用的诞生 [7] - 垂直场景中的AI应用潜力巨大，初创公司将采用"Go Narrow and Deep"策略 [7] - AI BPO模式将在未来12-24个月实现商业化突破 [7] 具身智能 - 具身智能机器人将率先在拣选、搬运、组装等场景实现规模化部署 [8]

Artificial Intelligence

Artificial Intelligence