Workflow
多模态Agent
icon
搜索文档
火山引擎FORCE大会追踪(1):豆包1.8/Seedance1.5Pro发布
海通国际证券· 2025-12-21 13:32
报告行业投资评级 * 报告未明确给出行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18] 报告的核心观点 * 火山引擎通过发布豆包大模型1.8、音视频模型Seedance 1.5 Pro以及配套的企业平台与定价方案,构建了“模型-平台-定价”一体化的竞争壁垒,旨在系统性降低企业AI规模化部署的门槛与总拥有成本,推动智能体从试点走向规模化部署 [1][4][17] 根据相关目录分别进行总结 豆包大模型表现与升级 * 截至2025年12月,豆包大模型日均token使用量突破**50万亿**,同比增长超**10倍**,服务超**100家**万亿级企业客户,表明模型已在生产环境中实现规模化验证 [1][13] * “50万亿日均tokens”是一项反映实际业务负载、服务等级协议及成本结构的经营指标,表明其已超越“可演示”阶段,进入高并发、长周期的企业生产环境 [2][14] * 豆包1.8的升级重点并非单纯提升文本生成能力,而是系统性增强多工具调用、复杂指令的稳定执行以及操作系统级智能体的可操作性,聚焦解决智能体规模化落地的“最后一公里”问题 [2][15] * 豆包1.8通过将视频理解帧数翻倍并提供长视频分层理解方案,为质量检测、教育培训、安防巡检、门店运营等高价值场景提供了工程化、可集成的能力接口 [2][15] Seedance 1.5 Pro音视频模型 * Seedance 1.5 Pro通过原生音视频联合生成架构实现**毫秒级**音画同步与多语言口型适配 [1][13] * 其“Draft样片”机制可提升约**65%**的创作效率,有效缓解了AI视频生成中输出不稳定、需反复调整的痛点 [1][13] * 该技术将高精度音画同步转化为稳定可交付的方案,有望推动品牌营销、电商内容、短剧等领域将生成式视频纳入标准化、规模化生产流程 [3][16] * 其能力已在豆包、即梦AI等个人端产品完成用户体验验证,并通过企业端API开放集成,形成了从消费端验证到商业端部署的完整商业化路径 [3][16] 企业端支持体系与竞争策略 * 火山引擎推出AgentKit/HiAgent平台,着力解决企业在权限管理、身份认证、可观测性、效果评估及系统运维等环节面临的系统性部署与集成成本 [1][4][17] * 火山引擎推出“AI节省计划”,通过承诺消费换取阶梯折扣的机制,将大模型调用从零散试用转变为可预算、可统筹的集中采购方式,有助于推动AI调用从“项目制费用”纳入企业“常态化IT支出” [1][4][17] * 火山引擎正通过“模型能力+平台工具+定价机制”的组合策略,系统性降低企业AI规模化部署的门槛与总拥有成本,旨在形成更高粘性的客户锁定效应 [4][17]
豆包家族继续发力,Agent是下一个战场?
证券时报网· 2025-12-21 07:17
豆包大模型1.8与多模态Agent战略发布 - 字节跳动在2025冬季FORCE原动力大会上正式发布豆包大模型1.8,切入“多模态Agent”核心赛道,标志着大模型技术进入从认知到协同的质变期 [1] - 公司通过强化模型的自主规划与API调用能力,旨在将AI打造为具备执行力的数字员工,而不仅是知识问答工具 [1] - 此次发布是继豆包手机助手后,公司在AI Agent领域的又一次重要尝试,此前已将大模型能力深度植入手机底层以实现跨应用串联任务 [1] Seedance 1.5 Pro视频生成模型升级 - 公司同步推出Seedance 1.5 Pro音视频创作模型,采用创新的原生音视频联合生成架构,支持环境音、背景音乐、人声等多种元素,实现毫秒级音画同步输出 [2] - 该系列即将上线“Draft样片”功能,允许创作者先生成低分辨率样片预览,其关键要素与最终成片高度一致,数据显示该功能可帮助创作者提升65%的整体效率并减少60%的无效创作成本 [2] - 个人用户已可在豆包、即梦AI等平台体验该模型,企业用户则从12月23日起通过火山引擎API接入服务 [2] 火山引擎的行业策略与成本优化 - 火山引擎总裁认为模型之间最重要的是共同做大市场,公司最早推动模型降价,通过技术大幅降低成本并保持毛利,以加速AI在行业的落地速度 [2] - 火山引擎推出业内首个“AI节省计划”,覆盖所有按量后付费的大模型产品,通过阶梯式折扣最高可帮助企业节省47%的成本 [3] - 公司指出传统IT架构已无法满足Agent时代需求,正在形成以模型为中心的AI云原生架构,并围绕Agent的开发与运营进行重构 [3] AI技术向核心生产系统深度渗透 - 公司通过豆包1.8与Seedance 1.5 Pro的发布,正加速推动AI向核心生产系统的深度渗透 [1][2] - 火山引擎通过从模型能力到基础设施的全面革新,推动AI应用从单一的模型调用向复杂的Agent智能体生态演进,以加速AI能力在各行各业的深度落地 [3]
豆包大模型日均调用量突破50万亿tokens 火山引擎深化AI时代Agent生态变革
新浪财经· 2025-12-19 20:27
中经记者 李静 上海报道 在人工智能技术飞速发展的2025年,大模型技术正从单一的生成能力向复杂的多模态Agent场景深化。 12月18日,火山引擎在2025冬季Force原动力大会上,正式发布了最新的豆包大模型1.8和音视频创作模 型Seedance 1.5 pro。多个权威评测数据显示,豆包大模型在多模态理解、生成能力及Agent能力上,已 跻身全球第一梯队。 另外,火山引擎还交出了一份令人瞩目的AI成绩单。据火山引擎总裁谭待介绍,截至今年12月,豆包 大模型日均token使用量突破50万亿,较去年同期增长超过10倍;并且目前火山引擎已有超过100家企业 客户累计token使用量超过1万亿。 谭待在接受《中国经营报》等媒体记者采访时透露:"火山引擎还会不断通过技术和产品创新,通过更 高层次的封装、成本的优化,推动人工智能技术门槛持续降低,最终实现人工智能的普惠化落地。" 在复杂的商业场景中,单一的问答往往无法解决问题,处理复杂问题的Agent能力就显得更重要。豆包 大模型1.8显著增强了工具调用能力(Tool Use)和复杂指令遵循能力、GUI Agent能力等。 这意味着模型不再被动等待指令,而是能够像 ...
大厂多模态Agent能力激战正酣
证券日报· 2025-12-18 15:40
本次发布的豆包大模型1.8,其核心升级完全围绕"打造更强大的Agent大脑"展开。与单纯追求参数规模 不同,该版本在设计之初便针对多模态Agent场景进行定向优化,在复杂指令遵循、多轮交互以及操作 系统级别的实际操作(OS Agent)能力上实现了系统性增强。 技术突围 在至关重要的多模态理解层面,豆包1.8完成了视觉能力的底层升级。其单次视频理解帧数提升至1280 帧,并能以低帧率解析超长视频,在需要时调用工具对关键片段进行高精度分析。这一能力使得模型能 够处理在线教育课程、工业质检视频等复杂冗长的视觉信息,为Agent在真实场景中自主决策提供了感 知基础。 同步亮相的音视频创作模型Seedance1.5Pro,则从内容创作端展示了多模态融合的更高阶形态。该模型 采用创新的原生音视频联合生成架构,实现了毫秒级的音画同步,并能基于画面景深和角色数量,精准 匹配多人、多语言对话的口型。这解决了AI视频生成中长期存在的"张口无声"或口型错位的顽疾,将技 术从"炫技"推向"实用"。 火山引擎推出上述两个模型,标志着大模型行业已从单纯的参数竞赛,全面进入了以多模态Agent为核 心的产业落地新阶段。赛智产业研究院人工 ...
豆包大模型1.8正式发布,拥有更强多模态Agent能力,豆包日均使用量超过50万亿,推出成本节省计划降幅达47%
硬AI· 2025-12-18 14:05
除主力模型外,火山引擎同步发布图像创作模型Doubao-Seedream-4.5和视频生成模型Seedance系列,进一步完善多模态能力版图。新推出的Seedance-1.0-Pro 支持2至12秒1080P自由生成,可实现多人语言对白和多镜头叙事。 火山引擎正式推出"AI节省计划",一次加入即可覆盖豆包大模型、视频图像创作模型及第三方开源大模型,支持全预付、零预付等灵活付款方式。开源证券研报 指出,此次发布有望推动AI在企业生产场景中的落地应用。 豆包大模型1.8具备更强的多模态Agent能力,256K超长上下文使其能够处理更复杂的信息,擅长处理复杂多步任务。火山引擎正式发布的"AI节省计划",普惠覆盖豆包大模型、豆 包视频及图像创作模型与第三方开源大模型,全面优化用户调用成本,最高节省幅度达47%。 | | | 编辑 | 硬 AI 火山引擎在2025原动力大会上发布豆包大模型1.8,具备更强的多模态Agent能力,256K超长上下文和原生API上下文管理,擅长处理复杂多步任务。 火山引擎总裁谭待在12月18日的大会上透露,平台"万亿Tokens俱乐部"成员已突破100家。并披露豆包大模型日均使用量超50万 ...
【周四美股盘前你需要了解的全球要闻】 通胀超预期放缓!美国11月核心CPI为2.6%,创2021年以来最低涨幅。 美国上周首申人数回落至22.4万人,好于预期。 特朗普:将很快宣布新任美联储主席,是一个认同低利率的人选。 5比4惊险过关!英国央行“鹰派”降息25个基点,称进一步判断宽...
搜狐财经· 2025-12-18 14:05
【周四美股盘前你需要了解的全球要闻】 通胀超预期放缓!美国11月核心CPI为2.6%,创2021年以来最 低涨幅。 美国上周首申人数回落至22.4万人,好于预期。 特朗普媒体集团盘前一度大涨逾30%,公司拟并购核聚变公司TAE,计划明年开始建设核聚变发电厂。 报道:OpenAI已商讨以约7500亿美元估值融资数百亿美元,最高1000亿美元。 豆包大模型1.8正式发布,拥有更强多模态Agent能力。 礼来:患者从Wegovy、Zepbound转用其口服药后能有效维持减重成果。 对冲基金巨头纷纷涌入,Steve Cohen旗下Point 72考虑开启大宗商品交易。 * 日经225收跌1%,沪指收涨0.16%;恒生指数收涨0.12%。 特朗普:将很快宣布新任美联储主席,是一个认同低利率的人选。 5比4惊险过关!英国央行"鹰派"降息25个基点,称进一步判断宽松将更艰难。 欧央行连续第四次按兵不动,重申通胀将在中期回归2%目标。 德国上调明年发债规模至5120亿欧元,为基建和国防输血。 美光科技美股盘前涨超14%,芯片需求旺盛,美光业绩与指引双双"爆表"。 ...
港股尾盘走强!关注今晚大事件,明天日本央行或加息、股指期货交割
搜狐财经· 2025-12-18 09:04
再来看今天的重磅消息: 昨天科技股大涨,今天科技股大跌,这行情跟玩似的,只要动了追高的歪心思大概率就会被套。然后过了一天,平常消息灵通的 各大渠道,也没给出昨天到底是什么资金在买,为啥买?难道真是要守住3800点吗?那这跨度还挺大的,我记得去年gjd是在跌破 3000后才开始护盘。 今日火山引擎原动力大会上,火山引擎总裁谭待正式发布豆包大模型1.8。该模型具备更强多模态Agent能力,256K超长上 下文、原生API上下文管理,擅长复杂多步任务。谭待透露,豆包大模型日均使用量(Tokens)超过50万亿,自发布以来增 长417倍。 据报道,福特汽车取消了与LG新能源签订的65亿美元(折合人民币约460亿元)电动汽车电池合同,金额相当于LG新能源去年 总收入的37.5%,LG股价暴跌近9%,今天A股宁德时代股价也大跌近3%。 昨晚纳指大跌,走势已经不好看了,英伟达更是面临破位风险,纳指想要企稳反弹,除了AI产业趋势外,更需要"金发姑 娘"的叙事。周二美国公布的非农就业数据,算是给出了一个"差又没到衰退"的场景,如果今晚的通胀数据低于预期,那有 望提振降息叙事,反之如果通胀超预期反弹,那对于当前依赖债务融资的AI ...
豆包 1.8 多模态超越谷歌Gemini 3!字节祭出“推理代工”,要做模型届的英特尔?
AI前线· 2025-12-18 07:24
运行效率方面,豆包 1.8 的 TPM(每分钟处理 Token 数)达到了 5000k,而 RPM(每分钟请求数)为 30k。 谭待表示,这些能力让豆包 1.8 在 AIME 2025 等 Agent 评测集上稳步提升,在通用智能体测评 Benchmark 上取得全球领先成绩;在多模态理解 方面,于视觉判断准确性、空间理解、文档解析、视频运动识别等多项能力上超越 Gemini 3,在其他任务上也都处于全球第一梯队水平。 | | | | | 豆包大模型1.8 | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | | | | | | | | Qwen3-235b-a22b- | | | 紹力推度 | 测浮集 | GPT-5 High | Claude-Sonnet-4.5 | Gemini-3-pro | Doubao Seed-1.8 | Doubao Seed-1.6-1015-high | thinking | | | 数学 | AIME-25 | 94.6 | 87.0 | 95.0 | 94.3 | 85.0 | 87 ...
前字节剪映AI产品负责人创业,获硅谷基金及BV百度风投投资,要做营销多模态Agent
36氪· 2025-11-01 01:16
文章核心观点 - 文章聚焦于AI多模态领域的创业机会,认为当前技术拐点已至,创业公司应聚焦于垂直场景的AI应用开发,而非基础模型[7][8][9] - 核心论点是企业用户不需要复杂的AI工具,而是需要能够直接交付成品视频的端到端解决方案,这存在明确的商业机会[11][21][30] - 面对Sora等基础模型的快速迭代,应用层公司应将自己定位为"造船的人",利用底层模型能力的提升来增强自身产品,并保持快速迭代以应对变化[7][44][78] 创始人背景与创业契机 - 创始人廖谦拥有丰富的AI产品经验,曾在腾讯云、字节跳动火山引擎和剪映负责AI产品,其主导的产品曾达到千万DAU和百万月活[5][13][17] - 2024年初Sora的发布被视为多模态的"ChatGPT时刻",促使廖谦加入生数科技,带领Vidu产品从0到1达到数千万美金收入[5][18][19] - 在生数科技期间,通过处理上千单企业级AIGC需求,发现企业端到端交付解决方案的痛点,从而决定创立"极致上下文"公司[8][20][21] - 公司于2024年8月成立,在融资PPT未完成的情况下,半个月内迅速敲定了由HT investment和BV百度风投投资的数百万美金首轮融资[5] 公司定位与产品战略 - "极致上下文"公司不做基础模型,而是定位为"造船的人",即通过整合各种AI模型能力,为企业提供端到端的营销视频生成服务[7][9][30] - 首款产品是一个营销Agent,前端通过多模态交互理解企业需求,后端整合AI模型,直接交付成品视频,而非工具[9][30][34] - 公司选择从"生产力信息"场景切入,如企业营销内容,因为这类需求ROI清晰可量化,目标是将制作成本降低十倍,速度提升百倍[9][35][36] - 未来愿景是打造一个新时代的"AI表达系统",但当前阶段务实聚焦垂直场景,类比移动互联网早期应专注像美团、滴滴这样的垂直应用[10][31][69] 技术拐点与市场判断 - 多模态模型在2024年达到商业化拐点,效果与成本综合达标,AI生成视频成本相比传统制作可降低到十分之一[23][36] - 2024年9月ChatGPT o1的发布标志着大模型推理能力成为优化问题而非可行性问题,多模态模型的一致性也得到显著提升[24][25] - 中国在AI视频领域具有独特优势,短视频生态领先全球1-2年,国内对视频落地的理解和经验可以迁移至海外市场[10][17][62] - 多模态领域的发展路径与大语言模型不同,数据质量的重要性远超参数规模,数据做得好即使模型不大效果也可能很好[60][61] 对Sora的评估与行业影响 - Sora App的发布被评估为一项AI System而不仅是模型,其具备叙事能力和镜头语言,尤其在社交娱乐内容上表现领先[47][48][50] - Sora的发布对应用层公司是重大利好,意味着可用工具更强大、门槛更低,同时会刺激整个行业和资本市场的活跃度[43][45][51] - OpenAI通过Sora App的账号体系设计显示出其构建GPT生态的野心,将永久降低AI社交和娱乐的毛利,迫使大厂防守[54][55] - 创业公司需找到足够硬的切入点,使用户愿意"多持"不同产品,并建立快速反应机制,以每周迭代应对基础模型每两三个月的更新[58][78] 商业模式与未来拓展 - 商业模式是直接交付服务结果(如合格视频),而非保证业务效果(如转化率),价格和质量标准明确,用户为确定性的交付物付费[72][73] - 未来拓展方向是沿垂类场景进行,如教育、办公等,因不同场景的交互形态和行业知识差异大,通用Agent难以做深[69][70][76] - 信息表达正进入"生成时代",AI能聚合理解信息后动态生成全新内容,实现真正个性化,这改变了推荐时代的游戏规则[67][68][76] - 创业公司应更冒险和激进,尝试未被验证的可能性,建立快速迭代文化以在不确定的技术环境中保持竞争力[80][81][83]
启明创投于WAIC 2025再发AI十大展望:围绕基础模型、AI应用、具身智能等
机器人圈· 2025-07-29 09:41
启明创投AI领域布局 - 启明创投是中国在AI领域最早投资且布局最丰富的投资机构 [1] - 连续三年主办世界人工智能大会"启明创投·创业与投资论坛" [2] - 累计投资100余个AI项目,覆盖AI产业全链条 [2] - 是人工智能领域中国乃至亚洲最活跃、最具影响力的投资机构 [2] 2025启明创投AI十大展望 基础模型 - 未来12-24个月,200万Token的上下文窗口将成为顶级AI模型的标配 [3] 多模态模型 - 通用视频模型有望在12-24个月内出现,可处理视频模态下的生成、推理与任务理解 [4] AI Agent - Agent形态将从"工具辅助"走向"任务承接",首批真正意义上的"AI员工"将进入企业 [5] - 多模态Agent将不断走向实用化,在医疗、金融、法律等行业率先实现突破 [5] AI基础设施 - AI芯片领域将有更多"国设"且"国造"的GPU开启批量交付 [6] - 未来12-24个月Token消耗量将提高1至2个数量级 [6] AI应用 - AI交互范式转移将在未来两年内加速到来,推动AI原生超级应用的诞生 [7] - 垂直场景中的AI应用潜力巨大,初创公司将采用"Go Narrow and Deep"策略 [7] - AI BPO模式将在未来12-24个月实现商业化突破 [7] 具身智能 - 具身智能机器人将率先在拣选、搬运、组装等场景实现规模化部署 [8]