AI视频生成
搜索文档
日耗50万亿Token,火山引擎的AI消费品战事
36氪· 2025-12-19 10:31
大模型已经从单点能力, 进入系统工程的较量。 文 | 陆莫斯 封面来源 | AI生成 如果想知道AI市场到底发展成什么样,火山引擎已经是中国市场当仁不让的风向标。 "截至今年12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍。"12月18日,在人头攒动的Force大会现场,火山引擎总裁谭待宣布 了这一数字。 2025年,这一数字仅为16.4万亿 图源:火山引擎 MaaS(模型即服务),是最直接的观察模型消耗量的指标。单论这一市场,如今火山引擎已经成为国内市场份额第一,全球也能排在第三位。 2025年中旬,云厂商争夺"AI云第一"的硝烟还未停息,到了今年最后一个月,各个大厂又端上了各个新版本——前有谷歌的旗舰模型Gemini 3、视频模型 Veo 3.1炸场,后有OpenAI的GPT-5.2紧追不舍。在国内,包括阿里、腾讯等巨头也纷纷端出了新模型的更新。 如果要给2025年的AI市场概括关键词,多模态和Agent必定在榜。 这次的Force大会,火山引擎重点发布的产品,也围绕这两方面展开: 模型侧:豆包旗舰模型1.8、以及视频生成模型Seedance 1.5 pro; 围绕Agent开 ...
推理成本砍半 百集短剧不穿帮
南方都市报· 2025-12-18 23:15
Seko 2.0的操作界面。 AI视频生成正在从"炫技"的阶段,加速进入"算账"的商业落地期。 12月15日,商汤科技发布首个创编一体、多剧集生成智能体——Seko 2.0。与以往单纯强调生成效果不 同,此次更新将核心能力指向了"多剧集的一致性",更披露了在国产化算力适配上的重要进展。 南都记者从发布会上获悉,商汤日日新Seko系列模型已实现对国产AI芯片寒武纪的适配。商汤Seko产 品负责人王子彬在接受南都记者采访时透露,通过模型蒸馏、算子优化及国产芯片适配,Seko目前的推 理成本下降约50%。 "对用户而言几乎无感,可以通过国产化芯片拿到同样质量的视频产出。"王子彬向南都记者坦言,从英 伟达生态迁移到国产芯片,研发端确实经历过模型调优、通信及并发等挑战,但最终效果已基本一致。 更关键的是,这一适配带来了成本优势。 业内人士指出,视频生成属于非实时任务,相较于对延迟极度敏感的实时交互场景,更适合国产芯片发 挥其高性价比的优势。王子彬透露,随着模型结构蒸馏技术的应用以及与寒武纪等国产硬件的联合优 化,推理成本下降约50%,意味着AI视频工具的边际成本将持续降低。 这一数据的披露,意味着AI视频赛道竞争焦点正 ...
奥特曼飙河南话,小扎马斯克真人约架!豆包新模型把AI视频玩成「活人」
搜狐财经· 2025-12-18 12:26
新智元报道 最近的AI视频模型大混战,豆包也下场了! 就在今天,火山引擎在FORCE大会上,正式发布了豆包视频生成模型Seedance 1.5 pro,生成效果一下子就把我们震到了。 比如,被谷歌折磨得不行的OpenAI CEO奥特曼,痛苦扶额飙出河南方言: 编辑:编辑部 【新智元导读】就在刚刚,字节Seedance 1.5 pro一上线,网友们都玩疯了!音画同步、方言直出效果太惊艳,文物直播、熊猫唠嗑、小扎和马斯克上演 真人角斗,这个模型的升级,将彻底改变未来的AI视频制作流程。 唉呀,最近谷歌咋恁牛咧?发那个模型直接给咱干趴下了!昨天的生图模型都没人瞅! 甚至,已经有网红大V用它做出爆款视频了。 老祖宗文物们走进直播间里开始孤身摇,一边还唱着时下最火的热门歌曲,如此脑洞十足的视频,眼看着就要在小红书开始病毒式传播。 不用怀疑,这么逼真的效果,背后都来自Seedance 1.5 pro的加持! 没错,这次的全方位升级,直接让它在AI视频模型中全面领先。 首先,Seedance 1.5 pro可以支持音视频联合生成了,不再局限于视觉维度。 其次,模型的视觉冲击力和运动效果,又一次突破了上限。 多语言的超自然对 ...
AI视频生成,如何撕开创作边界?
36氪· 2025-12-18 09:30
01. 当新技术遇上老难题 如果给2025年下半年的AI行业选一个受关注的方向,视频生成几乎是绕不开的答案。在OpenAI发布Sora 2并上线App版本后,AI视频的热度几乎以"病毒 式"的速率在全球范围内迅速扩散开来。 但梳理产业发展的脉络,才会发现,这并非是偶然的产品爆红。背后,是过去两年里视频生成技术在画面质量、时序建模与可用性上的持续进步。Sora、 Veo、通义万相,无论是大公司还是创业公司,不断累加的技术贡献,让全球AI视频相关能力的迭代节奏显著加快。 当技术突破与国内的规模化需求在同一时间点汇合,内容行业逐渐形成一个清晰判断:AI视频生成已经成为下一代内容基础设施的重要组成部分,更稳定 的技术和更快的工具远远不够,创作者们需要的可能是一套更底层、可扩展的生产力方案。 更深层的影响,正在产业内部逐步显现。 当模型的进步不再局限于画面质量本身,而是逐步覆盖叙事能力、人物与风格一致性、音画同步、跨镜头逻辑延续等更接近工业化生产的关键要素。当生成 效果跨过"能看"的门槛,开始接近"可用""好用",AI视频才真正进入大众视野,也随之成为当前极具想象空间的赛道之一。 与此同时,视频行业本身也在面临着一种结 ...
AI视频生成,如何撕开创作边界?
36氪· 2025-12-18 09:26
人人都能创作视频的时代来了。 封面来源 | 通义万相生成 当新技术遇上老难题 如果给2025年下半年的AI行业选一个受关注的方向,视频生成几乎是绕不开的答案。在OpenAI发布Sora 2并上线App版本后,AI视频的热度几乎以"病毒 式"的速率在全球范围内迅速扩散开来。 但梳理产业发展的脉络,才会发现,这并非是偶然的产品爆红。背后,是过去两年里视频生成技术在画面质量、时序建模与可用性上的持续进步。Sora、 Veo、通义万相,无论是大公司还是创业公司,不断累加的技术贡献,让全球AI视频相关能力的迭代节奏显著加快。 更深层的影响,正在产业内部逐步显现。 当模型的进步不再局限于画面质量本身,而是逐步覆盖叙事能力、人物与风格一致性、音画同步、跨镜头逻辑延续等更接近工业化生产的关键要素。当生成 效果跨过"能看"的门槛,开始接近"可用""好用",AI视频才真正进入大众视野,也随之成为当前极具想象空间的赛道之一。 与此同时,视频行业本身也在面临着一种结构性难题。 过去十余年里,围绕视频展开的产业始终是全球范围内增长最快、资本最密集、创新最活跃的领域之一。从影视娱乐、广告营销,到电商内容、社交平台与 创作者经济,视频逐渐 ...
不儿,这谁还能看出是AI演的视频啊
量子位· 2025-12-18 09:26
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 这一次,我真的分不清 视频到底是不是AI生成 的了。 来,咱们先来看一下这段 演技飙升 的视频片段: Prompt:女子泣不成声,说台词:"江辰……你一定要活着回来,好吗?……答应我"。女子边说话边将右手抬起抚摸男子的脸。背景 音乐伤感。影视级。 这台词、这演技、这眼神、这口型,不说是AI生成的,一般人绝对会以为是哪个电影里的片段。 但重点还不是效果的逼真—— 因为这10s的片段,人物对白配音、视频背景音乐和音效,统统都是通过上面的Prompt 一锅出 的。 这就是刚刚 火山引擎 在FORCE原动力大会上推出的最新 豆包视频生成模型Seedance 1.5 Pro 。 主打的就是 音画高精同步,一镜入戏 。 就这个功能一出,打造一个有趣好玩的小短片,那真是分分钟的事情了。 例如我们以这位AI女主角为原型: 然后就可以用Seedance 1.5 Pro搞一个"川剧"—— 《至辣园》 : 从这两个实测案例中,我们不难看出,这次豆包视频生成模型Seedance 1.5 Pro整体亮点可以总结为: 目前,Seedance 1.5 Pro已经上线 即梦AI 和 豆包 ...
硬刚Sora2,万相2.6轻松定制角色、控制分镜,普通人也能当导演
机器之心· 2025-12-17 05:28
行业年度回顾与趋势 - 2025年视频生成领域发展突飞猛进,视频内容创作范式正在发生改变 [1] - 行业在B端和C端商业化落地速度惊人:B端大量AI短剧、漫剧上线,制作成本大幅降低;C端社交平台出现爆款特效,大量博主开始常态化使用AI制作剧情短片 [1] - 顶尖模型生成的画面在光影质感与物理规律上已臻化境,但用户体验门槛依然存在,如高不可攀的内测资格或不菲的订阅费用 [1] 公司产品发布与定位 - 阿里于12月16日正式发布新一代万相2.6系列模型,涵盖文生视频、图生视频、参考生视频、图像生成和文生图共5款模型,是目前全球功能覆盖最全面的视频生成模型家族之一 [2][3] - 万相2.6是**国内首个**具备声画一致性角色定制能力的模型,能通过角色参考固定IP形象,并参考输入视频中的音色,实现从画面到声音的完美复刻 [3] - 该版本进一步提升了画质、音效和指令遵循能力,单次视频生成时长实现了**国内最高的15秒**(参考生视频为10秒) [3] - 模型已同步上线阿里云百炼和万相官网,企业用户可直接调用API,千问APP也将于近期上线 [3] 核心技术能力突破 - 万相2.6具备“参考生视频”能力,成为**全球唯二、国内首个**拥有此能力的模型,允许将任意人或物设定为主角,在多镜头切换中保持核心主体、场景和环境氛围的统一 [7] - 模型在结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,提取主体的时序情绪、姿态、视觉特征及音色、语速等声学特征,实现从视觉到听觉的全感官一致性迁移 [9] - 模型具备“分镜控制”功能,通过高层语义理解将简单提示词转换为多分镜脚本,生成包含多个镜头的连贯叙事视频,确保内容、节奏和氛围的高一致性 [3][9] 产品功能实测与效果 - 实测中,万相2.6能精准提取参考素材中主体的形象特征、声音声线及惯用神态,并可通过提示词将其置入全新剧情 [11] - 在多角色声画同步测试中,模型对科技人物(如奥特曼、哈萨比斯、黄仁勋)的眉眼微表情、肢体语言及习惯性动作还原度极高,英文版能完美复刻其原本的声线与语调 [13][14] - 在细节把控测试中,模型能生成电影级高保真度的特写镜头,完美呈现如眼镜片因热气起雾、皮肤细微纹理和毛孔“呼吸感”等复杂细节,打破了AI生成人物常见的“塑料感” [17][18] - 在长叙事能力测试中,模型展现出了类似专业导演的运镜意识,能通过推拉摇移和景深变化掌控叙事节奏,并高度还原设定的视觉风格与人物情绪 [24] 图像生成能力升级 - 万相2.6在静态图像生成领域完成了版本迭代,在“高美学”与“强可控”上同时迈进 [26][27] - 在文生图方面,新模型实现了对艺术风格的“灵魂捕捉”,对肌理、色彩、笔触等细节刻画更为到位,并能进行平滑自然的风格融合 [27] - 针对人物写实照片,2.6版本综合优化了构图与光影,削弱了“AI塑料感”,人物神态更自然,肤质真实感大幅提升 [29] - 新版本改善了在图片中生成中英文文本的能力,并新增了“图文混排输出”和“多图融合生成”等功能,能依据逻辑创作具有叙事性的绘本或复杂商品组合场景 [31] - 模型提供了商用级的一致性保持能力,以及更精确的镜头远近视角和光影效果控制选项 [33] 应用场景与市场影响 - 万相2.6面向广告设计、短剧制作等专业场景展现出惊人潜力,通过连续提示词能生成完整叙事的短片 [16] - 万相模型家族已支持文生图、图像编辑、文生视频等10多种视觉创作能力,已广泛应用于AI漫剧、广告设计和短视频创作等领域 [35] - 万相2.6的发布标志着AI视频生成告别“抽卡”时代,迈向了精准可控的电影级创作新阶段,将昂贵的影视工业特权折叠进了手机和云端 [36]
千问App接入视频生成模型万相2.6
每日经济新闻· 2025-12-17 03:30
截至12月17日,千问App公测满一个月,一个月来,这款App迅速迭代,共计更新18个版本。 (文章来源:每日经济新闻) 每经上海12月17日电(记者陈婷)12月16日,阿里千问App同步上线最新视频生成模型万相2.6,并向所 有用户免费开放。基于该模型的核心能力,千问App上线"AI小剧场"功能,在国内首次实现"角色合 拍"玩法,用户可与朋友或名人轻松同框出演AI短片。 据了解,"AI小剧场"玩法即基于该模型的角色扮演新功能,目前,仅美国大模型公司OpenAI旗下的 Sora2大模型有类似功能。 ...
商汤发布Seko2.0:已能连贯创作百集短剧,适配寒武纪
南方都市报· 2025-12-17 01:01
"对用户而言几乎无感,可以通过国产化芯片拿到同样质量的视频产出。"王子彬向南都湾财社记者坦 言,从英伟达生态迁移到国产芯片,研发端确实经历过模型调优、通信及并发等挑战,但最终效果已基 本一致。更关键的是,这一适配带来了成本优势。 业内人士指出,视频生成属于非实时任务,相较于对延迟极度敏感的实时交互场景,更适合国产芯片发 挥其高性价比的优势。王子彬透露,随着模型结构蒸馏技术的应用以及与寒武纪等国产硬件的联合优 化,推理成本下降约50%,意味着AI视频工具的边际成本将持续降低。 AI视频生成正在从"炫技"的阶段,加速进入"算账"的商业落地期。 12月15日,商汤科技发布首个创编一体、多剧集生成智能体——Seko 2.0。与以往单纯强调生成效果不 同,此次更新将核心能力指向了"多剧集的一致性",更披露了在国产化算力适配上的重要进展。 南都湾财社记者从发布会上获悉,商汤日日新Seko系列模型已实现对国产AI芯片寒武纪的适配。商汤 Seko产品负责人王子彬在接受南都湾财社记者采访时透露,通过模型蒸馏、算子优化及国产芯片适配, Seko目前的推理成本下降了约50%。 这一数据的披露,意味着AI视频赛道竞争焦点正在逐步转移 ...
一键生成电影级短片,阿里发布万相2.6视频模型
国际金融报· 2025-12-16 06:59
公司产品发布与技术升级 - 阿里于12月16日发布新一代万相2.6系列模型,该模型面向专业影视制作和图像创作场景进行了全面升级[1] - 万相2.6是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能,被官方称为全球功能覆盖最全面的视频生成模型之一[1] - 相比今年9月发布的万相2.5版本,新版本在画质、音效与指令遵循能力上均有显著提升,单次视频生成时长达到目前国内最高的15秒[1] - 万相2.6新增了角色扮演与分镜控制功能,使得模型能够一键生成包含单人、多人或人与物互动的视频内容,并可自动完成多镜头切换等专业影视任务[1] - 该模型已同步上线阿里云百炼平台及万相官网[1] 核心技术特点 - 技术层面,万相2.6通过对参考视频进行多模态联合建模,同步提取时序化视觉特征与声学特征,在生成过程中实现画面与声音的全感官一致性迁移[1] - 在分镜控制方面,模型能基于高层语义理解构建具备完整故事线的多镜头段落,并在镜头切换中保持主体、场景与氛围的统一[1] 应用场景与行业影响 - 该模型进一步降低了专业视频制作的门槛,用户上传一段个人视频并输入风格提示词,万相2.6即可自动完成分镜设计、角色演绎与画面配音,生成电影级短片[2] - 在广告设计、短剧制作等场景中,连续提示词可驱动模型生成叙事连贯、镜头语言专业的视频内容[2] - 目前,万相模型家族已支持文生图、图像编辑、文生视频、角色扮演等十余项视觉创作能力,广泛应用于AI漫剧、广告创意及短视频制作等领域[2]