Workflow
视频生成模型
icon
搜索文档
全球功能最全的视频生成模型来了
量子位· 2025-12-17 10:00
公司产品发布 - 阿里发布了新一代通义万相2.6系列模型,该模型一次性覆盖文生视频、图生视频、参考生视频、图像生成和文生图,是目前全球功能最全的视频生成模型 [1] - 该模型在视频创作上推出了Sora2目前还没有的多音频驱动生视频能力,并同步引入了音画同步、多镜头叙事等能力 [2] 视频生成核心能力升级 - **视频参考生成**:支持视频参考,模型能提取其中主体的外观与音色,并结合提示词生成新视频内容,可用于单人表演或双人合拍等场景 [12] - **多镜头叙事**:支持多镜头生成,保持镜头间关键信息一致,可通过简单提示词完成分镜 [12] - **自然声画同步**:在多人对话等复杂场景中,语音与动作匹配更稳定 [12] - **长视频生成**:单条视频最长15秒(参考生视频最长10秒) [12] - **基础能力提升**:在指令理解与执行、画面真实度及整体美学表现等方面均有加强 [12] 视频生成能力实测表现 - **视频参考生成效果**:在主体一致性和提示词理解上做得比较扎实,能实现1:1还原,口型匹配较为准确,动作、表情与台词语义能够对应,但生成结果中的声线并未完全沿用原视频 [11] - **声画同步效果**:在双人剧情对话等复杂场景中,动作与语言能形成完整互动,模型能补全台词并添加与动作匹配的拟声细节,能区分不同角色的情感变化,但在多角色台词绑定上仍有提升空间,偶尔会出现角色说错台词或字幕语音未完全对齐的情况 [13] - **画面质感与美学**:在画面质感和美学呈现方面有提升,能准确呈现如“第一人称赛博城市飞行视角”等复杂提示词,生成具有电影级画面质感、节奏紧凑、科幻感强烈的视频 [13][14] - **多镜头叙事效果**:对多镜头叙事的理解较为到位,镜头中的主要动作和转场均能得到完整呈现,镜头衔接自然,但对于提示词中描述不够充分的抽象动作(如“探头观察”)仍存在理解难度 [15][17][18] 图像生成能力升级 - 图片生成功能在美学理解、人像生成、文字处理、历史文化及知识IP语义理解上带来新升级 [18] - **风格化能力**:能及时掌握并生成新的美学风格,如生成具有高饱和色块拼接、像素风处理的“星露谷风格”插画 [19][20][22] - **人像生成能力**:在人像光影方面的处理更好,能生成具有清晰明暗分区、面部结构立体、肤质细节自然、具有电影感和空间层次感的半身人像 [22][24] - **中英文处理与排版能力**:能生成中英文对照排版的美食宣传海报,在构图排版上判断靠谱,主体突出,文字层级分明,达到成品水准 [25][27] 整体评价与可用性 - 模型在音视频参考、声画同步、风格理解方面表现不错,但在个别场景下仍会出现画面逻辑偏差、多角色台词对不上、复杂动作理解不到位等小问题 [7][28] - 对于日常短视频创作和二创而言,模型已经是可用且好用的水平,用户敢多跑几次而不用每次都碰运气 [7][28][29] - 模型还在多图融合、美学要素迁移、历史知识语义理解上做了提升 [30]
阿里,最新发布!
证券时报· 2025-12-16 09:56
人人都能当电影主角了。 12月16日,阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图像创作场景进行了全面升 级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支持音画同步、多镜头生成及声音 驱动等功能,是全球功能最全的视频生成模型。据了解,万相2.6已同步上线阿里云百炼、万相官网。 点击关键字可查看 今年9月,阿里率先在国内发布音画同步的视频生成模型万相2.5,极大提升视频创作的效率,在权威大模型评 测集LMArena上,万相图生视频位居国内第一。此次发布的万相2.6进一步提升了画质、音效、指令遵循等能 力,单次视频时长实现国内最高的15s,万相2.6还新增了角色扮演和分镜控制功能,不仅能一键完成单人、多 人、人与物合拍的视频,还能自动实现多镜头切换等专业任务,满足专业影视级场景需求。 值得一提的是,万相2.6的角色扮演功能让普通用户也能在影视级画面里表现精湛的演技。例如,用户上传一 段个人视频,并输入一段科幻悬疑风格的提示词,万相2.6能快速完成分镜设计、角色演绎、画面配音等环节 工作,生成一段镜头叙事完整、电影级运镜的短片,仅需几分钟就能帮用户圆电影主角梦。 责编:李丹 ...
阿里发布通义万相2.6系列模型 上线国内首个角色扮演功能
证券日报· 2025-12-16 07:09
公司产品发布与升级 - 阿里于12月16日发布新一代万相2.6系列模型,该模型面向专业影视制作和图像创作场景进行了全面升级 [1] - 万相2.6是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能,被描述为全球功能最全的视频生成模型 [1] - 该模型已同步上线阿里云百炼平台及万相官网,企业用户可通过阿里云百炼调用模型API,千问APP也将于近期上线该模型并提供更丰富的玩法 [1][2] 产品性能与技术细节 - 万相2.6在画质、音效、指令遵循等能力上较前代有所提升,单次视频时长达到国内最高的15秒 [1] - 模型新增了角色扮演和分镜控制功能,能一键完成单人、多人、人与物合拍的视频,并自动实现多镜头切换等专业任务 [1] - 在分镜控制上,模型通过高层语义理解,能将原始输入构建为具备完整故事线与叙事张力的专业级多镜头段落,并在切换中保持核心主体、场景布局和环境氛围的统一 [2] - 通义万相在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,提取时序信息的主体情绪、姿态、多角度视觉特征以及音色、语速等声学特征,以实现从画面到声音的全感官一致性保持与迁移 [1] 产品应用与市场地位 - 万相2.6的角色扮演功能让普通用户也能生成影视级画面,例如用户上传个人视频并输入风格提示词后,模型能在几分钟内完成分镜设计、角色演绎、画面配音等工作,生成电影级短片 [2] - 今年9月,阿里在国内率先发布的万相2.5模型(支持音画同步)已在权威大模型评测集LMArena上,使公司的图生视频能力位居国内第一 [1] - 目前,万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力 [2] - 该系列模型已广泛应用于AI漫剧、广告设计和短视频创作等领域 [2]
阿里发布万相2.6系列模型,上线国内首个角色扮演功能
格隆汇· 2025-12-16 04:50
格隆汇12月16日|阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图像创作场景进 行了全面升级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支持音画同步、 多镜头生成及声音驱动等功能,是全球功能最全的视频生成模型。据了解,万相2.6已同步上线阿里云 百炼、万相官网。 ...
阿里发布电影级视频模型万相2.6
新浪财经· 2025-12-16 04:34
新浪科技讯 12月16日午间消息,阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图 像创作场景进行了全面升级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支 持音画同步、多镜头生成及声音驱动等功能。据了解,万相2.6已同步上线阿里云百炼、万相官网。 新浪科技讯 12月16日午间消息,阿里发布新一代万相2.6系列模型,该系列模型面向专业影视制作和图 像创作场景进行了全面升级,全新的万相2.6是国内首个支持角色扮演功能的视频模型。该模型同时支 持音画同步、多镜头生成及声音驱动等功能。据了解,万相2.6已同步上线阿里云百炼、万相官网。 今年9月,阿里率先在国内发布音画同步的视频生成模型万相2.5,极大提升视频创作的效率,在权威大 模型评测集LMArena上,万相图生视频位居国内第一。此次发布的万相2.6进一步提升了画质、音效、 指令遵循等能力,单次视频时长实现国内最高的15s,万相2.6还新增了角色扮演和分镜控制功能,不仅 能一键完成单人、多人、人与物合拍的视频,还能自动实现多镜头切换等专业任务,满足专业影视级场 景需求。 万相2.6的角色扮演功能让普通用户也能在影视级画面里表现 ...
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
机器之心· 2025-12-05 04:08
文章核心观点 - 视频生成模型的首帧并非时间起点,而是作为内部“概念记忆体”,存储后续帧需引用的所有视觉实体[2][3][9] - 模型天生具备多对象融合与内容定制能力,但默认状态下该能力极不稳定且难以触发[14][38][43] - FFGo方法通过极轻量级微调(仅需20–50个样本)即可稳定激活模型的潜在能力,无需修改模型结构或使用百万级数据[18][21][44] 研究方法与发现 - 团队通过对Veo3、Sora2、Wan2.2等主流视频模型的测试,验证了首帧作为内容缓存区的现象[11] - 研究发现,基础模型在极罕见情况下能成功完成多对象融合任务,证明能力已存在但无法稳定调用[35][37][38] - FFGo的作用被证实并非赋予模型新能力,而是通过学习“触发机制”使其固有能力变得可控和可靠[40][44][47] FFGo技术方案优势 - 方法仅需20–50个精心筛选的视频样本和数小时LoRA训练,即可实现最先进(SOTA)的视频内容定制[17][21][52] - 相比VACE、SkyReels-A2等现有方法,FFGo无需修改模型结构,且能处理多达5个参考实体,而现有方法限制在3个以内并易出现物体丢失[19][22][31] - 技术能有效保持物体身份一致性、避免灾难性遗忘,并在用户研究中以81.2%的票数大幅领先[31][52] 应用场景与技术实现 - 技术亮点覆盖自动驾驶模拟、航拍/水下无人机模拟、多产品展示、影视制作及多角色视频生成六大场景[24] - 采用VLM(如Gemini-2.5 Pro)自动构建高质量训练集,利用SAM2提取物体掩膜,大幅降低人工工作量[27] - 推理时仅需舍弃模型生成的前4帧压缩帧,真正的混合内容从第5帧开始[28]
视频模型原生支持动作一致,只是你不会用,揭开「首帧」的秘密
36氪· 2025-11-28 02:47
核心观点 - 视频生成模型的第一帧并非简单的时间起点,而是作为模型的“概念记忆体”,存储了后续画面所需的所有视觉元素(角色、物体、纹理、布局等)[1][4] - 模型天然具备融合多参考物体的能力,但这种能力默认情况下不稳定、不可控,难以被稳定激活[4][18][21] - FFGo方法通过极低成本(不改模型结构、仅需20–50个样本、几小时LoRA训练)即可稳定激活模型的这种潜在能力,实现高质量视频定制[6][7][22] 技术原理 - 第一帧作为“概念蓝图”,模型会自动将其中的多个视觉实体打包存储,并在后续帧中复用[4][18] - 基础模型在极罕见情况下可通过特殊转场提示词(如“ad23r2 the camera view suddenly changes”)触发多对象融合,证明能力已存在但不可控[18][21] - FFGo的LoRA训练不是教会模型新能力,而是学习如何稳定触发模型已有的“隐藏GPU”,使其持续发挥作用[22] 方法优势 - 无需修改任何预训练视频模型(如Veo3、Sora2、Wan2.2)的结构[6][7] - 仅需20–50个精心挑选的视频样本和几小时的LoRA训练,避免大规模数据需求[7][15] - 不会导致模型过拟合或灾难性遗忘,保持原模型的泛化能力[7][18][22] - 支持多达5个参考实体同时融合,优于VACE/SkyReels-A2等现有方法(限制在3个以内)[9][17] 应用场景 - 机器人操作(Robot Manipulation)[12] - 自动驾驶模拟(Driving Simulation)[12] - 航拍/水下/无人机模拟(Aerial / Underwater)[12] - 多产品展示[12] - 影视制作[12] - 任意多角色组合视频生成[12] 实施流程 - 使用Gemini-2.5 Pro自动识别前景物体,SAM2提取RGBA mask,并自动生成视频文本描述,构建高质量训练集[15] - 训练时直接舍弃前4帧(Wan2.2的压缩帧),从第5帧开始利用真正的混合内容[16] - 推理时无需特殊处理,仅需提供包含多物体/角色的首帧和文本prompt即可生成交互视频[9] 性能表现 - 在画面一致性、物体身份保持、动作连贯性方面表现强劲[9][18] - 用户研究中以81.2%的票数大幅领先现有方法[26] - 输出画面更自然、更连贯,且能高度匹配文本提示(如wingsuit飞行者与Cybertruck贴合运动)[18][23]
具身智能机器人:2025商业元年底色兑现,2026量产元年基色明晰
格隆汇· 2025-11-28 02:07
文章核心观点 - 2025年是具身智能机器人商业化的关键节点,头部厂商已获得亿元级订单,行业总市值突破3万亿元 [1] - 在OEM、供应链及科技巨头的协同推进下,机器替代人力的效率提升、供应链产能布局及多维技术赋能正加速产业升级 [1] - 2026年产业重点在于特斯拉Optimus的量产预期、国产整机厂的资本化加速以及数据和算力规模效应带来的根本性突破 [3][4] 2025年具身智能机器人产业实际进展 - 整机厂方面,多家头部厂商已获得超亿元订单,优必选累计订单超8亿元,智元机器人累计订单超5.2亿元,应用率先落地于科研教育、文化娱乐及数据采集工厂领域 [1] - 供应链方面,为配合特斯拉2026年量产计划,中国供应商正积极布局泰国等海外产能枢纽,覆盖丝杠、轻量化部件等核心环节 [2] - 科技巨头方面,分化成两类路径:一类如华为对标英伟达模式,聚焦芯片、算力、模型等基础设施建设;另一类如美团、京东基于自身业务场景渗透Physical AI,通过构建平台生态竞争 [2] 2026年具身智能机器人产业重点方向展望 - 特斯拉预计2026Q1发布Optimus V3,马斯克薪酬激励计划的达成目标包括累计100万台人形机器人的交付,短期量产目标波动属合理范畴,建议聚焦机器替代人力的实际进展 [3] - 国产链应重点关注整机厂,港股市场已成为“聚集地”,在“18C章”政策支持下,优必选、越疆等企业已登录港交所,具身智能产业有望迎来千亿元级别市值的整机厂标的 [3] - 具身智能模型的根本性突破取决于数据与算力的规模效应,Vision-Language-Action模型性能随数据规模提升而增强,视频生成模型对算力需求持续增强,率先拥有数据和算力资源的玩家将掌握话语权 [4] 行业板块规模与投资主线 - 截至2025年10月,基于100家企业样本,板块整体市值预计已超3万亿元,行业分布上机械、汽车、电子占据主导地位,公司市值占比分别为26%、22%、22% [7] - 板块变化体现三大主线:市值规模投资主线从“大市值→小市值→大市值”回归;产业进展催生小范围主题型投资;国产链崛起加速 [7]
全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密
量子位· 2025-11-26 09:33
产品发布与定位 - 腾讯混元大模型团队正式发布并开源轻量级视频生成模型HunyuanVideo 1.5 [1] - 该模型基于Diffusion Transformer架构,参数量为8.3B,支持生成5-10秒的高清视频 [2] - 模型定位为“开源小钢炮”,以8.3B的极轻量尺寸实现开源最佳效果,显著降低使用门槛,可在14G显存的消费级显卡上运行 [6] 核心能力与性能 - 模型支持中英文输入的文生视频与图生视频,具备强指令理解与遵循能力,能精准实现运镜、流畅运动、写实人物和情绪表情等多种指令 [5][7] - 支持写实、动画、积木等多种风格,并可在视频中生成中英文文字 [5] - 可原生生成5–10秒时长的480p和720p高清视频,并通过超分模型提升至1080p电影级画质 [6] - 在10秒视频生成效率上,较FlashAttention3提速1.87倍 [15] 技术架构与创新 - 采用两阶段框架:第一阶段为8.3B参数的DiT模型,第二阶段通过视频超分模型提升视觉质量 [11][12] - 创新提出SSTA稀疏注意力机制,显著降低视频长序列生成的计算开销 [15][17] - 采用多模态大模型作为文本编码器,并引入byT5对文本OCR进行独立编码,增强视频文本元素的生成准确性 [20] - 采用多阶段渐进式训练策略,结合Muon优化器加速模型收敛,优化运动连贯性、美学质量及人类偏好对齐 [20] 质量优化与增强 - 为图生视频和文生视频任务分别定制了不同的RLHF策略,以修正伪影并提升运动质量 [23] - 视频超分系统采用8.3B主模型作为骨干网络,设计潜空间特征上采样模块,并应用基于MeanFlow的蒸馏算法缩短推理时间 [21][22] - 集成模型蒸馏、Cache优化等关键技术,大幅提升推理效率,降低资源消耗 [28] 应用与生态 - 腾讯元宝最新版已上线该模型能力,用户可在元宝中通过文字和图片生成视频 [3] - 模型已在项目主页、Github、Hugging Face等平台开源,并提供技术报告 [31]
想法流CEO沈洽金:AI驱动的下一代互动内容应该怎么做?|「锦秋会」分享
锦秋集· 2025-11-04 11:01
AI内容行业发展趋势 - AI内容产业正从效率革命转向情感革命,从"可生成"到"可共情",从"自动化创作"到"个性化互动"[4] - AI内容竞争的核心不是模型参数规模,而是共情力与创造力[9] - AI内容的两大核心能力是互动性与想象力,互动创造参与感和情感连接,想象力让内容超越现实[13] 公司产品战略与定位 - 公司不追求让AI更像工具,而是让AI更像"存在",打造具备互动性、想象力与陪伴感的"内容人格"[4][6] - 公司从AI互动故事起家,正在搭建AI共创的内容宇宙,用户从观看者转变为与AI共同创造角色、世界与故事的人[6] - 公司打造AI原生IP生态,已有300多个AI IP角色,由用户共创与社群互动不断演化[13] 技术架构与模型应用 - 公司持续追随模型演化,从文字到图像、音频,再到视频与多模态创作,每次模型迭代都带来新内容形态[13][20] - 公司开发Studio/Workflow系统,将语言、图像、视频、音频模型串联起来,让创作者用可视化流程创作[13] - 创作Agent能基于用户意图自动选择最合适Workflow,并补全Prompt与参数,系统内置Prompt最佳实践库让模型参考人类经验生成内容[13][33] 内容形态演进路径 - 早期基于character模型做带章节结构的互动故事,随后逐步拓展图像玩法、AI音乐音频内容、故事性视频和社交型内容[22] - 视频生成模型出现两大突破:角色一致性和故事性视频生成能力,这使得AI生成内容从特效类转向具备可消费性的剧情片段[43][44] - 公司探索复杂内容类型如海龟汤和规则怪谈类玩法,利用模型更大上下文窗口和更强推理能力实现模板化[60] 创作者生态与用户互动 - AI不会取代创作者,而是辅助和激发创作者,放大他们的创造力与社群连接力[13][76] - 平台提供低门槛模板,即使是初中生用户也能在手机上完成AI创作,不需要懂模型或精通提示词[13][36] - 创作者通过积极与用户互动,接受用户"许愿",不断丰满作品世界观和角色,形成完整故事宇宙[76] 具体功能与商业化实践 - 换装玩法利用新图像生成模型实现角色风格一致性,无需额外训练LoRA模型,万圣节活动用户参与度远超预期[49][50] - 故事线功能基于用户与AI互动上下文自动生成剧情节点与互动成就,并可打包交付给用户,最新版本能扩写成完整小说[66] - 线索卡功能模型自动生成五个新故事线索并配插图,用户逐步解锁,单个作品消费深度显著提升[69]