Workflow
大一统多模态引擎
icon
搜索文档
可灵 O1:多模态视频创作的“大一统时刻”终于到来
经济观察网· 2025-12-03 02:06
产品定位与技术架构 - 可灵O1是一个“大一统多模态引擎”,旨在重构视频创作范式,实现从语义理解到视频生产的全链路统一 [2] - 其底层逻辑基于多模态视觉语言,将图片、视频、文字、角色、场景等所有输入视为语义矩阵的一部分,统一理解为指令,并在同一推理体系内完成生成与编辑 [2] - 该模型将参考生视频、文生视频、首尾帧生成、内容增删、风格重绘、镜头延展等任务整合到同一条语义链中,解决了传统视频创作工具碎片化的问题 [4] 核心技术突破与能力 - 模型在底层重建了对图像和视频的深层理解,能像导演一样记住并稳定保持主体一致性,包括角色的脸、服装纹理、灯光方向及道具在镜头间的延续 [4] - 能够独立锁定复杂多主体场景中每个人物的特征并保持稳定,使得群像戏的规模化生成成为可能 [4] - 采用了新的Multimodal Transformer和长上下文结构,实现了生成、编辑与理解的真正融合,允许创作者同时提出多个目标,由AI自行统筹逻辑关系 [6] - 提供3到10秒的自由生成区间,将叙事时长的控制权交还给用户,使创意不再受限于固定模板 [5] 用户体验与创作变革 - 用户可通过自然语言指令完成复杂操作,例如“换天空、删路人、保持角色一致”,而无需进行复杂的masking、跟踪、调色与补帧 [2] - 创作指令尺度发生根本变化,从传统的区域修改变为语义级指令,如“让黄昏更柔和一些”、“把主角的衣服换成黑色”、“沿着这条街道往前三秒” [4] - 创作者无需在不同App、插件和工作流之间切换,技术障碍不再成为创意边界的上限 [4] - 图像模型可灵图像O1与视频能力共同构成完整的多模态创作体系,支持高度一致的视觉呈现,使“所想即所得”更接近字面意义 [5] 行业应用与成本影响 - 在影视行业,能生成多镜头的连贯叙事片段,并稳定保持服化道及角色特征 [5] - 在自媒体创作中,删除路人、调色、替换背景等后期工作可通过一句自然语言指令完成 [5] - 在广告电商场景,成为一个虚拟摄影棚,只需商品图、模特、场景的组合与指令即可批量生成大片级Lookbook [5] - 颠覆传统成本结构,过去需要模特、场地、灯光团队及多轮拍摄的商业广告,现在只需一张产品图和几句指令就能产出多套视觉方案,将迭代周期压缩至分钟级 [6]