大一统多模态引擎 - 财报，业绩电话会，研报，新闻

大一统多模态引擎

搜索文档

经济观察网· 2025-12-03 02:06

产品定位与技术架构 - 可灵O1是一个“大一统多模态引擎”，旨在重构视频创作范式，实现从语义理解到视频生产的全链路统一 [2] - 其底层逻辑基于多模态视觉语言，将图片、视频、文字、角色、场景等所有输入视为语义矩阵的一部分，统一理解为指令，并在同一推理体系内完成生成与编辑 [2] - 该模型将参考生视频、文生视频、首尾帧生成、内容增删、风格重绘、镜头延展等任务整合到同一条语义链中，解决了传统视频创作工具碎片化的问题 [4] 核心技术突破与能力 - 模型在底层重建了对图像和视频的深层理解，能像导演一样记住并稳定保持主体一致性，包括角色的脸、服装纹理、灯光方向及道具在镜头间的延续 [4] - 能够独立锁定复杂多主体场景中每个人物的特征并保持稳定，使得群像戏的规模化生成成为可能 [4] - 采用了新的Multimodal Transformer和长上下文结构，实现了生成、编辑与理解的真正融合，允许创作者同时提出多个目标，由AI自行统筹逻辑关系 [6] - 提供3到10秒的自由生成区间，将叙事时长的控制权交还给用户，使创意不再受限于固定模板 [5] 用户体验与创作变革 - 用户可通过自然语言指令完成复杂操作，例如“换天空、删路人、保持角色一致”，而无需进行复杂的masking、跟踪、调色与补帧 [2] - 创作指令尺度发生根本变化，从传统的区域修改变为语义级指令，如“让黄昏更柔和一些”、“把主角的衣服换成黑色”、“沿着这条街道往前三秒” [4] - 创作者无需在不同App、插件和工作流之间切换，技术障碍不再成为创意边界的上限 [4] - 图像模型可灵图像O1与视频能力共同构成完整的多模态创作体系，支持高度一致的视觉呈现，使“所想即所得”更接近字面意义 [5] 行业应用与成本影响 - 在影视行业，能生成多镜头的连贯叙事片段，并稳定保持服化道及角色特征 [5] - 在自媒体创作中，删除路人、调色、替换背景等后期工作可通过一句自然语言指令完成 [5] - 在广告电商场景，成为一个虚拟摄影棚，只需商品图、模特、场景的组合与指令即可批量生成大片级Lookbook [5] - 颠覆传统成本结构，过去需要模特、场地、灯光团队及多轮拍摄的商业广告，现在只需一张产品图和几句指令就能产出多套视觉方案，将迭代周期压缩至分钟级 [6]