可灵AI视频「O1模型」 - 财报，业绩电话会，研报，新闻

可灵AI视频「O1模型」

搜索文档

量子位· 2025-12-02 09:32

文章核心观点 - 在ChatGPT发布三周年之际，快手旗下可灵AI视频发布了“全球首个统一多模态视频模型”——O1模型，该模型将视频修改、镜头延展、多主体参考等多种功能整合进一个统一模型中，实现了深层语义理解的“一把梭” [1] - 通过实测，O1模型在多主体元素一致性、局部编辑自然度、长视频生成（支持3-10秒）等方面表现稳定，为长视频创作者提供了便利，有望将以往需要在多个工具间切换的工作一站式完成 [6][12][53] - 可灵在发布AI视频O1模型的次日，紧接着发布了图片O1模型，进一步扩展了其多模态生成能力 [55][56] 模型核心功能与亮点 - **全能指令**：支持以照片、视频、文字作为指令，一句话即可调度多模态素材 [10] - **全能参考**：在镜头转换中能保持主体的高度一致性，并支持多个角色的自由组合 [11] - **超多创意**：支持组合不同技能，一次生成多种创意变化，并允许用户自由设定3-10秒的生成时长 [12] 多图参考生成能力实测 - 该功能的核心挑战在于保持镜头连贯性与主体一致性，实测中，例如生成“蒙娜丽莎逃离卢浮宫”的剧情视频，从画框到走廊再到大厅的转场自然顺滑，镜头跟踪稳定 [13] - 但在处理更细致的动词指令（如“蹑手蹑脚”、“捉到”）时，模型的理解尚未完全到位 [15] - 在生成包含多个特定人物（如硅谷大佬）的复杂场景时，可能出现人物角色混淆或背景环境与文化契合度不足的情况 [20] 视频局部编辑能力实测 - 用户可以对视频中的局部元素进行替换、删除或增加，类似于将PS的局部功能应用于视频 [22] - 实测案例显示，即使在主体移动状态下（如将遛狗视频中的狗替换为赛博机器狗），模型也能保证画面元素不崩坏，处理效果良好 [25][27] - 在改变视频画风或元素（如将像素风视频中的“东方明珠”替换为“雪王”）时，处理结果自然，几乎没有违和感 [30][32] 镜头延展与动作捕捉能力实测 - **动作捕捉**：实测中，模型能根据参考舞蹈动作，让“魔性企鹅”近乎1:1地还原舞蹈动作，动作捕捉成功 [34][36] - **镜头延展**：基于一段5秒的原视频，模型能根据提示词生成后续剧情镜头，在测试中保持了不错的人物一致性，但对某些特定动作指令（如“落在肩上”、“回头”）的执行可能不完整 [37][39][41] 其他创意玩法实测 - **OOTD换装**：通过拖拽服装、配饰元素，模型可快速生成动态版换装效果，便于直观展示服装上身效果 [43] - **3D特效生成**：例如，让一张干裂土地的明信片“长出枝芽”并呈现3D立体效果，模型能逼真地展现破土而出、迅速生长的过程，立体感强 [45][46][48] - **画面元素活化**：例如，让明信片中的丹顶鹤振翅飞出画框并激起涟漪，模型在保持周围环境元素一致性、避免穿帮方面表现到位 [50][52][53]

快手(HK:01024)

AI视频生成

Artificial Intelligence

可灵AI视频「O1模型」

AI视频生成

Artificial Intelligence

可灵AI视频「O1模型」