可灵AI视频「O1模型」
搜索文档
快手可灵也吃上了香蕉,一通离谱prompt测试,好好玩要爆了
量子位· 2025-12-02 09:32
文章核心观点 - 在ChatGPT发布三周年之际,快手旗下可灵AI视频发布了“全球首个统一多模态视频模型”——O1模型,该模型将视频修改、镜头延展、多主体参考等多种功能整合进一个统一模型中,实现了深层语义理解的“一把梭” [1] - 通过实测,O1模型在多主体元素一致性、局部编辑自然度、长视频生成(支持3-10秒)等方面表现稳定,为长视频创作者提供了便利,有望将以往需要在多个工具间切换的工作一站式完成 [6][12][53] - 可灵在发布AI视频O1模型的次日,紧接着发布了图片O1模型,进一步扩展了其多模态生成能力 [55][56] 模型核心功能与亮点 - **全能指令**:支持以照片、视频、文字作为指令,一句话即可调度多模态素材 [10] - **全能参考**:在镜头转换中能保持主体的高度一致性,并支持多个角色的自由组合 [11] - **超多创意**:支持组合不同技能,一次生成多种创意变化,并允许用户自由设定3-10秒的生成时长 [12] 多图参考生成能力实测 - 该功能的核心挑战在于保持镜头连贯性与主体一致性,实测中,例如生成“蒙娜丽莎逃离卢浮宫”的剧情视频,从画框到走廊再到大厅的转场自然顺滑,镜头跟踪稳定 [13] - 但在处理更细致的动词指令(如“蹑手蹑脚”、“捉到”)时,模型的理解尚未完全到位 [15] - 在生成包含多个特定人物(如硅谷大佬)的复杂场景时,可能出现人物角色混淆或背景环境与文化契合度不足的情况 [20] 视频局部编辑能力实测 - 用户可以对视频中的局部元素进行替换、删除或增加,类似于将PS的局部功能应用于视频 [22] - 实测案例显示,即使在主体移动状态下(如将遛狗视频中的狗替换为赛博机器狗),模型也能保证画面元素不崩坏,处理效果良好 [25][27] - 在改变视频画风或元素(如将像素风视频中的“东方明珠”替换为“雪王”)时,处理结果自然,几乎没有违和感 [30][32] 镜头延展与动作捕捉能力实测 - **动作捕捉**:实测中,模型能根据参考舞蹈动作,让“魔性企鹅”近乎1:1地还原舞蹈动作,动作捕捉成功 [34][36] - **镜头延展**:基于一段5秒的原视频,模型能根据提示词生成后续剧情镜头,在测试中保持了不错的人物一致性,但对某些特定动作指令(如“落在肩上”、“回头”)的执行可能不完整 [37][39][41] 其他创意玩法实测 - **OOTD换装**:通过拖拽服装、配饰元素,模型可快速生成动态版换装效果,便于直观展示服装上身效果 [43] - **3D特效生成**:例如,让一张干裂土地的明信片“长出枝芽”并呈现3D立体效果,模型能逼真地展现破土而出、迅速生长的过程,立体感强 [45][46][48] - **画面元素活化**:例如,让明信片中的丹顶鹤振翅飞出画框并激起涟漪,模型在保持周围环境元素一致性、避免穿帮方面表现到位 [50][52][53]