A16Z最新洞察：视频模型从狂飙到分化，产品化是下一个机会

行业阶段转变 - 视频生成模型的发展节奏发生变化，从过去每周都有新模型刷新基准成绩的狂飙阶段，进入进步放缓的“产品时代”[1] - 模型性能的进步不再主要体现在参数或基准分数上，而是体现在多样性和专业化上，没有哪一个模型能“通吃全场”[2] - 更大的机会从模型本身转向“围绕模型”的产品构建，能简化创作流程、抽象出复杂操作的工具正变得比模型本体更有价值[2] 模型技术现状 - 大多数主流模型已能生成10–15秒带同步音轨的视频，效果相当惊人但不再令人惊讶，在“真实感”上的突飞猛进已使生成视频几乎和现实看不出差别[1][6] - 所谓“最强模型”的概念在视频领域可能根本不存在，上个月发布的Sora 2在LMarena等测试中甚至不如Veo 3，表现不升反降[4] - 行业可能看到更多风格化、专业化的模型出现，每个模型不再追求通用而是各有特长，视频生成进入“百花齐放”的新阶段[7] 主要模型专业化分工 - Veo 3最擅长物理细节、复杂动作，音画同步也做得最好，缺乏幽默感但动作、镜头、音画同步更精确，适合内容创作者、影视工作者[11] - Sora 2可以根据一句话生成有趣的多镜头视频，更像是一位“故事导演”，适合普通用户和meme创作者，但在物理表现、音视频同步方面不太稳定[11] - 其他专业化模型包括：Wan作为开源模型支持很多风格化插件适合定制风格，Grok速度快成本低特别适合动画内容，Seedance Pro可以一次生成多镜头结构，Hedra在长时间对话类视频的表现最稳[11] 产品化与工作流工具 - 当前模型能力已经很强，但对应的产品进度依然有很多“追赶空间”，需要更好的一体化产品来简化整个创作过程[13] - 许多创作者正在手动拼接多个模型的功能来完成本可自动做到的事情，如保持角色一致、延续镜头画面、控制运动轨迹等，显示产品体验和创作效率之间存在巨大断层[14] - 行业开始出现解决这些问题的工具，例如Runway发布了一套工具让用户修改镜头角度、生成下一个镜头等，OpenAI的Sora Storyboard支持更细致控制每一帧动作，谷歌Veo 3.1围绕音频和视觉控制做了功能增强[15] 未来发展方向 - 未来会看到越来越多“小而美”的模型，专门为某个行业或某种场景优化，如室内设计、营销、动画制作等[16] - 需要更强大的“创意工具包”来打通各种模态，让视频、配音、音乐等元素的生成与编辑更顺畅，形成一整套真正闭环的AI视频工作流[16] - 这类似于大语言模型的发展路径，即便模型性能不再突飞猛进，围绕它构建实用产品的空间依然非常大[15]