应对Sora 2，谷歌发布新AI视频模型Veo 3.1：能精准可控视频生成

产品发布与定位 - 谷歌正式推出新一代AI视频生成模型Veo 3 1，显著提升了叙事控制能力、音频融合度与画面真实感[1] - 新模型为企业用户、开发团队和创意机构带来了可扩展、可定制的视频解决方案，同时保持了与前代一致的定价体系[1] - 与OpenAI的Sora 2相比，Veo 3 1的画面风格更偏向电影质感，视觉效果精致但稍显人工化，而Sora 2擅长自然抓拍风格[1] 核心技术升级 - Veo 3 1增强了对对话、环境音效等音频元素的处理能力，并实现了原生音频生成与视频的同步生成[2] - 音频生成功能已全面集成到Flow平台的三大核心功能：帧转视频、素材转视频和延伸视频[2] - 模型支持文本、图像、视频片段等多种输入形式，新引入的功能包括支持最多3张参考图像以精准控制视觉风格[3] - 新功能还包括插入对象和移除元素等编辑工具，但部分功能尚未完全开放给Gemini API用户[3] 平台部署与定价策略 - Veo 3 1通过Flow平台、Gemini API和即将支持企业级功能的Vertex AI等多个渠道提供服务[4][5] - 模型处于预览阶段，仅面向Gemini API付费用户开放，计费标准为：标准版每秒视频0 40美元，Fast版每秒视频0 15美元[5] - 采用按需计费模式，仅对成功生成的视频收费，无免费额度，便于企业进行预算管理[5] 技术规格与应用场景 - Veo 3 1支持720p与1080p分辨率输出，帧速率稳定在24帧/秒，基础生成长度为4秒、6秒或8秒，通过延伸功能最长可达148秒[6] - 企业用户上传产品图片或风格参考后，模型能够准确保持视觉元素的一致性，这对零售、广告等行业的内容标准化生产极具价值[6] - 平台提供的首尾帧插值技术可实现不同场景间的自然无缝过渡，场景延伸功能可智能延续原有视频的动作与运镜逻辑[4] 早期用户反馈与市场竞争 - 早期用户反馈呈现两极分化，有观点认为Veo 3 1效果明显逊于Sora 2且价格更高，但肯定了其在参考图像支持和工具链方面的优势[7] - 有用户指出模型存在局限，如缺乏自定义语音选项、基础生成时长卡在8秒上限，以及在多角度拍摄中保持角色一致性需精细提示词设计[8] - 谷歌Veo 3 1是首个实现原生AI同步音频生成的视频模型，但OpenAI Sora的崛起改变了竞争态势，行业标准正被不断抬高[11][14]