Workflow
应对Sora 2,谷歌发布新AI视频模型Veo 3.1:能精准可控视频生成
36氪·2025-10-16 01:59

产品发布与定位 - 谷歌正式推出新一代AI视频生成模型Veo 3 1,显著提升了叙事控制能力、音频融合度与画面真实感[1] - 新模型为企业用户、开发团队和创意机构带来了可扩展、可定制的视频解决方案,同时保持了与前代一致的定价体系[1] - 与OpenAI的Sora 2相比,Veo 3 1的画面风格更偏向电影质感,视觉效果精致但稍显人工化,而Sora 2擅长自然抓拍风格[1] 核心技术升级 - Veo 3 1增强了对对话、环境音效等音频元素的处理能力,并实现了原生音频生成与视频的同步生成[2] - 音频生成功能已全面集成到Flow平台的三大核心功能:帧转视频、素材转视频和延伸视频[2] - 模型支持文本、图像、视频片段等多种输入形式,新引入的功能包括支持最多3张参考图像以精准控制视觉风格[3] - 新功能还包括插入对象和移除元素等编辑工具,但部分功能尚未完全开放给Gemini API用户[3] 平台部署与定价策略 - Veo 3 1通过Flow平台、Gemini API和即将支持企业级功能的Vertex AI等多个渠道提供服务[4][5] - 模型处于预览阶段,仅面向Gemini API付费用户开放,计费标准为:标准版每秒视频0 40美元,Fast版每秒视频0 15美元[5] - 采用按需计费模式,仅对成功生成的视频收费,无免费额度,便于企业进行预算管理[5] 技术规格与应用场景 - Veo 3 1支持720p与1080p分辨率输出,帧速率稳定在24帧/秒,基础生成长度为4秒、6秒或8秒,通过延伸功能最长可达148秒[6] - 企业用户上传产品图片或风格参考后,模型能够准确保持视觉元素的一致性,这对零售、广告等行业的内容标准化生产极具价值[6] - 平台提供的首尾帧插值技术可实现不同场景间的自然无缝过渡,场景延伸功能可智能延续原有视频的动作与运镜逻辑[4] 早期用户反馈与市场竞争 - 早期用户反馈呈现两极分化,有观点认为Veo 3 1效果明显逊于Sora 2且价格更高,但肯定了其在参考图像支持和工具链方面的优势[7] - 有用户指出模型存在局限,如缺乏自定义语音选项、基础生成时长卡在8秒上限,以及在多角度拍摄中保持角色一致性需精细提示词设计[8] - 谷歌Veo 3 1是首个实现原生AI同步音频生成的视频模型,但OpenAI Sora的崛起改变了竞争态势,行业标准正被不断抬高[11][14]