并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
机器之心·2025-11-20 09:35

公司技术与产品突破 - 推出Model 2.0视频生成系统,可生成长达五分钟的富有表现力、可媲美专业水准、以人为中心的视频,破解了行业“视频时长”难题[1] - 突破性进展在于采用并行扩散架构,通过同时运行多个较小的扩散算法并用双向约束连接,避免瑕疵累积,从而生成长视频[5][6] - 模型训练数据除互联网抓取外,还聘请专业工作室使用高帧率摄像系统拍摄演员,获取高质量自有素材以避免运动模糊[6] - Model 2.0是“视频到视频”转换模型,以图像和行车视频为输入,利用人物动作生成输出视频,并能保留人物身份、情感和细微差别[7] - 系统可在约15分钟内生成30秒低分辨率视频,具备先进的唇形同步和手势对齐算法,确保嘴部动作和肢体语言与音轨同步[7] 市场竞争定位与优势 - 公司产品被视为OpenAI的Sora和Google的Veo的强有力竞争者,因其视频时长远超当前行业佼佼者(如Sora 2上限仅为25秒)[1][5] - 不同于大多数视频生成企业聚焦消费者创意工具,公司瞄准ToB市场,专注于为企业(尤其是软件公司)制作培训、营销和发布视频[9] - 公司视频帧率更高,解决了行业中的“8秒AI视频难题”,可能彻底改变公司处理培训、营销和故事讲述的方式[8] 创始人背景与公司战略 - 公司由全球最广泛使用的计算机视觉库OpenCV的创建者Victor Erukhimov创立,其曾联合创立并领导Itseez,后于2016年被英特尔收购[3] - 公司近期完成一轮200万美元融资,创始人并不认同“巨额资金是成功的先决条件”,强调高质量数据比大量计算预算更重要[9] - 公司下一个重大发展方向是开发“文本转视频”模型,允许用户直接从脚本生成长篇内容,并正在开发对移动镜头场景的支持[9] 潜在商业价值与行业影响 - 长视频生成能力可为难以扩大视频制作规模的企业(用于培训、营销和客户教育)带来巨大商业价值[3] - 网友评价认为,公司利用并行传播和专有数据打造长篇AI视频是明智之举,突显了深厚计算机视觉技术可克服计算预算限制,满足企业对时长至关重要的持续内容的关键需求[7]