并行扩散架构突破极限，实现5分钟AI视频生成，「叫板」OpenAI与谷歌？

公司技术与产品突破 - 推出Model 2.0视频生成系统，可生成长达五分钟的富有表现力、可媲美专业水准、以人为中心的视频，破解了行业“视频时长”难题[1] - 突破性进展在于采用并行扩散架构，通过同时运行多个较小的扩散算法并用双向约束连接，避免瑕疵累积，从而生成长视频[5][6] - 模型训练数据除互联网抓取外，还聘请专业工作室使用高帧率摄像系统拍摄演员，获取高质量自有素材以避免运动模糊[6] - Model 2.0是“视频到视频”转换模型，以图像和行车视频为输入，利用人物动作生成输出视频，并能保留人物身份、情感和细微差别[7] - 系统可在约15分钟内生成30秒低分辨率视频，具备先进的唇形同步和手势对齐算法，确保嘴部动作和肢体语言与音轨同步[7] 市场竞争定位与优势 - 公司产品被视为OpenAI的Sora和Google的Veo的强有力竞争者，因其视频时长远超当前行业佼佼者（如Sora 2上限仅为25秒）[1][5] - 不同于大多数视频生成企业聚焦消费者创意工具，公司瞄准ToB市场，专注于为企业（尤其是软件公司）制作培训、营销和发布视频[9] - 公司视频帧率更高，解决了行业中的“8秒AI视频难题”，可能彻底改变公司处理培训、营销和故事讲述的方式[8] 创始人背景与公司战略 - 公司由全球最广泛使用的计算机视觉库OpenCV的创建者Victor Erukhimov创立，其曾联合创立并领导Itseez，后于2016年被英特尔收购[3] - 公司近期完成一轮200万美元融资，创始人并不认同“巨额资金是成功的先决条件”，强调高质量数据比大量计算预算更重要[9] - 公司下一个重大发展方向是开发“文本转视频”模型，允许用户直接从脚本生成长篇内容，并正在开发对移动镜头场景的支持[9] 潜在商业价值与行业影响 - 长视频生成能力可为难以扩大视频制作规模的企业（用于培训、营销和客户教育）带来巨大商业价值[3] - 网友评价认为，公司利用并行传播和专有数据打造长篇AI视频是明智之举，突显了深厚计算机视觉技术可克服计算预算限制，满足企业对时长至关重要的持续内容的关键需求[7]