行业背景与核心问题 - 自Sora 2发布以来,各大科技厂商迎来新一轮视频生成模型“军备竞赛”,纷纷推出迭代版本[2] - 行业面临一个本质问题:这些模型距离真正的生产力工具还有多远[2] - 当AI视频生成模型步入短剧制作等实战场景时,会撞上由效率、成本、质量构成的“不可能三角”[11] - 目前即便如Sora 2级别的产品,生成10秒视频往往需要数分钟乃至十分钟,严重制约创作效率[11] - 开源模型生成一段5秒视频通常超过十分钟,商用闭源模型生成5秒视频通常也需1至10分钟不等[12] - 一个仅5秒的视频片段就需要生成接近10万token,而一键生成通常会产生10到20个分镜,单次操作的token消耗量达到100万到200万级别[12] - 当行业试图通过降低推理步数、压缩模型参数等方式提升速度、降低成本时,往往会遭遇生成质量下降的挑战[13] 商汤科技Seko 2.0产品发布 - 商汤科技于12月15日上线全新的Seko 2.0版本,让AI短剧创作真正实现“一人剧组”[2] - 只需输入一句简单的提示词,Seko 2.0能策划剧本大纲,生成分镜和视频[4] - 该产品能生成1分半钟的3D艺术风格动画短片,以及唇形同步精准的数字人音乐MV[5][6] - Seko是行业首个创编一体、多剧集生成智能体,已经服务上百家短剧工作室,大量AI短剧成功上线[7] - 用商汤Seko创作的《婉心计》登顶抖音AI短剧榜第一[9] - 此次2.0版本的升级,背后是商汤在视频生成底层技术上的深度突破,从开源推理框架LightX2V到产品化落地,再到国产芯片的全面适配,商汤正在构建一条完整的AI视频生产链路[9] LightX2V开源框架的技术突破 - LightX2V是由商汤科技与北航联合研发的成果,是业界首个开源的实时视频生成推理框架[16] - 该项目上传的模型累计下载量已突破350万次[16] - 其核心价值在于真正做到了实时视频生成,生成5秒视频所需时间小于5秒,速度达到现在行业主流的数倍甚至十倍以上[17] - 商汤原创设计的Phased DMD步数蒸馏技术,让视频生成在4步推理下就能实现高质量的一致性和动态性[19] - 该技术产出的Wan2.1、Qwen-Image等多步模型,登上HuggingFace趋势榜前10,累计下载量超过358万次[19] - Phased DMD是一个结合了阶段式蒸馏和专家混合思想的多步蒸馏框架[19] - LightX2V团队发布了LightVAE、LightTAE系列高效视频自编码器模型集合,旨在实现高达10倍以上的性能提升[27] - LightVAE对Wan2.1 VAE剪枝75%,成功将显存占用减少了约50%(降至约4-5 GB),同时将推理速度提升了2到3倍[27] - LightTAE系列将显存占用降至极低的约0.4 GB,并实现了极快的推理速度[28] - 实际测试中,处理一段5秒81帧的视频时,官方Wan2.1 VAE解码时间约为5.46秒,显存需求超过10 GB;LightVAE解码时间缩短到约2.07秒,显存降至5.57 GB左右;LightTAE解码时间仅需约0.25秒,显存几乎可以忽略不计[28] LightX2V的工程与架构创新 - LightX2V构建了一个面向低成本、强实时的视频生成推理完整方案,覆盖了模型、调度、计算、存储和通信五个维度[31] - 通过低比特量化、稀疏注意力、特征缓存、高效Offloading和多卡通信优化等技术,形成了清晰且高效的五层体系结构[31] - 该框架的算子实现层集成了Flash Attention V3、Sage Attention V1/V2/V3、Radial Attention和Ring Attention等创新算子[32] - 这种全栈优化带来的直接效果是显存门槛降至8GB以下,入门级消费卡即可流畅运行;在RTX 5090等消费级显卡上,已经实现了1:1的实时生成效果[35] - 框架提供了多样化的接入方式,包括集成到ComfyUI Workflow、通过Gradio Web快速部署在线演示服务、支持本地服务器部署,以及提供用于稳定生产环境的静态推理接口[35] 国产化芯片适配与商业化前景 - 商汤在Seko 2.0中实现了全面适配国产化芯片的关键布局[39] - 借助LightX2V框架,Seko已成功支持多款国产AI芯片,真正实现了视频生成模型的全国产化部署能力[40] - 从实际效果来看,在国产芯片与英伟达芯片上生成的视频,质量差距并不明显[41] - 虽然国产芯片的生成速度略慢,但其性价比优势突出[41] - 未来商汤计划给创作者提供国产化和非国产化两套方案,使用国产化方案的用户将获得更优惠的价格政策[41] - 打通从算法框架到硬件芯片的全链路国产化能力,意味着中国AI产业在核心技术上迈出了实质性的一步[42]
国产芯片也能跑AI视频实时生成了,商汤Seko 2.0揭秘幕后黑科技