Diffusion Transformer
搜索文档
一文读懂Sora2核心点-中信建投证券
搜狐财经· 2025-10-11 01:26
Sora2产品与技术特点 - 产品采用DiT(Diffusion Transformer)架构,该架构已成为视频生成领域的主流技术范式,通过融合Transformer的时序处理能力和扩散模型的生成质量实现技术突破[18][29] - 通过大规模视频数据训练、提示词重写增强(利用LLM优化指令)及音画同步优化提升生成效果与可控性,在文生视频(武侠、悬疑)和图生视频(喜剧卡通)场景表现达第一梯队[1][36] - 上线3天登顶美国iOS应用榜,首两日下载量达16.4万次,采用邀请制裂变传播(受邀用户获4个新邀请码)构建社交生态[1][30][45] 产品功能与用户体验 - 主打移动端优先策略,创作界面极致简化,仅保留文本输入框支持"一句话生成视频",大幅降低用户使用门槛[1][48] - 创新推出"Remix"二创功能,允许用户以现有视频为模板进行二次创作,以及"Cameo"数字分身功能,将真实社交关系融入AI生成内容[1][55][56] - 通过Y轴滑动浏览作品和X轴滑动查看二创版本的双轴设计,结合原生音画同步输出,打造类似短视频平台的沉浸式浏览体验[47][62] 市场空间与商业模式 - AI视频生成市场呈现P端(专业创作者)、B端(企业级应用)和C端(大众消费)三端共振格局,中期总市场规模763亿元,长期达1554亿元[2][7] - P端市场因用户付费意愿强,中期空间262亿元,长期888亿元;B端聚焦影视、广告等场景的成本替代,中期501亿元,长期666亿元;C端效仿短视频平台通过流量变现[2][7] - Sora2采用免费+增值服务模式,基础版免费生成360p视频,ChatGPT Pro会员可享受Sora Pro高级功能,API调用按秒计费(1024p视频每秒0.5美元)[45][64] 成本结构与算力需求 - 算力成本高昂,保守估计APP每日推理成本达1400万美元,年化成本超过51.2亿美元,凸显算力在AI竞争中的决定性地位[2][8] - OpenAI与NVIDIA、AMD等芯片巨头达成战略合作以保障算力供应,巨大推理需求推动产业链发展[2][8] - 通过生成360p低分辨率视频而非行业主流的1080p内容,显著降低单次生成算力消耗,支撑免费商业模式可行性[62][64] 行业竞争格局 - 当前主流AI视频生成产品如Runway Gen-2、Veo 3、Kling 2.1等大多支持生成5-10秒1080p视频,商业化多采用C端会员订阅和B端API调用模式[63][64] - 行业技术路线从早期GAN、VAE架构,经Transformer与扩散模型并行探索,现已进入DiT架构主导阶段,Sora2的产品化成功验证了这一技术方向[17][29] - 产品差异化竞争重点从技术参数比拼转向用户体验优化,通过社交功能整合和病毒式传播设计实现大众市场突破[38][56]
3DGS重建!gsplat 库源码解析
自动驾驶之心· 2025-09-23 23:32
3D高斯泼溅技术及gsplat库 - 3D高斯泼溅是一种新兴的3D场景表示与渲染技术,与传统的深度学习模型和框架有显著区别,它更侧重于计算机图形学领域,涉及坐标系转换和激光雷达点云等技术[4] - 在自动驾驶和计算机视觉领域,3D高斯泼溅技术正被探索与感知系统及端到端模型进行结合,但其与大语言模型和自然语言处理领域基本没有关联[4] - 对于希望入门该领域的研究者,开源库gsplat被推荐为比官方Gaussian-splatting库更优的选择,因其文档和维护相对更好[5] gsplat库的技术特性与优化 - gsplat库对原始的3D高斯泼溅官方实现进行了多项优化,提供了更完善的工具链[5] - 该库支持超广角镜头畸变和卷帘快门相机模型,这使其更适用于如自动驾驶等复杂真实场景[12] - 库内提供了高效的高斯球参数压缩功能,能够将1M个高斯球的参数量从236MB压缩至16.5MB,仅造成0.5dB的峰值信噪比损失[13] - 压缩技术结合了量化、排序、K-means聚类以及PNG图像编码等多种方法[14] 3D高斯泼溅的核心算法流程 - 3D高斯泼溅使用位置、协方差矩阵、颜色和不透明度等参数来定义每个高斯球,其中协方差矩阵可通过缩放矩阵和由四元数表示的旋转矩阵分解得到[21] - 训练过程包含自适应密度控制,高斯球的数量会动态变化,通过复制、分裂和修剪等策略进行更新[23] - 复制操作的触发条件是图像平面梯度高且高斯球尺度小,适用于需要保留细节的区域[28] - 分裂操作的触发条件是图像平面梯度高且高斯球尺度大,适用于用多个小高斯拟合复杂几何结构[28] - 修剪操作的触发条件是高斯球的不透明度较低,定期重置策略则用于防止不透明度过早收敛[28] gsplat库的渲染与训练实现 - 渲染管线核心步骤包括:将3D高斯投影至2D图像平面、计算球谐函数着色、进行瓦片相交检测,最终光栅化到像素[42][45][46][53] - 训练循环包含数据准备、前向渲染、损失计算、反向传播、优化器更新以及策略后处理(执行高斯球的分裂与修剪)等标准步骤[33][35][37] - 支持多GPU分布式训练,采用类似模型并行的方式将高斯球参数切分到不同GPU,并在渲染前通过All-to-All通信交换数据,实现计算负载的并行化[65][66][71] 行业影响与未来展望 - 以OpenAI的Sora为代表的视频生成模型若持续发展,可能对未来计算机图形学领域产生深远影响,甚至成为该学科的基础技术之一[6][7] - 从业者期待“世界模型”类技术能在视频生成和场景重建等领域得到更广泛应用,即使其效果仅达到大语言模型影响力的四分之一,也将为算法和基础设施领域的从业者带来新的机会[9]
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 04:50
研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用,显著提升了AI合成视频的质量和连贯性,如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题,例如HunyuanVideo生成5秒720P视频在单张H20上需2小时,限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪,每一步都需完整神经网络前向推理,导致大量冗余计算 [5] 方法创新:EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架,通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理,中后期「变换速率」趋于稳定,行为近似线性,可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制,通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存,前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速,PSNR提升36%至32.66,SSIM提升14%至0.9313,LPIPS大幅下降至0.0533,视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速,PSNR达25.24,SSIM 0.8337,LPIPS 0.0952,优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速,FID降至23.2,CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍,总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致,显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式,为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标,推动数字内容创作和多媒体娱乐行业变革 [27]
AI应用系列报告:AI视频生成:商业化加速,国产厂商表现亮眼
国元证券· 2025-06-27 05:13
报告行业投资评级 - 推荐,维持 [2] 报告的核心观点 - AI视频生成技术从GAN-Transformer-Diffusion Model-DiT演进,推动行业进入可商用阶段,预计2032年全球规模突破184亿人民币,2025至2032年复合增速20% [4] - 行业受价格和模型能力驱动,国产厂商如可灵等表现突出,看好行业发展,建议关注快手和美图公司 [4] 根据相关目录分别进行总结 技术路径:从GAN - Transformer - Diffusion Model - DiT - 20世纪90年代以来,AI视频生成从静态图像序列拼接成视频流开始,历经GAN、Transformer、Diffusion Model到DiT的技术演进,生成内容丰富度和可控性提升 [4][7] - GAN于2014年提出,2016年用于视频生成,存在多样性有限等问题;Transformer于2017年提出,应用于视频生成领域,成本高、速度慢;Diffusion Model由前向和反向过程组成,2020年后在视觉生成领域占主导 [8][15][22] - 2022年DiT架构提出,2024年OpenAI的Sora验证了Diffusion和Transformer结合的有效性,成为核心路线 [8][23] - 快手、可灵、Seedance、腾讯混元等采用DiT架构并进行优化,行业围绕提升效率等目标持续迭代 [30][31] AI视频生成行业:逐步进入可商用阶段,应用及商业化加速 驱动因素:价格和性能共同驱动行业成长 - 全球视频内容流量占比持续攀升,预计2032年AI视频生成全球规模达25.63亿美金,2025 - 2032年复合增速20%,市场营销及广告需求最大,社交媒体应用增长最快 [40] - 价格上,主流模型API单秒价格0.2 - 1元/秒,对比传统视频制作成本有极大替代优势;模型能力上,时长、速度、质量、丰富度等方面不断提升 [4][46][47] 行业应用:B端应用场景多元化,C端内容持续破圈 - 2B应用包括影视内容创作、商业广告等,如电商服装行业和影视短片制作,可解决成本高和周期长的痛点;2C方面,创意玩法拉近与用户距离,内容破圈 [54] 产品及竞争格局:可灵等国产厂商表现突出 - 模型表现上,Seedance1.0、Veo2/3、Kling2.0等居前,国内模型达全球领先水平;商业化上,Runway和可灵表现突出 [58] - 使用量份额上,Kling突出;web端访问量和APP端MAU方面,Sora、Kling等排名靠前 [63] 投资建议及相关标的 快手——可灵产品表现亮眼,商业化加速 - 可灵于2024年6月发布,采用DiT架构并优化,累计迭代超20次,全球用户超2200万,5月访问量达1625万次,美国、中国等为访问量前五国家 [68] - 产品有多种形态和进阶功能,支持视频延长和多图参考,创意特效助力社媒传播;商业化上,营收增速和水平居前列 [74] - 预计2025 - 2027年经调整净利润200.77/246.20/287.21亿元,维持“买入”评级 [70] 美图公司(未覆盖)——AI赋能,与阿里深化合作 - 公司通过自研和采购获取AI模型能力赋能业务,C端产品用户规模领先,AI视频工具Wink月活突破3000万,生产力场景月活用户数增长25.6% [75] - 2024年底全球月活用户数2.66亿,海外用户增长;与阿里签署2.5亿美元可转债协议,将在电商和模型开发领域合作 [75] - 预计2025 - 2027年营业收入42.43/51.69/61.56亿元,归母净利润8.10/10.92/14.58亿元 [76][77]