视频生成
搜索文档
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral
量子位· 2025-11-14 05:38
技术突破与核心优势 - 提出InfinityStar方法,通过时空金字塔建模统一处理图像和视频生成任务,核心是将视频分解为首帧(外观信息)和后续片段(动态信息)进行解耦建模[13][14][15][16] - 采用纯自回归生成方式,相比DiT(Diffusion Transformer)所需的20-100步去噪迭代,实现"一条过"生成,计算效率提升一个数量级[4][25][31] - 在单张GPU上生成5秒720p视频仅需不到1分钟,比同尺寸DiT方法(如HunyuanVideo、Wan-Video)快一个数量级[31] 模型架构创新 - 引入时空金字塔建模架构,将图像金字塔的下一尺度预测思想扩展到时空维度,使用单一Transformer统一建模所有尺度间和片段间依赖关系[13][16] - 采用基于多尺度残差量化的视觉分词器,并应用知识继承技术加速训练,通过继承预训练连续分词器权重使离散分词器更快收敛[18][19] - 提出随机量化器深度正则化技术,随机丢弃精细尺度Token,迫使模型在粗糙尺度下也能重建有效信息,改善信息分布均衡性[21] 性能优化技术 - 设计语义尺度重复技术,在预测时对控制全局信息的语义尺度重复预测N次,增强视频结构一致性和运动流畅性[24] - 应用时空稀疏注意力机制,只关注必要上下文信息(如前一片段最后一个尺度),大幅降低长序列注意力计算复杂度[24] - 引入时空RoPE位置编码,同时编码尺度、时间、高度和宽度信息,为Transformer提供精确时空坐标感知[24] 多任务能力 - 支持文生图、文生视频、图生视频、交互式长视频生成等多种任务,所有任务均统一为"预测下一个尺度/片段"的自回归问题[9][12][16] - 具备交互式长视频生成能力,可根据5秒参考视频和新提示词持续生成后续内容[12] 性能表现 - 在VBench基准测试中,InfinityStar-8B在文生视频任务上取得83.74综合得分,超越CogVideoX-5B(81.61)和HunyuanVideo-13B(83.24)等扩散模型[27][28] - 人类偏好评估显示InfinityStar-8B在指令遵循方面优于HunyuanVideo-13B[29] - 文生图任务在GenEval和DPG基准上表现优异,在位置和物体关系方面具有明显优势[25]
AI 大牛刘威创业公司完成 5000 万美元融资,12 月将发布新模型
AI前线· 2025-11-07 06:41
公司融资与战略规划 - 公司Video Rebirth完成5000万美元种子轮融资,投资方包括启明创投和韩国游戏公司Actoz Soft Co [2] - 融资将用于加速自研的"Bach"模型及独有的"物理原生注意力"架构研发,解决AI生成娱乐领域的挑战性问题 [2] - 公司计划在12月发布Bach模型以及基于自研模型的AI视频生成平台,与OpenAI Sora竞争 [2] - 公司初期将重点面向美国专业用户群体,采用低于Google Veo的月订阅模式 [4] 技术实力与产品进展 - 公司新模型Avenger 0.5 Pro在Artificial Analysis Video Arena的图像生成视频项目中排名第2位,仅次于Kling 2.5 Turbo [3] - 该模型相较于7月发布的Avenger 0.5有显著性能提升,但尚未提供公开访问入口 [3] - 公司团队避免使用短视频内容进行训练,以确保更高的模型质量,并使生成的物体更符合现实世界的物理规律 [4] - 公司创始人刘威和两位同事花了三个月时间训练出第一个版本的模型,基于业内常用技术并进行改进 [4] 行业竞争与市场机会 - 公司即将进入竞争激烈的领域,对手包括谷歌、字节跳动、快手等巨头 [3] - 创始人认为在视频生成领域,华人创办的小团队有很好的机会能与巨头公平竞争,与大语言模型格局已定型不同 [4] - 部分现有视频生成应用已展现出强劲变现能力,例如快手预计其Kling AI的年收入在明年2月将突破1亿美元 [3]
在夹缝中生存12年,他终于打造了国产AI活跃用户数第一的产品|WAVES
36氪· 2025-10-30 17:47
公司概况 - 公司为成都的图像编辑与AI应用公司Fotor,创始人为段江 [1] - 产品Fotor是一款月活用户过千万的AI应用,常年位列AI应用出海榜中国前列 [1] - 公司成立于约12年前,最初定位为“轻量Photoshop”,后转型AI图像生成 [1][4] 用户与市场表现 - 用户规模在生成式AI功能上线后翻了七倍 [1][4] - 月活用户超过千万,并实现规模化盈利 [1] - 核心市场为英语国家(美国、英国、加拿大、澳大利亚、新西兰),这五个国家贡献公司80%的收入,占海外用户流量的40% [6] - 通过AI Image Generator、AI Art Generator等关键词搜索获客,用户画像广泛,涵盖专业用户和普通消费者 [9] 产品与技术发展 - 2022年8月,公司暂停所有项目,基于开源的Stable Diffusion,利用自身积累的高质量图片数据,在两个月内上线文生图功能 [3][4] - 产品功能丰富,包含AI图像生成、图像处理(PS)、平面设计等几十个功能,旨在打造一站式平台 [9] - 2024年3月上线一站式AI长视频平台Clipfly,集合AI视频生成、增强、编辑等功能,但视频生成部分采用简单开源方案,未大规模投入 [7][8] - 当前战略是打造“AI剪映”,重点放在工作流建设而非核心技术自研 [7][8] 融资与财务历程 - 2012年获得联想系资本300万美元融资 [4] - 2017年第一轮融资用完,在几乎被所有风投拒绝后,从免费转向付费模式,随后实现盈利并获得广发证券2500万人民币的B轮融资 [2][5] - 在用户量爆发前,公司曾应投资人要求进行股份回购,几乎耗尽账面现金 [2][4] - 用户爆发后,公司回绝超过100家投资机构,因已积累大量现金并实现月度盈利 [7] 战略选择与竞争定位 - 创立初期因资金远少于竞争对手(如美图),选择避开国内移动端红海市场,主攻海外PC端,依靠SEO获客 [4][5] - 七年前因融资困难被迫提前开启付费模式,意外发现海外用户付费意愿较高 [2][5] - 在AI视频生成领域,面对Sora等强大竞争对手,公司选择暂避锋芒,回归自身在图像工具和工作流方面的舒适区 [7][8] - 公司定位为将AIGC与传统图像工具结合的产品公司,学习字节跳动的“App工厂”模式,通过不断增加功能来吸引和留住用户 [9]
美团LongCat-Video视频生成模型发布:可输出5分钟长视频
凤凰网· 2025-10-27 07:32
公司技术发布 - 美团LongCat团队正式发布LongCat-Video视频生成模型 [1] - 模型基于Diffusion Transformer架构,支持文生视频、图生视频及视频续写三类核心任务 [1] - 模型宣称在开源模型中达到先进水平 [1] 模型技术规格 - 模型可生成720p分辨率、30帧率的高清视频 [1] - 模型能够原生生成长达5分钟的连贯视频内容 [1] - 模型通过视频续写预训练、块稀疏注意力等机制解决长视频生成中的画面断裂、质量下降问题 [1] - 模型参数量为136亿 [1] 模型性能与效率 - 模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,推理速度提升超过10倍 [1] - 模型在VBench等公开测试中表现出较强的文本对齐与运动连贯性 [1] 技术应用与战略意义 - 模型作为构建"世界模型"的技术尝试,未来或可应用于自动驾驶模拟、具身智能等长时序建模场景 [1] - 该模型的发布标志着美团在视频生成与物理世界模拟领域迈出重要一步 [1]
AI时代的短视频:Sora2的答案
新财富· 2025-10-24 08:08
Sora 2 的技术突破与产品定位 - 核心突破在于首次实现“长时叙事完整性”与“物理逻辑真实性”的规模化平衡,物理规律符合率较初代提升47个百分点至88% [8] - 实现音画一体化生成,声画同步误差小于120毫秒,并支持多镜头叙事,可生成逻辑连贯的2分钟级长视频 [9][10] - 产品形态为短视频应用,用户可通过提示词生成视频并进行二创,浏览方式为主流的上下滑动刷新 [2] Sora 2 的流量获取与社交功能 - 通过Cameo功能用户可复制自身形象与声音并植入AI生成场景,通过Remix功能允许用户对他人视频进行二次创作 [11] - 平台允许用户只浏览不创作,旨在打破创作者圈子以实现广泛传播,类似于早期小咖秀通过低门槛和强娱乐性完成流量原始积累 [4][15] OpenAI 的战略转型与商业化进程 - 公司正从研究型企业向产品生态构建者转型,通过APP ADK将ChatGPT变为“AI应用商店”并接入Uber等11家企业 [17] - 推出OpenAI浏览器Atlas和降低开发门槛的Agent Kit,单人不到7分钟即可完成一个可部署应用,人效提升超20倍 [18] - 商业化加速源于资金压力,2025年上半年现金消耗达25亿美元,全年预计85亿美元,且与软银的对赌协议要求年底前完成向营利性公司转型 [20] 行业竞争格局 - 谷歌Veo 3.1模型新增视频控制功能并能生成背景音乐,但未达预期,模型质量无明显进步,在复杂场景下物理规律易出错 [19] - OpenAI在谷歌发布Veo 3.1几小时后立即宣布Sora 2更新,凸显视频生成领域竞争激烈 [18] AI视频应用的挑战与前景 - AI视频应用面临留住稳定流量的挑战,关键在于能否像抖音一样通过推荐算法持续吸引用户注意力 [22] - 制作门槛降低可能反而提高创作门槛,吸引人的决定因素更侧重于想法的质量 [24]
四款视频大模型横评:从“概念演示”迈向“准实时创作”
海通国际证券· 2025-10-17 09:11
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 报告核心观点 - 视频生成技术正从“概念演示”阶段迈向“准实时创作”阶段 [1] - 在付费分层与算力约束并存的背景下,视频大模型的商业化路径日趋清晰 [4] - 国内外模型生态差距正逐步收窄,竞争焦点转向算力储备、数据质量与产品细节打磨 [3] - 该技术演进将推动影视产业资源更精准地配置于核心价值环节,大幅压缩前期方案验证成本 [5] 模型性能横评总结 - 四款主流视频生成模型(Sora 2, Veo 3.1, 可灵, 即梦)生成速度普遍较快,平均仅需1至2分钟即可生成一段5秒视频 [1][2] - Veo 3.1在风格还原、构图意图及镜头语法理解方面表现最为准确 [1][2] - Sora 2在动态模糊、景深与材质反射方面的写实感最强,观感接近实拍,但其产品形态更侧重移动端竖屏信息流,导致横屏输出能力与画面清晰度相对偏向轻量化 [1][2] - 可灵与即梦在中文友好度与易用性上表现突出,与海外顶级模型的差距正在快速收敛 [1][3] 模型规格与生态比较 - Veo 3.1的API预览支持4/6/8秒短片,其Flow功能引入“场景续写”最长可延展至约1分钟段落,并支持16:9与9:16画幅输出 [7] - Sora 2的官方应用默认生成10秒竖屏视频,支持Portrait/Landscape切换,并提供“Cameos”功能可将用户形象嵌入视频 [7] - 可灵官方发布可生成时长至2分钟、1080p、30fps的视频,并在质量、稳定性与成本上持续迭代 [7] - 即梦作为字节跳动旗下平台,与剪映/抖音生态结合紧密,提供从文本到视频的一站式创作体验,会员配额适合高频产出 [3][7] 商业化与基础设施 - OpenAI首席执行官Sam Altman已公开表明,新一代高算力功能将优先面向付费用户开放,并可能对Sora 2等视频生成能力实施分级收费机制 [4] - 基础设施层面正经历“超级计算中心化”变革,以微软与OpenAI筹划中的“Stargate”百亿美元级超算数据中心为代表的大规模产业投资正在进行 [4] - 国际能源署预测,至2030年全球数据中心耗电量或将翻倍至约945 TWh,其中AI推理是核心增长驱动力,这从成本端固化了视频生成服务的高溢价属性 [4] 对影视产业的影响 - 在广告、预告片、预视觉化等前期方案验证中,AI视频技术将大幅压缩勘景、实拍与特效制作的试错成本 [5] - 结合Veo 3.1等具备镜头级控制能力的工具,从剧本到样片的迭代周期有望从“周级”缩短至“小时级” [5] - 一种“低成本验证、高投入精制”的混合工作流变得可行:AI先生成低清晰度内容雏形用于审核试映,确认方向后再由传统制作管线进行高精度复刻与精修 [5]
Sora2甚至可以预测ChatGPT的输出
量子位· 2025-10-02 05:30
文章核心观点 - Sora2展现出超越视频生成的多模态能力,包括预测大语言模型输出、渲染HTML代码、理解物理现象和精准还原游戏细节,模糊了视频生成与交互式AI的边界 [6][13][26] 多模态交互能力 - Sora2能够模拟与ChatGPT的交互过程,生成包含问题提问和语音回答的完整视频,例如根据提示生成关于猫的俳句并配以机械女声回答 [4][5] - 该模型展现出理解并执行复杂指令的能力,其生成的俳句音节严丝合缝,体现了对语言结构的把握 [5] 代码渲染与浏览器模拟功能 - Sora2具备渲染HTML代码的能力,根据粘贴的HTML代码生成的视觉效果与真实浏览器渲染效果高度相似 [7][8][10][12] - 该功能表明模型可能超越了传统视频生成器的范畴,展现出类似浏览器的渲染能力 [13] 物理现象理解能力 - 在未明确提示的情况下,Sora2能够准确模拟玻璃折射的物理现象,如通过装满水的玻璃杯展现箭头图像的翻转效果 [14][15][16][18] - 这种对物理世界的深入理解能力获得了行业观察者的高度评价 [19] 游戏内容还原精度 - 根据《赛博朋克2077》支线任务的提示词,Sora2能够精准还原游戏中的关键要素,包括地图位置、生物群落、地形、车辆设计和帮派名称 [21][22][24] - 尽管在巨蜥坦克移动方式和帕纳姆位置两个细节上存在微小误差,但从海量信息中准确提取并整合支线任务要素的能力反映了模型较强的信息处理智能 [25]
Sora 2深夜来袭,OpenAI直接推出App,视频ChatGPT时刻到了
机器之心· 2025-09-30 23:49
产品发布与定位 - OpenAI 在行业其他公司专注于大模型时,悄然发布了视频生成模型 Sora2 [1] - 此次发布是直接产品化,推出了名为“Sora”的 iOS 社交应用,并配套了视频推送算法 [3] - OpenAI 将 Sora2 定位为视频领域的“GPT-3.5 时刻”,类比于 ChatGPT 带来的行业变革 [8] 技术能力与突破 - Sora2 在物理准确性、真实感和可控性方面均优于以往的视频生成系统 [5] - 模型能够呈现高难度动态场景,如奥运体操动作、精确模拟浮力和刚性动态变化 [12] - 系统能够模拟失败场景,例如篮球未投中时会从篮板反弹,而非扭曲物理定律,这在世界模拟能力上是一项重要进步 [13] - 该模型具备同步的对话和音效能力,能以高度真实感创建复杂的背景音、语音和音效 [6][15] - 引入了“上传你自己”功能,可将现实世界的人、动物或物体元素高保真地注入到生成的任何视频环境中 [16][19] - 模型在可控性方面取得重大飞跃,能够遵循复杂的多镜头指令并准确维持世界状态,擅长写实、电影和动漫风格 [14] 产品功能与体验 - 新推出的“Sora”应用允许用户创作作品、进行二次创作,并在可定制的信息流中发现新视频 [19] - 核心功能“客串(cameos)”使用户在验证身份后,能以极高逼真度融入任何 Sora 生成的场景,用户对自身形象拥有完全的使用控制权 [19][20] - 应用设计理念是最大限度地促进创作而非消费,默认信息流内容严重偏向用户关注或互动的人,以及可能激发创作灵感的视频 [22] 推荐算法与安全理念 - OpenAI 开发了一类新的可通过自然语言指令设定的推荐算法,以解决视频成瘾和内容推送优化问题 [22] - 算法内置机制会定期询问用户身心健康状况,并主动提供调整信息流的选项,公司声称并非针对用户观看时长进行优化 [22] - 公司在应用中解决了使用肖像的许可、来源出处及防止生成有害内容等多项安全问题 [22] 市场进入与可用性 - Sora iOS 应用现已在美国和加拿大可供下载,初始阶段免费并提供较为宽松的算力限制 [25] - ChatGPT Pro 用户可在 sora.com 上使用实验性的、更高质量的 Sora 2 Pro 模型 [25] - OpenAI 计划在未来通过 API 发布 Sora 2 [25] 行业影响与愿景 - 从2024年2月发布的初代 Sora(被视为视频领域的GPT-1时刻)到 Sora2,公司证明了通过扩大视频数据上的神经网络规模可更接近模拟现实 [11][17] - OpenAI 认为 Sora 将是一个比现有平台更有利于娱乐与创意发展的平台 [23]
世界模型,腾讯混元卷到了榜首
量子位· 2025-09-03 07:30
腾讯混元世界模型Voyager发布 - 腾讯混元发布业界首个支持原生3D重建的超长漫游世界模型HunyuanWorld-Voyager 该模型支持将视频直接导出为3D格式 并能够生成长距离且世界一致的漫游场景 [1][3][4] - 模型在发布后立即开源 距离上一代Lite版发布仅间隔两周 展现出快速迭代能力 [3] 核心功能与技术特性 - 新增"漫游场景"功能 支持通过鼠标和键盘在场景内自由活动 交互性远超360°全景图 用户可通过一句话或一张图生成高质量3D场景 [10][11][13] - 创新性将场景深度预测引入视频生成过程 通过空间与特征结合支持原生3D记忆和场景重建 避免传统后处理的延迟和精度损失 [31] - 采用视频生成与3D建模融合技术 基于相机可控的视频生成技术合成可自由控制视角的RGB-D视频 [32] - 关键组件包括世界一致的视频扩散架构和长距离世界探索机制 后者通过世界缓存机制支持迭代式场景扩展和平滑视频采样 [33] 数据集与训练体系 - 构建超过10万个视频片段的大规模数据集 整合真实世界采集与虚幻引擎渲染资源 通过自动化视频重建流水线实现无需人工标注的大规模数据构建 [33][34] - 训练数据构建引擎可自动估计相机位姿和度量深度 支持多样化训练数据的自动化生成 [33] 性能表现与基准测试 - 在斯坦福大学WorldScore基准测试中以77.62分位居综合能力首位 显著超越WonderWorld(72.69分)和WonderJourney(63.75分)等竞争对手 [36] - 在相机运动控制(85.95分)和风格一致性(84.89分)等细分指标表现突出 较第二名优势明显 [36] - 视频生成质量指标PSNR达18.751 SSIM达0.715 LPIPS为0.277 均优于See3D和FlexWorld等对比模型 [39] - 在场景重建任务中PSNR达18.035 SSIM达0.714 使用深度信息初始化点云后重建效果更佳 [42][43] 技术应用与扩展能力 - 支持视频场景重建 3D物体纹理生成 视频风格定制化生成和视频深度估计等多种3D理解与生成应用 [27] - 与混元世界模型1.0高度适配 可扩展1.0模型的漫游范围并提升复杂场景生成质量 [24] - 生成视频帧实时更新缓存形成闭环系统 支持任意相机轨迹同时维持几何一致性 [35] 模型部署要求 - 模型运行需要60GB GPU峰值内存 支持540p分辨率输出 [47] 腾讯开源生态布局 - 腾讯混元持续加速开源进程 产品矩阵包括MoE架构模型混元large 混合推理模型Hunyuan-A13B以及最小仅0.5B参数的端侧小模型 [48] - 最新开源翻译模型Hunyuan-MT-7B在国际机器翻译比赛中获得30个第一名 同时发布翻译集成模型Hunyuan-MT-Chimera-7B [48] 行业开源动态 - 阿里开源视频生成模型Wan2.2-S2V 美团发布首个开源大模型Longcat-Flash-Chat 显示国内大厂持续加码开源布局 [49][50][51]
阿里通义万相新突破:静态图+音频,轻松生成电影级数字人视频!
搜狐财经· 2025-08-27 20:45
公司技术发布 - 阿里通义万相正式开源多模态视频生成模型Wan2.2-S2V 支持通过单张静态图片和音频生成电影级数字人视频 [1] - 模型单次生成视频时长可达分钟级别 可应用于数字人直播 影视后期制作及AI教育等行业 [2] - 该模型已在通义万相官网 Hugging Face及魔搭社区等平台上线供开发者及行业用户免费试用 [2] 技术特性与性能 - Wan2.2-S2V采用音频驱动技术 实现面部表情生动 口型同步和动作流畅的视频生成效果 [1][3] - 模型支持不同分辨率视频生成 包括竖屏短视频和横屏影视剧格式 [3] - 引入AdaIN和CrossAttention两种控制机制 实现更准确动态的音频控制效果 [3] - 前代产品Wan2.2-I2V-Flash推理速度较前代提升12倍 显著降低使用门槛 [3] 产品矩阵与开源进展 - 公司于2025年7月28日开源Wan2.2系列模型 包含文生视频 图生视频及统一视频生成三类 [3] - 文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型 [3] - 开源模型包括通义万相2.2-S2V-14B 通义万相2.2-图生视频-A14B-Diffusers等多个版本 均采用Apache 2.0许可证 [2] 应用案例与效果 - 测试显示模型可处理真人 卡通 动物及数字人形象 生成说话 唱歌 表演等多种动作 [3][5] - 使用欧美人物照片配合中文音频生成视频时 面部表情和嘴部动作与音频完美同步 光线变化自然 [5] - 动画人物测试中可实现自动添加背景音乐 虽嘴部线条识别仍有提升空间 但整体效果出色 [5] 行业影响与前景 - 技术突破有望极大提升数字人直播 影视制作 AI教育等行业的视频创作效率 [2][3] - 模型为快速发展的数字人直播和影视制作行业提供了高效视频创作工具解决方案 [5] - 行业预计随着技术迭代完善 视频生成领域将迎来更多创新和突破 [5]