Video Generation
搜索文档
Disney makes $1 billion investment in OpenAI, brings characters to Sora
Reuters· 2025-12-11 14:04
公司与战略合作 - 娱乐巨头迪士尼宣布将对OpenAI进行10亿美元的股权投资 [1] - 双方已达成协议 将把迪士尼旗下角色引入OpenAI的Sora视频生成模型 [1]
刚刚,霸榜神秘视频模型身份揭晓,原来它就是「David」
机器之心· 2025-12-02 00:17
产品发布与市场地位 - Runway公司最新发布Gen-4.5视频生成模型,该模型即此前在Artificial Analysis榜单上排名第一的神秘模型Whisper Thunder (aka) David [1] - Gen-4.5在视频生成的运动质量、提示词遵循度以及视觉逼真度方面树立了全新的行业标准 [1] - 该模型是目前全球评价最高的视频生成模型,其ELO Score分数为1,247,超越了Google的Veo 3/3.1(1,226/1,223分)、Kling 2.5(1,225分)以及OpenAI的Sora 2 Pro(1,206分)等主要竞争对手 [3][6] 技术特性与性能突破 - 模型在动态可控的动作生成、时间一致性以及多种生成模式下的精确可控性方面树立了新行业标准 [8] - 具备精确的提示词遵循能力,物体的运动呈现真实的重量、动量与力感,液体流动符合正确的动力学特性,表面细节以高保真度呈现 [11] - 能够生成复杂场景,以高精度呈现结构精巧、元素丰富的多层次场景 [11] - 具备精细的构图能力,能对物体与角色进行精确定位并呈现流畅自然运动效果 [13] - 模型呈现富有表现力的角色,能够展示细腻的情感、自然流畅的肢体动作以及栩栩如生的面部细节 [14] - 覆盖广泛的美学风格,从照片级真实感、电影质感到风格化动画,同时保持统一连贯的视觉语言 [16] 技术架构与部署 - Gen-4.5基于NVIDIA架构构建,在整个流程(包括早期研发、预训练、后训练及推理阶段)均完全运行于NVIDIA GPU之上 [20] - 公司与NVIDIA深度合作,从训练效率到推理速度全方位推动视频扩散模型优化的技术边界 [20] - 推理运行在NVIDIA Hopper和Blackwell系列GPU上,在保证质量的同时实现性能最优化 [20] 行业发展与公司历程 - Runway于2023年2月发布Gen-1,这是首个面向公众的视频生成模型,开创了全新的创意表达方式并催生了新产品类别 [7] - 2023年7月发布的Gen-2率先支持文生视频和图生视频功能,比PIKA和Sora都要早 [7] - 公司不断引领行业,让视频模型变得更强大、更可控,从基础模型的大幅提升到全新的控制方式以及更广泛的上下文能力 [7]
SaaStr AI App of the Week: Higgsfield — The Video AI Platform That’s Crushing It Where Everyone Else Is Still Prompting
SaaStr· 2025-10-26 17:07
公司核心创新与产品定位 - 平台核心创新为"Click-to-Video"功能,用户通过精选预设模板一键生成电影级视频片段,完全无需文本提示[5] - 产品定位为AI驱动的视频和图像生成平台,具备电影级质量、视觉效果和现成预设,面向创作者、营销人员和企业[4] - 平台提供AI精心设计的电影摄像机运动效果(如急推变焦和升降镜头)以及多镜头高质量视频生成,实现专业级叙事[6] - 公司采用聚合模式而非纯模型开发,整合自有AI模型及Sora 2、Veo 3.1等顶级第三方模型,专注于赢得分发战争而非模型战争[12][13] 市场表现与用户增长 - 公司推出五个月内吸引超过1100万用户,同期获得12亿次社交媒体展示[3][8] - 平台获得名人用户背书,包括麦当娜、威尔·史密斯和史努比·狗狗,同时被多个主要品牌使用[6] - 2025年9月完成由GFT Ventures领投的5000万美元A轮融资,总融资额达5820万美元[7][8] 团队背景与技术实力 - CEO Alex Mashrabov曾任Snap公司生成式AI总监,推出拥有超过1.5亿用户的MyAI聊天机器人,并入选福布斯30位30岁以下精英榜[9] - 联合创始人Erzat Dulat为哈萨克斯坦AI研究员,16人团队在不到九个月内开发出生成模型,仅使用32个GPU,展现工程效率[11] - 团队拥有大规模消费级AI产品交付经验,注重用户日活跃数和留存曲线等指标[10] 产品差异化优势 - 预设模板库作为秘密武器,提供文化调谐、趋势感知的模板(如广告牌广告、子弹时间场景),理解社交媒体内容传播规律[14][15] - 移动优先战略突出,优先开发iOS和Android应用而非桌面工作流,契合创作者随时随地制作内容的需求[16][17] - 平台支持绘制转视频功能,用户可草图生成动画内容,并开发数字大使工具Higgsfield Speak,创建能表达情感的虚拟角色[21] 企业市场战略与愿景 - A轮融资将用于扩展企业平台、壮大工程团队并加速市场进入策略,平台已设计满足大型组织性能和控制标准[18] - 采用产品引导增长至企业市场的策略,先通过免费/消费级产品吸引数百万创作者,再向其雇主推销协作、品牌控制和批量定价功能[19] - 公司长期愿景是成为短视频生产的操作系统,覆盖从创意到输出再到分发的全工作流程,而不仅仅是内容生成[22] 目标市场规模与应用场景 - 公司瞄准价值6000亿美元的短视频市场,其中美国视频创作市场年规模达2000亿美元[27] - 平台为B2B企业提供实际应用场景:产品发布(5分钟内从功能截图生成宣传视频)、社交证明(客户案例转视频)、销售赋能(动态产品演示)和活动营销(快速A/B测试视频变体)[23][24][29] - 解决方案可显著节省时间成本:传统视频机构制作单视频需3000-10000美元和2-4周,而使用该平台可将流程压缩至分钟级[25][29] 投资者观点与行业意义 - 投资者认为公司处于应用层AI、创作者经济和市场需求交汇的深刻转折点,类比英伟达和iPhone的定义类别时刻[31][33] - 公司体现AI应用的关键经验:用户体验胜过技术实力、消费级与企业级市场可并行、移动优先至关重要、预设模板优于提示词、有时聚合优于创新[38][39][40][41] - 平台代表与传统视频生产的决定性突破,成为合成媒体和AI视频推理的支柱,以真正可用的产品解决实际问题[42]
数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了
机器之心· 2025-06-19 02:28
核心观点 - 帧感知视频扩散模型(FVDM)通过引入向量化时间步变量(VTV)解决了传统标量时间步在视频生成中的局限性,显著提升时序建模能力 [2][18][19] - Pusa项目是FVDM理论的实际应用,探索出极低成本微调大规模预训练视频模型的有效路径,训练成本降低超200倍,数据需求减少超2500倍 [3][5] - Pusa通过非破坏性微调预训练模型(如Wan-T2V 14B),仅需500美金成本即可达到优于原模型的效果,同时解锁图生视频、首尾帧、视频过渡等多项功能 [5][35] - Pusa-Mochi版本进一步降低成本至100美金,实现高效视频生成 [11] - 完整代码库、训练数据集和训练代码已全面开源,旨在推动领域共同进步 [17] 技术原理 - 传统视频扩散模型采用标量时间变量,无法捕捉帧间动态关系 [18] - FVDM引入向量化时间步变量$$\mathbf{r}(t)=\left[\tau^{(1)}(t),\tau^{(2)}(t),...,\tau^{(N)}(t)\right]^{\top}$$,允许每帧独立噪声扰动 [18][19] - 扩展前向随机微分方程(SDE)以适应向量化时间步,每帧经历独立高斯分布噪声扰动 [20] - 设计集成反向SDE封装跨帧依赖关系 [23] - 基于分数的模型近似分数函数$$s_{\theta}(\mathbf{X},\tau(t))\approx\nabla_{X}\log p_{t}\left(\mathbf{X}\right)$$ [24] 网络架构与训练 - 对Mochi1及Wan等开源视频模型进行非破坏性改造,将标量时间步输入扩展为(B, N)形状向量化时间步 [27][28] - 通过正弦位置编码将时间步转换为(B, N, D)嵌入表示,通过adaLN-Zero等机制作用于Transformer层 [28] - 独创概率性时间步采样训练策略(PTSS),以概率为每帧采样随机独立时间步或相同时间步,解耦时序动态与基础生成能力学习 [29][30] - 非破坏性改造使模型初始即具备基础能力,仅需少量独立时间步微调即可掌握时序动态控制 [33] 应用效果 - Pusa-Wan实现500美金成本下优于原模型效果,保留文生视频能力同时解锁图生视频、首尾帧、视频过渡、视频拓展等功能 [5][35] - Pusa-Mochi版本仅需100美金训练成本 [11] - VTV机制支持多样帧级控制采样算法,如输入图像作为任意帧时可不加噪或加少量噪声 [35] - 测试样例展示大白鲨游泳、奶牛吃干草、戴墨镜男子驾驶汽车等场景生成效果 [7][9] 行业影响 - FVDM理论通过VTV带来视频生成根本性变革 [2][37] - Pusa项目以惊人低成本和高效微调策略将理论付诸实践,推广至强大预训练模型 [3][37] - 开源策略推动领域共同进步,探索更多可能性 [17][37]
字节 AI 卷出新高度:豆包试水“上下文定价”,Trae 覆盖内部80%工程师,战略瞄定三主线
AI前线· 2025-06-11 08:39
字节AI技术发展主线 - 公司认为AI技术发展主线包括多模态推理与思考、视频生成技术突破、多步骤复杂任务处理能力提升[5] - 预计2025年视频生成技术将进入实际生产环节 如消费领域和电商广告短片制作[5] - 多步骤复杂任务处理能力预计在2024年Q4达到可用水平 简单任务准确率可达80%-90%[5] 豆包大模型1.6升级 - 发布三个版本模型 均支持256K超长上下文和多模态输入[3] - 在高考数学测试中取得144分 海淀模拟考试理科706分 文科712分[3] - 支持自动操作浏览器完成酒店预定 识别购物小票并整理Excel等真实世界任务[3] - 综合成本仅为豆包1.5深度思考模型或DeepSeek R1的三分之一[8] 模型定价策略 - 1-32K上下文长度定价:输入0.8元/百万tokens 输出8元/百万tokens[9] - 32-128K上下文长度定价:输入1.2元/百万tokens 输出16元/百万tokens[9] - 128-256K上下文长度定价:输入2.4元/百万tokens 输出24元/百万tokens[9] 视频生成模型Seedance 1.0 Pro - 具备无缝多镜头叙事 多动作运镜 稳定运动与真实美感三大特点[18] - 生成5秒1080P视频仅需3.67元 价格具有竞争力[18] - 1万元预算可生成2700条1080P视频 或9700多条780P视频[20] Trae开发工具进展 - 内部超过80%工程师使用 月活用户超100万[14] - 采用自然语言编程方式 AI生成85%代码 开发者仅需优化不到5%[16] - 支持100+MCP Servers 支持代码重构 批量修改和交互式问答等复杂任务[16] 行业技术趋势 - 强化学习算力消耗快速攀升 预计2027年投入可能接近预训练规模[25] - 企业加速改造基础设施和云计算体系以适应AI发展需求[23] - 提示词工程正向价值随模型能力提升而增大 最终将由自动化系统解决[25] 商业化应用实践 - 与网易《逆水寒》合作测试玩家创作角色故事视频生成[22] - 豆包实时语音模型全量上线方舟平台 推出支持自然对话的播客模型[22] - 自建算力占比达30% 结合公有云资源平衡成本[11]