Workflow
视频推理模型
icon
搜索文档
专访Luma AI首席科学家:视频生成模型的游戏规则改变了
36氪· 2025-12-05 01:40
公司近期动态与融资情况 - Luma AI近期以40亿美元估值完成9亿美元C轮融资,由沙特公共投资基金(PIF)旗下机构HUMAIN领投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等老股东大额加注 [1] - 本轮融资资金将主要用于算力支出,以及人才和基础设施建设,以支持大规模多模态模型的训练和推理 [33][34][35] - 投资方HUMAIN正在沙特建设名为"Project Halo"的2GW人工智能超算集群,Luma AI将作为核心客户采用该算力,用于训练下一代多模态世界模型 [7] 公司发展历程与战略重心 - 公司成立于2021年,最初从3D生成起步,于2023年底转向视频生成模型 [5] - 2024年6月,公司推出面向C端用户的视频生成模型Dream Machine,以零推广费在4天内吸纳百万用户 [5] - 2024年9月,公司推出全球首个视频推理大模型Ray 3 [6] - 目前公司战略重心已从C端探索转向付费意愿更强、需求更刚性的B端专业用户,如影视、广告、内容制作机构 [5][17] - 公司团队规模约130人,其中30%–40%为技术研发人员 [36] 行业技术发展趋势:从生成到理解与推理 - 行业下一阶段的竞争焦点将从追求生成长视频和更高画质,转向提升模型对现实世界的理解与推理能力 [1][10] - 实现更强推理能力的关键是采用语言、图像与视频数据训练"多模态大一统"模型,多模态融合将推动模型能力从"生成"升级到"理解" [3] - 视频推理模型与传统生成模型的区别在于,前者能理解已有片段的场景空间、角色位置与镜头逻辑,从而生成物理上合理、衔接丝滑的视频 [2][11][12] - 图像生成领域在2025年已出现技术路径收敛,竞争焦点从架构设计转向高质量数据收集,视频生成领域预计在2026年将复现同样的收敛过程 [3][13][14] - 视频模型的数据量级可达几PB或几十PB,是文字数据量的几百上千倍,因此获取与处理大规模数据的能力成为关键挑战 [26] 商业模式与市场格局分析 - 视频生成模型的To C时代尚未到来,普通用户在新鲜感过后难以持续买单,Sora 2在30天的用户留存率仅为1% [3][19] - B端专业客户(如影视、广告公司)因AI能节省大量人力、时间和硬件投入,其付费意愿和粘性远高于C端用户 [18] - 在美国To B市场,由于政治、合规因素及成熟的企业服务接受度,实际竞争压力小于舆论场表现,市场供应商名单较短 [21][22] - 与3D生成业务相比,视频生成被验证具有更大的商业潜力和市场接受度,因3D数据量少、应用场景相对有限且大厂更倾向于自研 [24] 公司核心技术方向与产品规划 - 公司已将"多模态大一统模型"确立为下一阶段的核心方向,Ray 3很可能是其最后一代传统视频生成模型 [6][10] - 公司认为多模态大一统视频模型对于实现AGI的意义在于,能将AI对现实世界的理解和操作能力从纯语言空间扩展到视觉、动作、时间维度 [16] - 公司在视频生成领域的一项差异化优势是支持HDR(高动态范围),这对于电影制作等专业需求至关重要 [28] - 公司认为目前视频生成领域没有绝对的模型结构或方案能构成技术护城河,真正的差距体现在大规模工程实现、数据获取与处理能力上 [25][26] 行业竞争与创业环境展望 - 视频和多模态大一统模型赛道预计将像语言模型一样,最终收敛到少数几家头部公司 [29] - 在中国,从零开始进行基座模型创业的空间非常有限,因大厂在资金、人力、算力上优势太大;在美国,创业环境相对更好,美元基金仍有动力下注,退出机制也更清晰 [29]