Workflow
Dream Machine
icon
搜索文档
专访Luma AI首席科学家:视频生成模型的游戏规则改变了
36氪· 2025-12-05 01:40
公司近期动态与融资情况 - Luma AI近期以40亿美元估值完成9亿美元C轮融资,由沙特公共投资基金(PIF)旗下机构HUMAIN领投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等老股东大额加注 [1] - 本轮融资资金将主要用于算力支出,以及人才和基础设施建设,以支持大规模多模态模型的训练和推理 [33][34][35] - 投资方HUMAIN正在沙特建设名为"Project Halo"的2GW人工智能超算集群,Luma AI将作为核心客户采用该算力,用于训练下一代多模态世界模型 [7] 公司发展历程与战略重心 - 公司成立于2021年,最初从3D生成起步,于2023年底转向视频生成模型 [5] - 2024年6月,公司推出面向C端用户的视频生成模型Dream Machine,以零推广费在4天内吸纳百万用户 [5] - 2024年9月,公司推出全球首个视频推理大模型Ray 3 [6] - 目前公司战略重心已从C端探索转向付费意愿更强、需求更刚性的B端专业用户,如影视、广告、内容制作机构 [5][17] - 公司团队规模约130人,其中30%–40%为技术研发人员 [36] 行业技术发展趋势:从生成到理解与推理 - 行业下一阶段的竞争焦点将从追求生成长视频和更高画质,转向提升模型对现实世界的理解与推理能力 [1][10] - 实现更强推理能力的关键是采用语言、图像与视频数据训练"多模态大一统"模型,多模态融合将推动模型能力从"生成"升级到"理解" [3] - 视频推理模型与传统生成模型的区别在于,前者能理解已有片段的场景空间、角色位置与镜头逻辑,从而生成物理上合理、衔接丝滑的视频 [2][11][12] - 图像生成领域在2025年已出现技术路径收敛,竞争焦点从架构设计转向高质量数据收集,视频生成领域预计在2026年将复现同样的收敛过程 [3][13][14] - 视频模型的数据量级可达几PB或几十PB,是文字数据量的几百上千倍,因此获取与处理大规模数据的能力成为关键挑战 [26] 商业模式与市场格局分析 - 视频生成模型的To C时代尚未到来,普通用户在新鲜感过后难以持续买单,Sora 2在30天的用户留存率仅为1% [3][19] - B端专业客户(如影视、广告公司)因AI能节省大量人力、时间和硬件投入,其付费意愿和粘性远高于C端用户 [18] - 在美国To B市场,由于政治、合规因素及成熟的企业服务接受度,实际竞争压力小于舆论场表现,市场供应商名单较短 [21][22] - 与3D生成业务相比,视频生成被验证具有更大的商业潜力和市场接受度,因3D数据量少、应用场景相对有限且大厂更倾向于自研 [24] 公司核心技术方向与产品规划 - 公司已将"多模态大一统模型"确立为下一阶段的核心方向,Ray 3很可能是其最后一代传统视频生成模型 [6][10] - 公司认为多模态大一统视频模型对于实现AGI的意义在于,能将AI对现实世界的理解和操作能力从纯语言空间扩展到视觉、动作、时间维度 [16] - 公司在视频生成领域的一项差异化优势是支持HDR(高动态范围),这对于电影制作等专业需求至关重要 [28] - 公司认为目前视频生成领域没有绝对的模型结构或方案能构成技术护城河,真正的差距体现在大规模工程实现、数据获取与处理能力上 [25][26] 行业竞争与创业环境展望 - 视频和多模态大一统模型赛道预计将像语言模型一样,最终收敛到少数几家头部公司 [29] - 在中国,从零开始进行基座模型创业的空间非常有限,因大厂在资金、人力、算力上优势太大;在美国,创业环境相对更好,美元基金仍有动力下注,退出机制也更清晰 [29]
LUMA AI完成由HUMAIN领投的9亿美元C轮融资,并将在沙特阿拉伯合作建设2吉瓦AI超级集群
机器之心· 2025-11-24 09:30
融资与合作核心信息 - Luma AI完成9亿美元C轮融资,由PIF旗下的HUMAIN领投,AMD Ventures深度参与,过往投资者Andreessen Horowitz、Amplify Partners和Matrix Partners也参与其中 [1] - 融资在华盛顿特区举行的美沙投资论坛上宣布,正值沙特王储访问之际 [4] - 本轮融资是公司构建多模态通用智能使命中的一个里程碑 [3] 战略项目“光环计划”(Project Halo) - HUMAIN将建设名为“光环项目”的AI超级计算集群,位于沙特阿拉伯,容量为2吉瓦,旨在成为世界上最大的AI计算集群之一 [1][3] - 该集群将为下一代“世界模型”提供算力支撑,加速迈向多模态通用人工智能的进程 [3] - 该集群代表了多模态AI基础设施的一次巨大飞跃,旨在训练比当前前沿大语言模型多1,000到10,000倍信息量的拍字节级多模态数据 [5] 技术愿景与应用前景 - Luma AI致力于构建多模态AGI,即能够在物理世界中生成、理解和操作的AI,其系统需要从相当于人类集体数字记忆的千万亿个信息标记中学习 [1][5] - 世界模型是继大语言模型之后的下一个AI阶段,蕴含跨越娱乐、营销/品牌、教育、世界理解和机器人行业的潜在万亿美元机遇 [1] - 技术将应用于机器人、娱乐、广告、游戏和个性化教育等领域 [4] 合作伙伴关系与市场拓展 - 合作伙伴关系包括HUMAIN Create计划,旨在构建基于阿拉伯语和区域数据训练的AI模型,帮助中东和北非地区的企业和政府采用符合文化背景的AI [1] - Luma AI是首批在HUMAIN Create中推出的模型集,这些模型将理解文化语境、视觉细微差别和语言多样性 [7] - Luma AI计划将其在娱乐和广告领域的领导地位扩展到模拟、设计和机器人领域 [7] 公司产品与能力 - Luma AI的旗舰模型Ray3是世界上第一个推理视频模型,能够创建物理上准确的视频、动画和视觉效果,已被顶级娱乐工作室、广告代理商和技术领导者使用 [8] - 旗舰平台Dream Machine使创意人员能够生成专业级的视频和图像 [8] - 公司展示了将基础研究转化为可扩展商业产品的能力,其模型被嵌入Adobe的全球产品和解决方案中 [7]
抽象小视频秒变特效大片:原视频精髓不变角色环境任意换,Luma出品
量子位· 2025-06-05 08:32
AI视频模型Modify Video的核心功能 - AI视频模型Modify Video能重新"想象"任何视频,类似于人类拍个草稿,AI负责搞定各种后期视效 [9] - 能对角色、场景、动作进行精准控制,只编辑想编辑的元素,不会篡改本来的人物动作 [10] - 解决了当前AI视频生成模型不受控制、容易产生诡异动作的问题 [11] Modify Video的三大核心能力 - 视频动捕:自由提取全身、面部或口型动作,完美迁移到新角色上 [18] - 风格迁移:从白天到黑夜、公园到峡谷,各种风格都能变幻自如 [19] - 单个元素编辑:不用整个镜头更改,哪里不满意点哪里,细节处理更容易 [20] 技术优势与竞品对比 - 在姿势同步、口型同步和面部跟踪等高级性能信号上表现优异 [22] - 支持16:9(720p)格式分辨率,实现无缝集成 [22] - 在盲评中明显优于Runway V2V,画面一致性更高 [28] - 提供三种结构化预设选择:粘贴、弯曲和重构 [22] 公司背景与融资情况 - 由Amit Jain和Alex Yu联合创立,团队具有苹果AR/CV和伯克利3D计算机视觉背景 [32] - 公司成立于2021年,专注于计算机视觉领域 [35] - 2024年12月完成9000万美元融资,投资方包括亚马逊、AMD等 [35] - 此前已吸引a16z、英伟达等知名投资方 [36]