Sora 2
搜索文档
全球功能最全的视频生成模型来了
量子位· 2025-12-17 10:00
公司产品发布 - 阿里发布了新一代通义万相2.6系列模型,该模型一次性覆盖文生视频、图生视频、参考生视频、图像生成和文生图,是目前全球功能最全的视频生成模型 [1] - 该模型在视频创作上推出了Sora2目前还没有的多音频驱动生视频能力,并同步引入了音画同步、多镜头叙事等能力 [2] 视频生成核心能力升级 - **视频参考生成**:支持视频参考,模型能提取其中主体的外观与音色,并结合提示词生成新视频内容,可用于单人表演或双人合拍等场景 [12] - **多镜头叙事**:支持多镜头生成,保持镜头间关键信息一致,可通过简单提示词完成分镜 [12] - **自然声画同步**:在多人对话等复杂场景中,语音与动作匹配更稳定 [12] - **长视频生成**:单条视频最长15秒(参考生视频最长10秒) [12] - **基础能力提升**:在指令理解与执行、画面真实度及整体美学表现等方面均有加强 [12] 视频生成能力实测表现 - **视频参考生成效果**:在主体一致性和提示词理解上做得比较扎实,能实现1:1还原,口型匹配较为准确,动作、表情与台词语义能够对应,但生成结果中的声线并未完全沿用原视频 [11] - **声画同步效果**:在双人剧情对话等复杂场景中,动作与语言能形成完整互动,模型能补全台词并添加与动作匹配的拟声细节,能区分不同角色的情感变化,但在多角色台词绑定上仍有提升空间,偶尔会出现角色说错台词或字幕语音未完全对齐的情况 [13] - **画面质感与美学**:在画面质感和美学呈现方面有提升,能准确呈现如“第一人称赛博城市飞行视角”等复杂提示词,生成具有电影级画面质感、节奏紧凑、科幻感强烈的视频 [13][14] - **多镜头叙事效果**:对多镜头叙事的理解较为到位,镜头中的主要动作和转场均能得到完整呈现,镜头衔接自然,但对于提示词中描述不够充分的抽象动作(如“探头观察”)仍存在理解难度 [15][17][18] 图像生成能力升级 - 图片生成功能在美学理解、人像生成、文字处理、历史文化及知识IP语义理解上带来新升级 [18] - **风格化能力**:能及时掌握并生成新的美学风格,如生成具有高饱和色块拼接、像素风处理的“星露谷风格”插画 [19][20][22] - **人像生成能力**:在人像光影方面的处理更好,能生成具有清晰明暗分区、面部结构立体、肤质细节自然、具有电影感和空间层次感的半身人像 [22][24] - **中英文处理与排版能力**:能生成中英文对照排版的美食宣传海报,在构图排版上判断靠谱,主体突出,文字层级分明,达到成品水准 [25][27] 整体评价与可用性 - 模型在音视频参考、声画同步、风格理解方面表现不错,但在个别场景下仍会出现画面逻辑偏差、多角色台词对不上、复杂动作理解不到位等小问题 [7][28] - 对于日常短视频创作和二创而言,模型已经是可用且好用的水平,用户敢多跑几次而不用每次都碰运气 [7][28][29] - 模型还在多图融合、美学要素迁移、历史知识语义理解上做了提升 [30]
硬刚Sora2,万相2.6轻松定制角色、控制分镜,普通人也能当导演
机器之心· 2025-12-17 05:28
行业年度回顾与趋势 - 2025年视频生成领域发展突飞猛进,视频内容创作范式正在发生改变 [1] - 行业在B端和C端商业化落地速度惊人:B端大量AI短剧、漫剧上线,制作成本大幅降低;C端社交平台出现爆款特效,大量博主开始常态化使用AI制作剧情短片 [1] - 顶尖模型生成的画面在光影质感与物理规律上已臻化境,但用户体验门槛依然存在,如高不可攀的内测资格或不菲的订阅费用 [1] 公司产品发布与定位 - 阿里于12月16日正式发布新一代万相2.6系列模型,涵盖文生视频、图生视频、参考生视频、图像生成和文生图共5款模型,是目前全球功能覆盖最全面的视频生成模型家族之一 [2][3] - 万相2.6是**国内首个**具备声画一致性角色定制能力的模型,能通过角色参考固定IP形象,并参考输入视频中的音色,实现从画面到声音的完美复刻 [3] - 该版本进一步提升了画质、音效和指令遵循能力,单次视频生成时长实现了**国内最高的15秒**(参考生视频为10秒) [3] - 模型已同步上线阿里云百炼和万相官网,企业用户可直接调用API,千问APP也将于近期上线 [3] 核心技术能力突破 - 万相2.6具备“参考生视频”能力,成为**全球唯二、国内首个**拥有此能力的模型,允许将任意人或物设定为主角,在多镜头切换中保持核心主体、场景和环境氛围的统一 [7] - 模型在结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,提取主体的时序情绪、姿态、视觉特征及音色、语速等声学特征,实现从视觉到听觉的全感官一致性迁移 [9] - 模型具备“分镜控制”功能,通过高层语义理解将简单提示词转换为多分镜脚本,生成包含多个镜头的连贯叙事视频,确保内容、节奏和氛围的高一致性 [3][9] 产品功能实测与效果 - 实测中,万相2.6能精准提取参考素材中主体的形象特征、声音声线及惯用神态,并可通过提示词将其置入全新剧情 [11] - 在多角色声画同步测试中,模型对科技人物(如奥特曼、哈萨比斯、黄仁勋)的眉眼微表情、肢体语言及习惯性动作还原度极高,英文版能完美复刻其原本的声线与语调 [13][14] - 在细节把控测试中,模型能生成电影级高保真度的特写镜头,完美呈现如眼镜片因热气起雾、皮肤细微纹理和毛孔“呼吸感”等复杂细节,打破了AI生成人物常见的“塑料感” [17][18] - 在长叙事能力测试中,模型展现出了类似专业导演的运镜意识,能通过推拉摇移和景深变化掌控叙事节奏,并高度还原设定的视觉风格与人物情绪 [24] 图像生成能力升级 - 万相2.6在静态图像生成领域完成了版本迭代,在“高美学”与“强可控”上同时迈进 [26][27] - 在文生图方面,新模型实现了对艺术风格的“灵魂捕捉”,对肌理、色彩、笔触等细节刻画更为到位,并能进行平滑自然的风格融合 [27] - 针对人物写实照片,2.6版本综合优化了构图与光影,削弱了“AI塑料感”,人物神态更自然,肤质真实感大幅提升 [29] - 新版本改善了在图片中生成中英文文本的能力,并新增了“图文混排输出”和“多图融合生成”等功能,能依据逻辑创作具有叙事性的绘本或复杂商品组合场景 [31] - 模型提供了商用级的一致性保持能力,以及更精确的镜头远近视角和光影效果控制选项 [33] 应用场景与市场影响 - 万相2.6面向广告设计、短剧制作等专业场景展现出惊人潜力,通过连续提示词能生成完整叙事的短片 [16] - 万相模型家族已支持文生图、图像编辑、文生视频等10多种视觉创作能力,已广泛应用于AI漫剧、广告设计和短视频创作等领域 [35] - 万相2.6的发布标志着AI视频生成告别“抽卡”时代,迈向了精准可控的电影级创作新阶段,将昂贵的影视工业特权折叠进了手机和云端 [36]
2025年人工智能核心产业规模有望破万亿元!科创人工智能ETF华夏(589010) 震荡回调,逢低配置窗口开启
每日经济新闻· 2025-12-15 06:29
开源证券表示,国内外多模态大模型迎来快速突破。OpenAI于2024年2月推出的初代Sora模型,堪称视 频领域的GPT-1时刻,2025年9月底,OpenAI推出Sora 2,视频领域有望迎来GPT 3.5式突破时刻。Sora 2 在物理模拟、真实感和可控性方面显著提升,还能同步生成对话、背景音效和声音效果,创造出从逼真 到动漫风格的统一视听体验。10月16日,谷歌在Gemini API中发布了Veo 3.1和Veo 3.1 Fast付费预览版, 在Veo 3基础上进行了重大升级,带来更丰富的音频支持、更强的叙事控制及更逼真的质感还原。 科创人工智能ETF华夏(589010)紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业,兼具高 研发投入与政策红利支持,20%涨跌幅与中小盘弹性助力捕捉AI产业"奇点时刻"。 截至14点,科创人工智能ETF(589010)日内回调2.14%,价格回踩至1.326元附近。尽管指数短期承 压,但结构性亮点十足:持仓股星环科技爆发力惊人,逆势上涨19.99%,天准科技大涨超7%,显示核 心个股依然具备极强的弹性。流动性方面,成交额已超4700万元,交投活跃。当前板块经历调整后 ...
跨越科技奇点,布局AI新机
平安证券· 2025-12-15 02:09
核心观点 - 报告维持计算机行业“强于大市”评级,坚定看好我国人工智能产业的未来发展,认为随着国产AI算力产业链成熟和国产大模型持续迭代,大模型在千行百业的应用落地将加快,大模型和智能驾驶等主题将在二级市场获得更好的投资机会 [4][5] 行业回顾与展望 - **基本面**:2025年前三季度,计算机行业上市公司营业总收入合计9393.4亿元,同比增长9.4%;归母净利润合计233.0亿元,同比大幅增长35.8%;扣非归母净利润合计143.2亿元,同比大幅增长41.3% [11] - **子行业表现**:计算机设备子行业营收同比增长13.7%,归母净利润同比增长14.6%;软件开发子行业营收同比增长1.4%,归母净利润减亏86.3%;IT服务子行业营收同比增长11.3%,归母净利润增长27.4% [11] - **市场行情**:年初至2025年11月28日,申万计算机指数上涨18.54%,跑赢沪深300指数3.50个百分点,在31个申万一级行业中排名第10位 [18] - **基金持仓**:2025年三季度,计算机行业的基金重仓持股比例为1.24%,环比微降0.02个百分点,在31个申万一级行业中排名第11位 [20] - **行业估值**:截至2025年11月28日,计算机行业市盈率(TTM,剔除负值)为54.2倍,处于历史68%分位,在31个申万一级行业中排名第3位 [23] - **政策与展望**:国家层面高度重视人工智能发展,随着国产AI算力产业链成熟和国产大模型持续迭代升级,大模型在我国千行百业的应用落地将加快 [25][26] 算法及应用 - **全球竞争格局**:2025年下半年以来,全球大模型领域竞争加剧,海外闭源模型性能角逐提速;当前全球前十的前沿模型以谷歌、Anthropic、OpenAI、xAI的闭源模型为主;开源国产大模型如Kimi K2 Thinking、MiniMax-M2性能持续处于全球第一梯队 [27][30] - **技术迭代方向**:跨模态与智能体正在成为大模型市场竞争焦点;多模态大模型加速迭代,应用场景向图像、语音、视频、代码等拓展;智能体(AI Agent)通过任务分解、自主决策、工具调用与环境交互,显著拓宽模型任务边界 [32][34] - **生态构建**:以谷歌、阿里为代表的全球领先大模型厂商致力于搭建“芯模云端”的全栈AI生态,以构筑更高的商业壁垒、释放更大的商业势能 [36][40][41] - **应用落地趋势**:根据OpenAI万亿Token消耗Top 30客户名单,头部AI产品赛道开始收敛,主要集中于AI编程工具、企业级服务以及生产力工具三个赛道 [42][43] - **重点关注赛道**:报告建议关注编程、企服、办公三个AI应用赛道 [4][42] - **AI+编程**:全球AI编程工具流量持续增长,Cursor母公司Anysphere投后估值达293亿美元;国内AI编程使用频率(31%)相较全球整体(82%)仍有较大提升空间 [45][47] - **AI+企服**:Agent的自主执行与跨系统编排能力攻克企服场景痛点;国内企服公司AI相关收入及订单快速增长,商业化落地进程加快 [53][59][60] - **AI+办公**:大语言模型适配传统办公文字类场景,多模态能力助力传统办公软件进化为生产力工具;AI+办公产品形态从单点应用向集成化平台演进 [61][62] 算力 - **市场高景气度**:大模型的迭代升级与应用落地将拉动全球AI算力市场持续高景气;IDC预计,2024-2028年全球AI服务器市场规模CAGR为15.5%,中国AI服务器市场规模CAGR为30.6% [67] - **全球资本开支支撑**:2025年第三季度,微软、谷歌、Meta、亚马逊资本开支合计1125亿美元,同比增长76.9%,为全球AI算力产业发展提供强力支撑 [70] - **芯片市场格局**:GPU芯片是AI算力芯片市场主流,英伟达占据主导地位,其2026财年第三季度数据中心业务收入512亿美元,同比增长66%;ASIC芯片市场规模也在高速增长,预计2023-2028年CAGR高达53% [72][73][75] - **国产算力发展机遇**:AI算力芯片的自主可控已成为确定性发展趋势;在政策推动、下游需求强劲增长、替代空间大等多重因素推动下,国产AI算力芯片产业链迎来发展机遇 [4][84] - **国产芯片进展**:以华为昇腾910B为代表的国产AI算力芯片在性能上已可对标英伟达H20;2024年,中国本土人工智能芯片品牌的出货量市场份额约30%,未来有超过两倍的出货量替代空间;国产AI算力芯片已呈现百花齐放态势,并逐步取得规模化落地 [85][88][89][90] 智能驾驶 - **全球产业蓬勃发展**:特斯拉FSD已更新至v14.2.1版本,累计行驶里程数已超过67亿英里;小鹏汽车发布第二代VLA、小鹏Robotaxi等,并将城市NOA功能引入15万价位的MONA M03车型;华为发布乾崑智驾ADS4,其解决方案在我国城市NOA新车销量中市场份额第一 [4] - **NOA成为主流方案**:具备城市NOA功能的L2++预计将成为智能驾驶未来的主流方案;我国高速NOA和城市NOA智驾功能的装配率呈现上升态势 [4] - **市场前景广阔**:亿欧智库数据显示,我国NOA的市场规模未来将高速增长,2030年有望超3000亿元;随着NOA功能普及,我国智能驾驶产业的商业化将提速,相关产业链厂商将深度受益 [4] 投资建议与个股 - **整体建议**:报告认为大模型和智能驾驶等主题将在二级市场获得更好的投资机会,维持对计算机行业“强于大市”的评级 [5] - **个股推荐**: - **AI算力**:推荐海光信息、龙芯中科、工业富联、浪潮信息、紫光股份、中科曙光、神州数码;建议关注寒武纪、华勤技术、景嘉微、软通动力、拓维信息 [5] - **AI算法及应用**:推荐道通科技、金山办公、科大讯飞、同花顺;建议关注合合信息、鼎捷数智、汉得信息、赛意信息、普联软件、泛微网络、致远互联、锐明技术、迈富时、百融云-W [5] - **智能驾驶**:强烈推荐中科创达,推荐德赛西威 [5]
MiniMax 闫俊杰和罗永浩四小时访谈:走出中国AI的第三条路,大山并非不可翻越
36氪· 2025-12-11 08:11
当整个 AI 圈都在为 DAU(日活跃用户数)和融资额焦虑时,MiniMax 创始人闫俊杰却表现出一种近乎冷酷的淡漠。 坐在罗永浩对面的闫俊杰,并不像一位掌管着 AI 独角兽企业的技术新贵。 他拒绝谈论改变世界,反而坦承恐惧。那种恐惧不是来自商业竞争,而是来自技术本身——当模型的能力开始超越人类时,创造者反而成了最先感到不安 的人。 用 1/50 的筹码通往 AGI 在巨头环伺、算力短缺、热钱褪去的 2025 年,MiniMax 正在进行一场关于认知的修正:不再沿用移动互联网的逻辑,即通过大规模投放换取增长、通过 堆砌功能留住用户,而是回归本质: 把模型当作最重要的产品 。 在大模型时代,真正的产品其实是模型本身,传统意义上的产品更像是一个渠道。如果模型不够聪明,产品做得再好也没有用。 在罗永浩和闫俊杰这期对谈里,我发现 MiniMax 这家 AI 公司从创业第一天就选择了注定与主流背道而驰的技术路径。 当所有人都试图寻找中国的 OpenAI 和 Sam Altman 时,闫俊杰却在试图证明「非天才」的价值。MiniMax 的故事不是关于天才的灵光乍现,而是一场关 于如何在资源受限的缝隙中,通过极度理性地计算 ...
Meta新AI大模型“牛油果”有望明年一季度发布,使用阿里Qwen模型蒸馏学习
新浪财经· 2025-12-11 03:32
12月11日消息,美国科技巨头 Meta 在训练其代号为"牛油果"(Avocado)的新模型时,使用了阿里巴巴 Qwen 模型进行蒸馏优化。据知情人士,新模型可能以"闭源"形式发布,即一种可以被严格控制、且 Meta 可出售访问权限的模型。 据悉,在投入数百亿美元打造科技史上最昂贵团队数月后,Meta 的CEO扎克伯格将亲自参与日常工 作,并推动公司战略转向研发可变现的人工智能模型。据知情人士透露,公司内部许多人曾预计"牛油 果"或将在今年年底前发布,但目前计划是在2026年第一季度发布。 Llama 4 的失误成为扎克伯格转变战略的重要催化剂,也引发了公司内部的重大人事震荡。 今年年中,Meta 花 143 亿美元重金引入了 Scale AI 的创始人 Alexandr Wang 及其团队,还挖来了前 GitHub CEO Nat Friedman,让他负责 MSL 的产品与应用研究,以及 ChatGPT 联合创始人赵晟佳。 这些人才带来了硅谷最前沿的 AI 研发技术,也彻底改变了 Meta 传统的公司策略。 Meta 发言人回应称:"我们的模型训练工作正按计划进行,没有出现任何实质性的进度变化。"但内部 ...
彭博:Meta转向!扎克伯格亲自挂帅,引入阿里Qwen训练,从开源走向盈利型闭源AI
美股IPO· 2025-12-11 00:34
核心战略转型 - Meta正经历从长期坚持的开源战略向闭源商业化模式的显著转变 其新AI模型"Avocado"预计明年春季作为闭源模型发布 标志着公司战略更接近谷歌与OpenAI等竞争对手的模式 [1][3] - 公司战略转向的直接诱因是此前发布的开源模型Llama 4令管理层失望 此后公司资源重组 将部分参与该项目的人员边缘化 [5] - 为推进新战略 公司进行了重大人事与组织架构调整 扎克伯格亲自牵头组建直接向其汇报的TBD实验室团队 并安排在总部附近集中办公以便实时跟进 [5] 核心AI项目“Avocado” - 新AI模型代号为"Avocado" 在开发过程中使用了包括阿里巴巴通义千问(QWEN)、谷歌Gemma、OpenAI的GPT-oss在内的多个第三方模型进行优化 [1][3] - 公司正在考虑对部分AI模型采取更严格的使用控制 并可能探索商业化授权路径 [3] - 公司未来在AI竞争中的地位将取决于核心AI项目"Avocado"能否取得关键突破 [4][8] 关键人事变动 - Meta以约143亿美元的交易完成对Scale AI的收购 并将其28岁的创始人Alexandr Wang任命为公司首席AI官 他将直接负责公司核心AI产品的研发 Wang是闭源路线的明确支持者 [5] - 被誉为"AI教父"之一的Yann LeCun因对公司资源分配及开源战略重视不足感到不满而离开Meta 公司高层认为LeCun已不再代表其当前的AI战略方向 [5] 资源投入与资本支出 - 人工智能被确立为Meta的首要战略任务 扎克伯格承诺未来三年在美国投入6000亿美元用于基础设施建设 其中大部分将直接支持AI发展 [7] - 为支撑庞大的AI资本计划 公司内部进行资源重新配置 显著削减对虚拟现实及元宇宙业务的投入 将资金集中于AI眼镜及相关硬件的研发 [7] - 持续的高额资本支出引发华尔街对其盈利前景的担忧 投资者对持续至2026年的巨额投入能否转化为可观利润仍存疑虑 [4][7] 市场竞争与产品节奏 - 公司面临向市场证明其"超级智能"战略可行性的压力 [4] - 为抢在OpenAI发布Sora 2之前占领市场 Meta匆忙推出了基于Midjourney授权技术的视频生成工具"Vibes" 但该产品发布一周后即被Sora 2的声量所覆盖 [7]
From Llamas to Avocados: Meta's shifting AI strategy is causing internal confusion
CNBC· 2025-12-09 12:00
公司AI战略转向 - 公司AI战略重点已从开源Llama模型转向通过高额投入招募顶级人才以开发前沿专有模型[2] - 公司内部及行业专家认为其AI战略在2025年底仍显分散 导致市场认为其进一步落后于主要竞争对手[3] - 公司正在开发代号为“Avocado”的新一代前沿AI模型 原计划2025年底发布 现推迟至2026年第一季度[4] 领导层与组织架构变动 - 公司于2025年6月以143亿美元收购Scale AI创始人Alexandr Wang及其核心团队 Wang被任命为首席AI官并领导TBD实验室[6][15] - 公司产品主管Chris Cox在Llama 4发布失利后不再负责AI部门(GenAI单元)[14] - 公司新AI领导层还包括前GitHub CEO Nat Friedman(负责MSL产品与应用研究)及ChatGPT联合创造者Shengjia Zhao[16] - 公司首席AI科学家Yann LeCun在FAIR等部门裁员后离职创业[24] - 公司于2025年10月将Vishal Shah从元宇宙部门调任AI产品副总裁 以协调传统社交应用与AI项目[27] 财务与资源投入 - 公司将2025年资本支出指引从660-720亿美元上调至700-720亿美元[6] - 公司2025年10月与Blue Owl Capital达成270亿美元合资协议 以资助并开发路易斯安那州的Hyperion数据中心[35] - 公司持续投入巨资以维持AI竞争力 主要供应商英伟达在2025年11月财报中提及公司广告推荐模型Gem 但未提及Llama[19][20][21] 产品发布与市场表现 - 公司于2025年9月发布AI生成短视频产品Vibes 但被普遍认为逊于OpenAI的Sora 2 且因缺乏关键功能(如逼真口型同步音频)而显得仓促[22] - Vibes应用下载量落后于Sora应用[23] - 公司核心数字广告业务年销售额超1600亿美元 受AI改进和Instagram推动 年营收增长超过20%[9] 开源策略转变 - 公司独特的AI定位曾是Llama模型的开源性 但自Llama 4于2025年4月发布未能吸引开发者后 开始重新考虑开源策略[11] - 公司CEO在2025年7月表示需谨慎选择开源内容 而Avocado模型可能成为专有模型[11] - 中国AI实验室DeepSeek的R1模型采用了Llama架构 加剧了公司内部对开源风险的担忧及战略调整的呼声[12] - 公司高薪聘请的AI人才及MSL领导层也对开源策略提出质疑 倾向于开发更强大的专有模型[13] 内部文化与运营调整 - 公司AI部门工作强度加大 70小时工作周成为常态 并伴随裁员与重组[23] - 公司于2025年10月在MSL裁员600人以简化层级 加速运营[24] - 新AI领导层(如Wang和Friedman)管理风格更为封闭 与公司历史上开放的内部沟通文化形成对比 TBD实验室甚至不使用内部社交网络Workplace[25] - 新的产品开发理念强调“演示 而非备忘录” 并使用Lovable等工具加速内部应用开发[31] - 公司正改变基础设施策略 在自建数据中心的同时 越来越多地使用CoreWeave和Oracle等第三方云服务进行AI功能开发与测试[34] - 公司计划削减对虚拟现实及元宇宙计划的资源 将注意力转向与EssilorLuxottica合作开发的AI眼镜[28] 行业竞争格局 - 竞争对手在2025年持续发力:Google发布Gemini 3 OpenAI更新GPT-5 Anthropic在11月发布Claude Opus 4.5[18] - 行业分析师指出尚无明确的领先AI模型 不同模型在不同任务上各有所长 但所有主要模型创建者都必须投入巨资以维持竞争优势[19] - 英伟达CEO在2025年11月财报电话会上列举了其服务的模型开发商 包括OpenAI、Anthropic、xAI、Google的Gemini等 但未提及Meta的Llama[21]
AI不是随机鹦鹉,如何应对“有主见”的AI?
观察者网· 2025-12-05 02:12
AI技术的发展历程与突破 - 大语言模型技术经历了三代人60年的研究积累,其近期突飞猛进的根本转变源于神经网络和机器学习领域的革命[4][5] - 技术突破的关键转折点出现在约10年前,通过解决复杂的视觉图像识别问题,证明了神经网络惊人的扩展性[10] - 当前AI革命的基础是40年的研究,例如ChatGPT的成功看似一夜成名,实则背后是长期积累的结果[10] 大语言模型的技术本质与局限 - 大语言模型受人类大脑皮层启发,但仅模拟了编码功能的一小部分,其本质是“云端的大脑”,缺乏身体、感官和长期记忆[10][11][14] - 模型在整合知识的广度上已远超人类专家,但其能力仅限于文本训练,目前正扩展至图像和视频[10][11] - 模型缺乏人类的关键能力,包括情绪体验、终身学习以及现实世界中的自主性[14][15] 对AI潜在风险的看法与类比 - AI技术本身是工具,其风险在于使用方式,与核能、生物技术等所有新技术一样,既可用于造福人类,也可能被滥用[16] - 监管是必要的,但关键在于防止技术被坏人利用,历史上人类已成功管理了核能与生物技术的双重用途[16] - 目前处于AI技术的开端,如同早期会爆炸的蒸汽机,需要通过大规模使用和试错来发现问题并完善解决方案[17][18] AI对就业的影响与技能变革 - AI不会直接导致大规模失业,但会改变工作性质,要求人们学习新技能以利用工具提升生产力[31][32] - 历史表明技术革命会创造新岗位,例如工业革命后农业人口从99%降至2%,互联网催生了网页设计师、内容创作者等新职业[18][32][33] - 未来最重要的技能是学会有效使用AI工具,将人类从重复性工作中解放,从事更具创造性的活动[11][32] AI的“幻觉”与偏见问题 - AI“编造事实”的现象被称为“幻觉”或“虚构”,这反映了人类自身的认知缺陷,该特性在需要创造性的场景下可能有益[21][22] - 模型中的偏见源于其训练数据——人类文本本身带有偏见,纠正AI的偏见比改变人类的偏见更容易[34] - 解决偏见是当前研发重点,未来模型将通过类似人类“强化学习”的持续反馈机制来学习是非判断[22][25] 依赖AI与人类认知能力的关系 - 依赖AI工具不会必然削弱人类基础认知能力,正如计算器普及后,学生仍需学习算术以建立对数字的根本理解[26][29] - 掌握任何技能都需要在现实世界中持续练习,使用AI(如改进语法)可以成为提升自身技能水平的有效工具[29][30] - 关键在于主动使用而非被动依赖,通过实践保持并提升核心能力[29] AI的理解能力与语言科学前沿 - 关于AI是否真正“理解”语言存在学术争论,这反过来促使人类需要发展更精确的语言科学理论[38][39] - 大语言模型运作于数十亿甚至数万亿维的高维空间,这正在催生新的数学理论和理解方式[41][42] - 研究表明,语言的关键在于“语义”而非“句法”,大语言模型擅长通过上下文理解词义,这种能力使其能够回答新问题[44][45] 对年轻一代与科学探索的建议 - 科学进步常由年轻一代推动,当专家断言某事不可能时,不应盲从,历史上有许多突破因此实现[46][47] - 技术进步伴随着世代更迭,固步自封会阻碍发展,开放探索的环境至关重要[47][49] - 鼓励年轻人勇于挑战权威,创造未来[46][49] 对AI监管的看法 - 当前AI大语言模型技术仍处初级阶段,过早、过细的政府监管会限制探索和试错,不利于解决技术本身存在的问题[2][50][51] - 倡导基于行业的自我监管,认为科学家社群有能力在探索中识别并防止技术滥用[50][51] - 以欧盟长达100页的《人工智能法案》为例,认为其中对具体应用场景的微观管理方式“荒谬”且难以执行[51] - 不同国家监管方式各异,中国出台的规则被认为比欧盟的提案更为合理[52]
专访Luma AI首席科学家:视频生成模型的游戏规则改变了
36氪· 2025-12-05 01:40
公司近期动态与融资情况 - Luma AI近期以40亿美元估值完成9亿美元C轮融资,由沙特公共投资基金(PIF)旗下机构HUMAIN领投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等老股东大额加注 [1] - 本轮融资资金将主要用于算力支出,以及人才和基础设施建设,以支持大规模多模态模型的训练和推理 [33][34][35] - 投资方HUMAIN正在沙特建设名为"Project Halo"的2GW人工智能超算集群,Luma AI将作为核心客户采用该算力,用于训练下一代多模态世界模型 [7] 公司发展历程与战略重心 - 公司成立于2021年,最初从3D生成起步,于2023年底转向视频生成模型 [5] - 2024年6月,公司推出面向C端用户的视频生成模型Dream Machine,以零推广费在4天内吸纳百万用户 [5] - 2024年9月,公司推出全球首个视频推理大模型Ray 3 [6] - 目前公司战略重心已从C端探索转向付费意愿更强、需求更刚性的B端专业用户,如影视、广告、内容制作机构 [5][17] - 公司团队规模约130人,其中30%–40%为技术研发人员 [36] 行业技术发展趋势:从生成到理解与推理 - 行业下一阶段的竞争焦点将从追求生成长视频和更高画质,转向提升模型对现实世界的理解与推理能力 [1][10] - 实现更强推理能力的关键是采用语言、图像与视频数据训练"多模态大一统"模型,多模态融合将推动模型能力从"生成"升级到"理解" [3] - 视频推理模型与传统生成模型的区别在于,前者能理解已有片段的场景空间、角色位置与镜头逻辑,从而生成物理上合理、衔接丝滑的视频 [2][11][12] - 图像生成领域在2025年已出现技术路径收敛,竞争焦点从架构设计转向高质量数据收集,视频生成领域预计在2026年将复现同样的收敛过程 [3][13][14] - 视频模型的数据量级可达几PB或几十PB,是文字数据量的几百上千倍,因此获取与处理大规模数据的能力成为关键挑战 [26] 商业模式与市场格局分析 - 视频生成模型的To C时代尚未到来,普通用户在新鲜感过后难以持续买单,Sora 2在30天的用户留存率仅为1% [3][19] - B端专业客户(如影视、广告公司)因AI能节省大量人力、时间和硬件投入,其付费意愿和粘性远高于C端用户 [18] - 在美国To B市场,由于政治、合规因素及成熟的企业服务接受度,实际竞争压力小于舆论场表现,市场供应商名单较短 [21][22] - 与3D生成业务相比,视频生成被验证具有更大的商业潜力和市场接受度,因3D数据量少、应用场景相对有限且大厂更倾向于自研 [24] 公司核心技术方向与产品规划 - 公司已将"多模态大一统模型"确立为下一阶段的核心方向,Ray 3很可能是其最后一代传统视频生成模型 [6][10] - 公司认为多模态大一统视频模型对于实现AGI的意义在于,能将AI对现实世界的理解和操作能力从纯语言空间扩展到视觉、动作、时间维度 [16] - 公司在视频生成领域的一项差异化优势是支持HDR(高动态范围),这对于电影制作等专业需求至关重要 [28] - 公司认为目前视频生成领域没有绝对的模型结构或方案能构成技术护城河,真正的差距体现在大规模工程实现、数据获取与处理能力上 [25][26] 行业竞争与创业环境展望 - 视频和多模态大一统模型赛道预计将像语言模型一样,最终收敛到少数几家头部公司 [29] - 在中国,从零开始进行基座模型创业的空间非常有限,因大厂在资金、人力、算力上优势太大;在美国,创业环境相对更好,美元基金仍有动力下注,退出机制也更清晰 [29]