世界模型
搜索文档
Meta首席AI科学家LeCun被曝将离职创业,与扎克伯格“超智能”路线理念分歧
华尔街见闻· 2025-11-11 12:46
公司核心人事变动 - Meta首席人工智能科学家Yann LeCun计划在未来数月内离职并创立自己的初创公司 [1] - 此次离职凸显了其与扎克伯格在AI发展路径上的根本分歧 [1] - 2024年以来Meta高管层持续动荡,AI研究副总裁Joelle Pineau已离职,AI研究部门裁员约600人 [4] 公司AI战略分歧 - LeCun主张开发全新一代AI系统“世界模型”,认为当前以大语言模型为核心的AI路线永远无法实现人类级推理和规划 [1][2] - 扎克伯格则强调快速产品化和“超智能”团队战略,在Llama 4模型表现不佳后决定加速AI产品迭代并减少长期基础研究投入 [2] - 战略重组导致LeCun的汇报关系发生变化,从向首席产品官Chris Cox汇报改为向新任“超智能”团队领导Alexandr Wang汇报 [2] 公司战略转型与资源投入 - 扎克伯格斥资143亿美元聘请28岁的Alexandr Wang领导新的“超智能”团队,并收购其数据标注初创公司Scale AI 49%的股权 [2] - 公司组建名为TBD Lab的专属团队,以1亿美元的薪酬包从OpenAI和Google等竞争对手挖来人才,负责推进大语言模型的下一代开发 [2] - 公司以数亿美元年薪吸引新一代AI领军人物,包括OpenAI ChatGPT联合创作者Shengjia Zhao,后者已担任Meta“超智能实验室”首席科学家 [4] 公司面临的竞争与财务压力 - Meta在AI竞争中面临压力,其Llama 4模型表现不及OpenAI和Anthropic [1] - Meta AI聊天机器人市场反响平淡 [2] - 扎克伯格面临来自华尔街的日益增长的压力,需要证明其在成为“AI领导者”方面的数十亿美元投资将获得回报并推动收入增长 [4]
AI教母李飞飞:空间智能才是走向AGI的唯一路径
虎嗅APP· 2025-11-11 10:52
文章核心观点 - 当前大语言模型存在根本性局限,被描述为“能言善辩却缺乏经验,知识渊博却脱离现实”的“睁眼瞎”,无法真正理解物理世界[4][7][28] - AI发展的下一步关键方向是赋予机器“空间智能”,即理解和交互物理世界的能力,这被视为通往通用人工智能(AGI)的唯一路径[4][17][28] - 空间智能的载体是全新的“世界模型”,其具备生成性、多模态和交互性三大核心能力,将取代以语言模型为中心的发展路线[17][18][38] AI当前局限与空间智能定义 - 大语言模型在需要物理世界理解的简单任务上表现不佳,例如无法准确回答杯子旋转90度后的样子或预测物体运动轨迹[5][8][36] - AI生成内容(如视频)经常出现违背物理定律的“穿帮”镜头,例如人物多出手指或物体穿墙而过,暴露了其缺乏对物理规律的基本认知[6][36] - 空间智能是人类与生俱来的基础认知能力,是想象力和创造力的“脚手架”,使人类能够进行侧方停车、接住抛来的钥匙、在黑暗中倒水等日常活动[12][14][32][34] - 人类历史上的重大科学发现和发明创造,如埃拉托斯特尼计算地球周长、沃森和克里克发现DNA双螺旋结构,都深刻依赖于空间智能[21][34] 世界模型的核心特征与技术挑战 - 世界模型必须同时具备三种基本能力:生成性(创造符合物理和几何规律的3D世界)、多模态(处理文本、图像、视频、深度信息、手势等多种输入)、交互性(预测动作指令下的世界状态变化)[18][22][39][40][41] - 构建世界模型的技术挑战远超语言模型,因为世界是四维(三维空间+时间)且受无数复杂物理定律约束,而语言只是一维的序列化信号[18][42] - 关键技术障碍包括:定义能同时反映几何和物理定律的通用训练任务函数、从海量互联网图像和视频等二维数据中提取深层空间信息、开发全新的三维或四维模型架构[44][45][46] 空间智能的应用前景与行业影响 - 在创意产业,World Labs的Marble模型将赋能电影制作人、游戏设计师和建筑师,通过自然语言提示词快速创建和迭代可交互的3D世界,大幅降低专业3D软件的使用门槛[23][49] - 在机器人技术领域,世界模型能通过模拟环境为机器人提供海量训练数据,使其掌握成千上万种实用技能,从而成为家庭、医院等场景中得力的助手和看护[23][52] - 在科学研究中,空间智能系统可模拟人类无法亲临的环境(如深海、外太空),并行测试假设,加速在材料科学、气候科学和医学等领域的发现进程[27][56] - 在教育领域,学生可通过沉浸式体验“走进”古罗马街道或细胞内部,教师能利用互动环境进行个性化教学,专业人士可在高度逼真的仿真环境中练习复杂技能[27][56]
LLM只是“黑暗中的文字匠”?李飞飞:AI的下一个战场是“空间智能”
36氪· 2025-11-11 10:22
文章核心观点 - AI发展的下一个关键前沿是“空间智能”,旨在解决当前AI(尤其是大语言模型)缺乏对物理世界常识和空间规律理解的根本缺陷 [1][4][12] - 空间智能被定义为连接感知、想象和行动的终极能力,是推动AI实现下一次巨大飞跃并迈向通用人工智能(AGI)的关键 [3][4][14] - 实现空间智能需要构建超越现有范式的“世界模型”,该模型需具备生成性、多模态和交互性三大核心能力 [14][15][16][17] 当前AI的局限性 - 当前AI被比喻为“黑暗中的文字匠”,虽掌握海量抽象知识,但对物体形状、力学作用、空间导航等物理世界常识几乎一无所知 [1][12] - 顶尖多模态模型在估算距离、方向、尺寸或进行物体“心理旋转”时表现接近随机猜测,无法预测基础物理现象,导致生成视频在数秒后失去连贯性 [12] - 这种缺陷严重限制了自主机器人、沉浸式元宇宙体验等应用的发展,使其仍处于早期概念或雏形阶段 [1][8] 空间智能的定义与重要性 - 空间智能是人类认知的基石,支撑着从日常动作(如停车、接钥匙)到专业活动(如消防员救援、科学家发现DNA结构)的一切空间互动 [9][10][11] - 它是想象与创造的根基,从史前岩画到现代工业设计、数字孪生和机器人训练,都依赖于基于空间的想象力 [10] - 对AI而言,空间智能意味着超越语言界限,通过想象、推理、创造与互动来理解世界,而不仅仅是描述世界 [13] 实现空间智能的技术路径 - 核心是构建“世界模型”,这类新型生成模型需能理解、推理、生成及与语义-物理-几何-动态复合的虚实世界互动 [14] - 模型需具备三大能力:1)生成性:创造符合几何与物理规律的虚拟空间 [15];2)多模态:处理图像、视频、文本、手势等多样输入 [16];3)交互性:基于行动推演世界状态,并能推导达成目标的行动序列 [17] - 面临的关键技术挑战包括:定义新型通用训练目标函数、获取并处理大规模多模态训练数据、开发能处理三维/四维信息的新型模型架构 [18][19] 空间智能的应用前景 - 在创意产业,如World Labs的Marble平台,可使电影制作人、游戏设计师快速创建可探索的3D世界,降低传统3D设计成本,开启新维度的叙事与沉浸式体验 [20][22][23] - 在机器人技术领域,世界模型能通过模拟数据缩小模拟与现实差距,训练机器人具备感知、推理、规划和行动能力,应用于实验室辅助、家庭护理等场景 [24][25] - 长远来看,空间智能将深刻影响科学(模拟实验、加速材料研究)、医疗保健(药物发现、医学影像诊断)和教育(沉浸式学习、技能培训)等领域 [26][27] 行业影响与未来展望 - 空间智能被视为AI未来十年的决定性课题,其发展需要整个AI生态系统(研究人员、创新者、企业、政策制定者)的共同参与 [21] - 该技术旨在增强人类能力而非取代人类,目标是提升创造力、加速发现并放大人类关怀,同时尊重人类的判断力、创造力和同理心 [21][27] - 公司如World Labs已展示初步成果(如Marble模型),但完全释放空间智能潜力仍面临严峻挑战,是未来十年的核心研发方向 [20][28]
李飞飞终于把空间智能讲明白了:AI 的极限不是语言,世界远比文字更广阔!
AI科技大本营· 2025-11-11 09:08
文章核心观点 - 当前人工智能的发展范式存在核心局限,过度依赖语言模型而缺乏对物理世界的理解,行业需要从“语言智能”向“空间智能”进行根本性的范式转换 [5][6][15] - 空间智能是人工智能的新疆界,其目标是构建能够理解、推理并与语义、几何、物理和动态上都极为复杂的真实或虚拟世界互动的“世界模型” [6][16][21] - 李飞飞及其创立的World Labs公司正致力于构建世界模型,其首个产品Marble已能通过多模态输入生成并维持一致的三维环境,为创意、机器人、科学发现等领域带来变革 [6][22][24][26] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,驱动着推理、规划以及与物理世界的互动,是想象力和创造力的基础 [10][12][13] - 当前最先进的多模态大语言模型在空间感知能力上存在根本性局限,其表现往往不比随机猜测好多少,无法有效估算距离、方向、尺寸或预测基本物理现象 [14][15] - 空间智能将连接想象、感知与行动,为机器在医疗健康、创意表达、科学发现和日常辅助等领域真正改善人类生活开辟可能 [15][24][29] 世界模型的技术框架与原则 - 构建具备空间智能的人工智能需要世界模型,其能力远非当今的大语言模型所能及,该领域尚处萌芽阶段,是未来十年最具决定性的挑战 [16][21] - 世界模型需具备三大基本能力:生成性(生成具有感知、几何和物理一致性的世界)、多模态(处理多种形式的输入)、交互性(能根据输入的动作输出下一个状态) [17][19][20] - 实现世界模型面临巨大技术障碍,包括需要定义通用的训练任务函数、利用互联网规模的图像视频数据作为训练材料、以及开发超越当前范式的新模型架构 [23] 空间智能的应用前景 - 在创造力领域,World Labs的Marble平台将为电影制作人、游戏设计师等提供前所未有的空间能力和编辑可控性,快速创建可完全探索的三维世界 [22][26][27] - 在机器人技术领域,世界模型将通过提供模拟数据和训练环境,规模化机器人学习,使其成为能在各种场景下协助人类的伙伴与协作者 [24][28][32] - 在更长远的未来,空间智能将深远影响科学、医疗和教育领域,例如加速药物发现、增强医学影像诊断、以及实现沉浸式学习等 [29][30]
李飞飞最新发文:下一个十年,空间智能将成为人类认知的“脚手架”
钛媒体APP· 2025-11-11 06:19
文章核心观点 - 空间智能是人工智能尚未攻克的下一个前沿,其本质是构建对物理世界的整体认知,超越当前AI仅擅长处理文本和二维图像的局限 [3][7][19] - 世界模型是解锁空间智能的关键技术路径,这是一种新型生成模型,旨在理解、推理、生成并与复杂世界互动,其能力远超现有大型语言模型 [8][27][30] - 空间智能的应用将重塑多个行业,包括创意领域、机器人技术、科学发现、医疗健康和教育,其核心价值在于增强人类能力而非取代人类 [12][34][40] 空间智能的定义与核心价值 - 空间智能是人类认知的“脚手架”,支撑着与物理世界的日常互动,是想象力、创造力与文明进步的底层动力 [3][5][23] - 空间智能的本质是“整体化的世界观”,涵盖万物在空间中的关联、意义与价值,使人类既能被动观察世界,也能主动创造世界 [5][24][25] - 历史上诸多文明突破以空间智能为核心驱动力,例如埃拉托斯特尼计算地球周长、珍妮纺纱机提升生产力八倍、沃森与克里克发现DNA结构 [4][24] 当前AI在空间智能领域的局限 - 尽管生成式AI已能生成连贯文本和照片级图像,但当前AI的空间能力仍“远不及人类”,在估计距离、方向、物体大小或进行“心理旋转”时表现不佳 [6][25] - 现有AI系统本质上是“黑暗中的文字匠”,擅长处理文本序列与二维图像,却无法构建对物理世界的整体认知,缺乏想象、推理、创造与互动能力 [7][19][25] - AI生成的短视频常在几秒后失去时空连贯性,最先进的机器人也仅能在高度受限的环境中完成简单操作 [6][25] 世界模型的技术路径与核心能力 - 世界模型具备三大核心能力:生成能力(生成感知、几何和物理一致的模拟世界)、多模态能力(处理图像、视频、文本、手势等输入)、交互能力(根据动作预测新世界状态) [9][10][28] - 交互能力的本质是“理解因果关系”,模型需从海量数据中学习动作与结果的关联,掌握世界运行的底层逻辑,实现“动作-状态-动作”的闭环响应 [10][11][30] - 世界实验室已展示首个成果“Marble”,这是首个可通过多模态输入提示生成并维持一致3D环境的世界模型,计划尽快向公众开放 [11][33][34] 空间智能的应用前景 - 在创意领域,空间智能将重构叙事与设计的创作范式,实现“所想即所得”,大幅降低创意落地的时间与成本门槛,例如帮助建筑师快速可视化未建成结构 [13][35][36] - 在机器人领域,世界模型能通过模拟生成海量训练数据,加速机器人学习过程,使其从简单工具转型为人类的智能伙伴与合作者,例如协助科学家处理实验仪器或帮助老年人完成家务 [14][37][38] - 在科学、医疗与教育领域,空间智能将模拟复杂实验场景、加速药物研发、实现沉浸式学习,例如让学生“身临其境”探索细胞机制或历史事件 [15][16][39][40] 发展愿景与行业影响 - AI发展的驱动力是增强人类能力,空间智能正是这一愿景的体现,旨在赋能人类创作者、护理者、科学家与梦想家 [34][40][42] - 实现空间智能需要整个AI生态系统的集体努力,包括研究者、创新者、企业与政策制定者的协作 [34][41] - 空间智能将成为AI下一个十年的核心赛道,世界模型有望引领人类进入“智能普惠”的新纪元 [18][34][42]
李飞飞万字长文爆了!定义AI下一个十年
36氪· 2025-11-11 03:00
AI的下一个前沿,是「空间智能」。 它是一项能让「看见」升华为「推理」,让「感知」蜕变为「行动」,让「想象」落地为「创造」的技术。 但「空间智能」究竟是什么?为何如此重要?该如何构建它?又该如何应用它? 今天,李飞飞撰万字长文分享了自己关于构建和使用「世界模型」以解锁空间智能的思考。 新文章中,她为真正具备空间智能的「世界模型」所需达成的目标勾勒了一个框架。 具体来说,构建这样的AI必须具备三大核心能力: 让AI拥有故事讲述家的想象力去创造, 拥有急救人员般的敏捷性去导航, 并拥有科学家的严谨去推理空间。 李飞飞与LeCun共识的一点是,「世界模型」是解锁空间智能的核心。 它必须能生成遵循物理定律、在空间上保持一致的世界,能处理从图像到动作的多模态输入,并能预测这些世界将如何演变或与之互动。 空间智能的应用疆域,正沿着一条清晰路径演进。 当下,它正赋能创意,World Labs Marble项目已经将这些能力交到了创作者和故事讲述者的手中。 下一步,它将驾驭物理世界,机器人实现感知与行动之间的闭环。 而最具变革性的科学应用,虽然需要更长时间,但有望对人类福祉产生深远影响。 哲学家维特根斯坦曾写道:「我语言的极 ...
李飞飞最新长文火爆硅谷
量子位· 2025-11-11 00:58
文章核心观点 - 空间智能是人工智能的下一个前沿领域,其核心在于构建能够理解、推理、生成并与物理世界交互的“世界模型”,这将推动AI实现从处理抽象知识到理解物理现实的质的飞跃 [1][6][28] - 当前以大语言模型为代表的AI在空间智能方面存在根本性局限,无法像人类一样进行空间推理、物理规律预测和连贯的世界生成 [22][23][24] - 具备空间智能的世界模型必须拥有三项核心能力:生成性(创造物理一致的世界)、多模态(处理图像、视频、动作等输入)、交互性(预测世界随互动演变的状态) [5][31] - 空间智能的应用潜力巨大,将彻底革新创造力(如叙事、游戏设计)、机器人技术、科学发现、医疗和教育等多个领域 [4][27][51] 空间智能的定义与重要性 - 空间智能是支撑人类认知的脚手架,驱动着人类的推理、规划及与世界互动的方式,体现在日常动作(如停车、接钥匙)和极端情况(如消防员救援)中 [14][15][20][21] - 人类通过空间智能推动文明进步,历史案例包括埃拉托色尼计算地球周长、珍妮纺纱机的发明、DNA双螺旋结构的发现 [18][19] - 空间智能是人类想象力与创造力的基石,从原始洞穴壁画到现代电影、电子游戏,都依赖于以空间为根基的想象 [17] 当前AI在空间智能方面的局限 - 多模态大语言模型虽具备初步空间感知能力,但在估计距离、方向、大小等任务上表现不佳,无法进行“心智旋转”或预测基本物理规律 [23] - 顶级AI擅长阅读、写作和模式识别,但在对物理世界的表征或交互上存在根本性局限,生成的视频常在几秒后失去连贯性 [23][24] - AI缺乏人类整体性理解世界的方式,即同时理解物体在空间上的关系、语义意义及现实重要性 [25] 世界模型的核心能力与构建挑战 - **生成性**:模型需能生成具有几何、物理与动态一致性的虚拟世界,其输出应允许生成显式、可观测的世界状态,并保持时间上的连贯 [31][32][33] - **多模态**:模型需能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并以多样的方式输出 [34][35][36][37] - **交互性**:当动作或目标作为输入时,模型需能生成与世界先前状态、物理规律相一致的下一个状态,未来甚至能预测下一步行动 [38] - 构建世界模型面临巨大技术壁垒,因其需要协调语义、几何、动力学与物理等远比语言复杂的多维规则 [39][40][41][42] World Labs的研究进展与方向 - 公司致力于世界模型的基础性突破,研究方向包括定义新的通用训练任务函数、利用大规模图像视频数据、开发新的模型架构与表征学习 [43][44] - 开发了基于帧的实时生成模型RTFM,以空间为基础的帧作为记忆形式,实现高效实时生成并保持一致性 [45] - 推出了Marble的早期版本,这是全球首个可通过多模态输入生成并保持一致性3D环境的世界模型,旨在让用户探索和构建创意世界 [46] 空间智能的应用潜力 - **创造力**:工具如Marble平台将空间表达能力赋予电影人、游戏设计师等,使其能快速创造、迭代三维世界,实现多维叙事体验 [51][52][53] - **机器人**:空间智能是实现具身智能的关键,将使机器人能理解、导航并与世界交互,中期目标是完善感知与行动的闭环 [54][55][60] - **科学**:具备空间智能的系统可模拟实验、验证假设,探索从深海到外星的环境,变革气候科学、材料研究等领域的计算建模 [56] - **医疗**:AI可通过多维建模加速药物研发,辅助影像诊断,支持环境感知式监护系统,并发挥机器人在辅助医护方面的潜力 [56] - **教育**:能实现沉浸式学习,让抽象概念可感知,学生可多维探索细胞或“亲历”历史,专业人士可在仿真环境中练习技能 [57] 行业影响与未来愿景 - 空间智能模型将推动造世界的权力从专业团队扩展到个体创作者、教育者,结合VR/XR设备带来全新的沉浸与互动体验 [59] - 世界模型生成的仿真数据将极大促进机器人学习,缩小模拟与现实的差距,使其能在海量状态和环境中学习 [60] - 未来的创新将来自多样化的机器人设计(如纳米机器人、软体机器人),世界模型需对环境与机器人感知进行一体化建模 [60] - 该技术旨在增强而非取代人类,目标是让AI成为拓展人类能力、加速发现、放大关怀的力量,提升生命价值 [47][50][57][62][63]
端到端VLA剩下的论文窗口期没多久了......
自动驾驶之心· 2025-11-11 00:00
自动驾驶技术发展路线 - 技术路线从基于规则时期转变为以理想、小鹏等新势力为代表的端到端到VLA范式时期,现阶段进入以蔚来为代表的世界模型时期[1] - 深度学习始终是技术路线的核心组成部分[1] 课程核心内容与目标 - 课程涵盖从模块化量产算法到端到端、VLA的演进,核心算法包括BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等[5] - 学习目标为掌握端到端技术框架,深入理解BEV感知、多模态大模型等关键技术,可复现扩散模型、VLA等主流算法框架[5] - 学完全部课程后大部分学员能达到1年左右端到端自动驾驶算法工程师水平,受益于实习、校招、社招[5] 主讲导师背景 - 导师Jason拥有C9本科和QS前50 PhD学历,已发表CCF-A论文2篇及CCF-B论文若干[6] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法预研和量产,主持完成多项自动驾驶感知和端到端算法产品量产交付[6] 论文辅导服务成果 - 近3年辅导学员超过400名,中稿率高达96%[8] - 学员成功案例覆盖SCI 2区、3区期刊及CVPR、emnlp等顶会,辅导周期通常为2-4个月[9] - 服务方向包括三维重建、SLAM、点云处理、VLA、机器人导航、计算机视觉等,学员需自带简历并具备一定pytorch基础[12] 论文辅导流程 - 全流程服务涵盖选题、文献调研、idea验证、代码实现、实验设计、写作润色、投稿及中稿[11][15] - 具体步骤包括确定选题、精读文献、复现baseline、方法论讲解、代码debug、实验设计、论文写作及审稿回复等27个环节[11] - 提供精准导师匹配系统,根据学员研究方向、目标期刊、基础水平从300+导师中筛选3-5位最契合人选[18] 附加价值与服务保障 - 优秀学员可获得清北、MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供基础课程供零基础学员自主学习,承诺6个月可完成一篇小论文[18] - 支持预收定金后与名师meeting,不满意可免费更换老师或退款[19]
李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
机器之心· 2025-11-10 23:47
文章核心观点 - 空间智能是人工智能的下一个前沿,它将彻底改变人类创造和交互现实与虚拟世界的方式,重塑叙事、创意、机器人学、科学发现等领域 [5][17] - 当前以大语言模型为代表的AI在空间智能方面与人类存在巨大差距,缺乏对物理世界的整体性理解和交互能力 [14][15] - 实现空间智能需要构建全新的“世界模型”,该模型需具备生成性、多模态性和交互性三大核心能力 [17][18][19][20] - 空间智能的应用潜力巨大,将赋能创造力、机器人技术、科学、医疗和教育等多个领域,其目标是增强而非取代人类能力 [30][38][40] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,定义了人类如何与物理世界互动,是想象力与创造力的基础 [10][13] - 人类依赖空间智能完成日常行为,如停车、接钥匙、在人群中穿行等,这种流畅性是机器尚未具备的 [10] - 在人类文明发展的关键时刻,空间智能屡次扮演核心角色,例如埃拉托色尼计算地球周长、发明珍妮纺纱机、发现DNA双螺旋结构等 [11][12] - 当前最先进的多模态AI模型在估算距离、方向、大小等任务上表现仅略高于随机水平,无法预测基本物理规律,生成的视频缺乏连贯性 [14] 构建空间智能世界模型的框架 - 世界模型是一种新型生成式模型,需在语义、物理、几何与动态等多重复杂世界中进行理解、推理、生成与交互 [17] - 核心能力一:生成性——能生成在感知、几何与物理层面保持一致的世界,对世界的理解必须与过去状态保持连贯 [18] - 核心能力二:多模态性——能处理多种形式的输入(如图像、视频、文本指令、手势等),并预测或生成完整的世界状态 [19] - 核心能力三:交互性——能根据输入的动作生成下一个世界状态,输出需与物理规律及动态行为相一致 [20] - 构建世界模型面临三大挑战:定义通用训练任务函数、获取和处理大规模多模态训练数据、开发新型模型架构与表征学习算法 [23][24][25] 空间智能的应用前景 - 在创造力领域,空间智能将改变故事创造与体验方式,例如World Labs的Marble平台使创作者能快速创建并迭代可自由探索的三维世界 [32][33] - 在机器人领域,世界模型将扩展机器人的学习能力,通过仿真训练帮助机器人理解、导航并与物理世界互动,成为人类的伙伴与协作者 [34][35][36] - 在科学、医疗与教育等长远领域,空间智能能模拟实验、加速药物发现、实现沉浸式学习,从而增强人类的专业能力与加速发现 [38][39][40] - 空间智能的应用涵盖不同时间维度,从面向创作者的工具到中期的机器人学雄心,再到长期的变革性科学应用 [30]
模型战事未了,钱已流向别处:一场百人AI公司CEO闭门会后的资本真相
36氪· 2025-11-10 10:47
投资布局与核心理念 - 锦秋基金56%的投资集中于应用层,25%押注于具身智能,10%在算力基础,另有近8%为智能硬件 [6] - 投资布局基于对智能持续提升与获取智能成本持续下降两个宏观趋势的坚定判断 [6] - 核心论断为模型是通用商品,价值会让路给产品,尤其是更懂得用户的产品是更稀缺的 [6] - 在模型尚不完美的当下,用户选择相信谁就会留下来与谁共同成长,因此“信任”将成为比技术更重要的护城河 [6] 芯片与机器人领域机遇 - 推理芯片的需求激增,Token调用量加速增长,推理芯片的窗口刚打开,同时存在芯片软件算法正向飞轮及创新技术方案的机会 [7] - 机器人各公司正在迎来ChatGPT的时刻,数据、资本与成本三大拐点同时发生,2025年全球市场融资额已达2023年的5倍 [7] - 机器人产业正处在与个人电脑发展早期相似的关键节点,缺乏一个类似Windows的中介平台让普通开发者参与构建应用 [17] 智能范式迁移与应用层发展 - AI发展正从依赖算力和数据规模的预训练,进入以强化学习和经验驱动的后训练,这一转变推动了AI在推理、编码和工具使用能力的质变 [10] - 智能商品化趋势意味着模型能力的获取将像逛超市一样货比三家,应用层公司可将重心完全聚焦于解决用户的具体问题 [10] - 对于具身智能,核心竞争力在于数据,尤其是第一人称视角视频数据以及建立真实场景的数据闭环 [10][15] 视频生成与内容创作变革 - 当前流行的文生视频、图生视频被视为过渡方案,未来的极简创作范式是“参考生视频”,允许创作者上传任意主体并通过语言指令让其持续表演,一致性可延长至5分钟 [10][11] - 在“Vidu”的调用中,60%以上来自于参考生视频,证明它正成为专业创作的主流选择 [14] - AI技术正推动内容创作从“记录现实”转向“创造想象”,实现从“交互式特效”到“可消费故事”的跨越 [18] AI公司战略与风险 - AI公司可分为“超新星”(增长快但毛利率低)和“流星”(增长稳健结构健康)两类,投资更青睐后者 [20] - 创业公司面临被基础模型公司“吸收”的结构性风险,产品若通用且技术门槛不高则被大模型吸收是必然 [20] - 创业者的最优解是找到“专业化区间”,在数据、行业知识或分发渠道上建立难以复刻的壁垒,以避免断崖式下滑 [20] 世界模型与数据价值 - 世界模型是具身智能能够进行推理和决策的“大脑”,可通过在线模拟推演获得更好决策,或作为环境模型通过离线强化学习训练智能体 [15] - 第一人称视角视频数据是指数级的宝贵资产,是训练Physical AI的关键 [15]