Marble
搜索文档
挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台
机器之心· 2025-12-21 04:21
文章核心观点 - 世界模型(World Model)在Web端的可视化与交互面临底层渲染能力瓶颈,现有基于WebGL的方案(如SparkJS)在大场景、复杂场景及动态内容接入上存在性能天花板 [5][7][8] - 开源项目Visionary通过基于WebGPU与ONNX的技术架构,在浏览器中实现了真正的动态3DGS/4DGS实时渲染,旨在成为面向世界模型/空间智能的Web原生渲染基座,并在性能与画质上全面超越现有方案 [2][9][10][27] 技术背景与行业痛点 - 神经渲染路线中的3D Gaussian Splatting(3DGS)因其高效性,已成为构建世界模型的重要表示形式 [6] - 现有3DGS落地方案存在断层:桌面端/引擎方案(如SIBR、Unity)性能强但部署复杂;现有Web端方案(如SparkJS、SuperSplat)受限于WebGL管线,难以支持实时推理的动态3DGS、Neural Avatar及生成式模型 [7] Visionary解决方案与架构 - 项目定位为面向世界模型/空间智能的Web原生渲染基座,而非简单的3DGS查看器 [9][10][14] - 核心采用WebGPU原生架构,替代WebGL,将GPU计算与渲染真正带入浏览器 [10] - 设计核心是提出了Gaussian Generator Contract:通过ONNX驱动的统一接口,将每帧高斯生成/更新抽象为标准化的模型契约,使得渲染器不再受限于具体算法细节 [11][13] - 该设计首次在浏览器端实现了每帧动态生成与更新高斯、同一渲染器承载多种3DGS变体以及接入生成式后处理(如风格化、增强)的能力 [13] 性能与效果优势 - 在包含数百万高斯点的典型场景中,Visionary的渲染效率显著优于当前主流Web端查看器SparkJS [16][18] - Visionary将排序与预处理完全迁移至GPU(WebGPU),显著降低端到端延迟,而SparkJS的性能瓶颈主要集中在CPU排序阶段 [18] - 在渲染正确性与画质方面,Visionary采用逐帧GPU全局排序,避免了SparkJS在快速视角变化下出现的lazy sorting视觉伪影,在Mip-NeRF360等基准上画质指标持平或略有提升 [19][21] - 同时避免了如SuperSplat等方案中的逐物体排序混合错误,在多模型混合场景下仍能保证透明度渲染正确 [21] 应用场景与生态支持 - 为研究、创作与工业应用提供了统一平台:研究者可快速复现、对比与展示任意可导出为ONNX的3DGS变体;创作者可在浏览器中完成编辑、录制与渲染;工业界可应用于数字孪生、仿真、XR、具身智能等大规模实时场景 [22][24] - 项目已在GitHub完全开源,采用宽松协议,并已获得Firefox/Chrome WebGPU相关开发者的关注与反馈 [25] - 目前已原生支持MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar (LHM、GauHuman、R³-Avatar等)、ONNX生成式后处理(风格化、增强),全部渲染流程均在浏览器端完成 [25] 未来发展方向 - 团队表示Visionary是迈向统一世界模型框架的第一步,未来将进一步探索物理交互增强(碰撞检测与Mesh管线融合)、物理感知建模(结合MPM等方法模拟真实动力学)、空间智能体(基于多模态大模型的空间推理与交互)以及下游应用桥接(支持具身AI的Sim-to-Real迁移) [26][28]
未来智造局|当AI走进物理世界:从一场技能赛看具身智能的“能”与“不能”
新华财经· 2025-12-17 16:53
新华财经上海12月17日电(记者杜康、龚雯)在日前举办的2025全球开发者先锋大会上,机器人在插 花、搬运、救灾等真实场景中"各显神通"。冷冰冰的技术参数,在这里化作了鲜活的技能比拼。当然, 大赛也暴露了具身智能"笨拙"的一面:在叠衣服、拧螺丝等精细操作背后,不少机器人仍连着"遥操 作"的手柄。 恰恰是在这"能"与"不能"的缝隙中,公众得以窥见这一火热领域的技术边界与未来方向。 从机器人的"能"里看技术进阶 回望过去一年,中国具身智能领域"快步疾行":智元远征A2人形机器人完成无间断百公里跨省行走, 充分证明了机器人能够"走得稳";行业商业化"大单"频现,机器人真正进入工厂,负责分拣、上下料; VLA(视觉-语言-动作)模型的进化,则让机器人大脑更聪明,能够听懂人的需求。 在2025全球开发者先锋大会上,观众再一次真切看到了机器人的"能"。 更棘手的是环境干扰。"光照变化、桌子周边物体的摆放、强光下周边物体在桌子上的倒影等,都有可 能让机器人'智商下线',操作不准。这种难以将目标与'背景噪音'剥离的困境,折射出当下具身智能在 物理场景理解能力上的短板——泛化性不足。"参赛队员对记者表示。 ——拧螺丝等精细活儿 ...
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 07:53
文章核心观点 - 2026年将是多模态技术大年,视频生成将快速进步并推动应用大规模落地,世界模型将在研究上取得科学突破并开始从研究走向生产 [2] - 世界模型领域正分化为两条主要路线:一条以实时视频生成为核心,服务文娱、游戏等面向人类的消费者场景;另一条以显式3D结构为中心,服务机器人、自动驾驶等面向AI的领域 [2] - 世界模型相比视频生成模型,需要在交互性、实时性、长时记忆和物理合理性四个方面更进一步 [2] 世界模型定义与重要性 - 世界模型被定义为能理解时间和空间规律,并能根据当前环境和动作模拟未来世界演化的模型 [5] - 其重要性提升源于三大趋势:语言作为有损压缩的智能进步遇到局限,空间成为下一个重要智能来源;自回归Transformer与扩散模型的算法进步及融合,使生成模型具备智能层面的扩展定律;具身智能的需求倒逼,机器人行业需要高保真虚拟世界来满足指数级的数据需求 [5] 世界模型相比视频生成的关键进步方向 - **长时记忆**:需生成持续、连贯的长时间世界,保持全局一致性,当前视频模型通常只能生成十秒级片段 [6] - **交互性**:需支持在任意帧动态注入动作指令以影响后续画面,训练数据需同时包含视频帧序列和对应动作 [7][8] - **实时性**:交互式应用要求低延迟,游戏需低于0.1秒,VR理想情况应低于0.01秒,当前扩散模型推理难达30FPS以上,业界通过蒸馏和架构改进(如DMD将50步扩散压缩为4步)来提升实时性 [12] - **物理合理性**:对自动驾驶、机器人等高风险领域,模拟结果必须符合真实物理规律,当前模型在极端物理条件下易出现幻觉,研究者通过引入物理约束后处理或结合可微物理引擎进行校正 [16] 世界模型的两种发展路线 - **路线一:实时视频世界模型**:以实时性为核心优化目标,适用于文娱、游戏等to C场景,包括互动内容创作与新型“引擎”、直播和虚拟形象、AR/VR三大应用场景 [18][19][20] - **路线二:3D/4D结构化世界模型**:以物理准确性为核心,采用NeRF、3D高斯散点等显式3D表示,优势在于3D一致性强,适用于机器人、自动驾驶等for AI的领域,劣势在于数据获取和计算成本高 [18][21][22] 市场玩家四象限格局与代表公司分析 - 横轴表示表示形式(左侧Video-based,右侧3D/物理结构),纵轴表示服务对象(上部分面向人类,下部分面向AI与机器人) [24] - **World Labs**:位于右下象限,强调3D一致性与持久性,估值超10亿美元,融资总额约2.3亿美元,核心产品Marble是基于浏览器的交互式3D世界生成平台 [24][26][30][32] - **General Intuition**:位于左上象限,作为公益性公司,专注于利用游戏数据训练能进行时空推理的agent,其关联平台Medal每年可获得约20亿个游戏视频片段,拥有1000万MAU,公司已完成1.34亿美元种子轮融资 [24][33][35][38] - **Decart**:位于左下象限,推出可交互“开放世界”AI模型Oasis,该模型以Minecraft游戏视频训练,可实现端到端实时闭环,生成速度约25帧/秒,公司已完成3200万美元A轮融资,投后估值超5亿美元 [24][39][41][44] - **Odyssey**:位于右下象限,追求极致真实感与可编辑性,采用重装备采集数据和3D高斯泼溅技术,其Explorer模型可将单图像转化为高保真3D场景资产,公司已完成1800万美元A轮融资 [24][45][47][48]
世界太小,不够世界模型们用了
36氪· 2025-12-04 09:29
文章核心观点 - AI行业对“世界模型”的定义和技术路径存在显著分歧,但普遍认为其是超越大语言模型、通往通用人工智能的必经之路 [1][2] - “世界模型”概念正经历严重的通货膨胀,其外延被无限扩大,成为一个涵盖环境理解与模拟上下游技术的宽泛“筐” [2][3][18][19] - 世界模型的兴起背后交织着资本焦虑、技术瓶颈和对AGI的渴望,并被视为一场“反LLM中心主义”的运动 [20][22] 概念起源与演变 - “世界模型”的思想最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型来进行预测 [4] - 2018年Jürgen Schmidhuber等人的论文《Recurrent World Models Facilitate Policy Evolution》首次系统定义了神经网络世界模型的框架 [4] - 近两年,随着大语言模型的爆发和对AGI的渴望,该概念迅速繁殖,衍生出众多抽象定义,如“自主智能”、“空间智能”、“压缩即智能”等 [5] 主要技术流派:表征派 - 以杨立昆为代表,主张世界模型是一个在潜在空间运作、预测“抽象状态”的“大脑”,而非生成具体画面 [7] - 其定义的世界模型需同时输入四个变量来预测下一时刻的世界状态,追求逻辑上的因果推演,而非视觉逼真 [12] - 提出的I-JEPA和V-JEPA模型摒弃了生成式AI“预测每一个像素”的做法,以避免浪费算力在不可预测的噪音细节上 [12] 主要技术流派:生成派 - 与表征派的核心区别在于旨在重建和模拟视觉世界,认为“我若无法创造,便不能理解” [13] - OpenAI的Sora被视为世界模拟器,其通过在海量视频数据上预测下一帧像素,试图涌现出对物理规律的理解 [13] - 生成派进一步衍生出互动式生成视频,如谷歌DeepMind的Genie 3,支持生成720p分辨率、24fps帧率的实时互动画面,理解动作与环境的因果关系 [14] 主要技术流派:3D空间智能 - 以李飞飞为代表,主张通过构建持久、高精度的3D环境来实现“空间智能” [16] - World Labs发布的Marble采用类似“3D高斯泼溅”的技术,将世界表征为成千上万个高斯体,以生成符合物理规律的3D世界 [16] - 该路线旨在生成可下载、高精度且物理准确的3D空间,区别于Sora的视频流和Genie 3的实时生成 [16] 行业现状与驱动因素 - 当前各技术路线的成果均未达到理想的世界模型状态,但概念已广泛挂钩于具身智能、自动驾驶、游戏视频、多模态模型、3D模型乃至视觉信息压缩等领域 [18] - 热潮背后存在巨大泡沫,部分源于创投圈需要新叙事来突破大语言模型竞争已定的格局,将“视频生成”等工具概念提升至AGI高度以吸引投资 [20] - 科研人员大规模下场创业,使得学术上的“定义之争”蔓延至商业世界,不同定义直接关联数十亿级别的算力投入和产业链方向 [21] - 行业对大语言模型产生集体性技术焦虑,认为其存在“离身”的先天缺陷,且性能提升的边际效益递减,因此转向对物理现实的模拟与交互被视为关键 [23]
从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?
海外独角兽· 2025-12-03 12:05
文章核心观点 - 大语言模型在语言理解和生成方面展现出强大能力,但仅依赖语言不足以支撑真正的智能,构建能够理解和操作世界的空间智能与世界模型成为下一代人工智能发展的关键方向[2][4] - 空间智能被定义为在三维空间中进行推理、理解、移动和交互的深层能力,与语言智能互补,是通往通用人工智能不可或缺的拼图[4] - 语言是对三维世界的“有损压缩”,而视觉和空间感知是更接近“无损”的表征方式,让AI理解像素和三维空间中的物理规律难度高于处理符号化语言[10][11] - World Labs公司推出的Marble模型是全球首个高保真度3D世界生成模型,旨在突破模型“只懂文本”的限制,具备在三维环境中定位、推理、模拟、生成和执行任务的能力[15][17] 空间智能的必要性与理论基础 - 从生物演化角度看,大自然花费5.4亿年优化动物的视觉感知与空间行动能力,而人类语言形成历史仅约50万年,忽视这5.4亿年的进化积淀仅通过语言构建通用人工智能是不合理的[7][8] - 空间智能是人类进行高级科学创造不可或缺的思维工具,DNA双螺旋结构的发现就依赖于高强度空间推理,通过在三维空间中对分子结构进行几何构建和逻辑验证而完成[12][13] - 根据多元智能理论,人类智能是多维度的,至少具备八种相互独立的智能,空间智能与语言智能并非对立而是互补关系[4][5] Marble模型的技术特点 - 模型采用多模态输入方式,用户可输入文本描述、单张图像或一组图像,并能基于照片在虚拟空间中重构3D模型[20] - 具备交互式编辑功能,用户可对生成场景下达具体修改指令,模型能根据新约束条件重新生成并调整整个3D世界,形成“生成-反馈-修改”的闭环[20][21] - 选择Gaussian Splats作为3D世界的基础原子单元,通过大量3D高斯体表示和渲染场景,实现了在移动设备上30fps甚至60fps的实时渲染能力[24][25] - 模型架构基于Transformer,其本质是集合模型而非序列模型,置换等变的特性使其天然适合处理3D空间数据[28][29] Marble模型的应用场景 - 在创意与影视领域提供精确的相机放置控制,能极大降低特效制作门槛和成本,成为电影工业强大的生产力工具[21][31] - 室内设计成为典型涌现用例,用户通过手机拍摄厨房照片即可在虚拟空间重构3D结构并随意尝试各种设计方案,无需掌握复杂CAD软件[31][32] - 在机器人领域可作为强大模拟器,生成高保真合成数据填补真实数据与互联网视频之间的鸿沟,为具身智能体提供零成本虚拟训练环境[34][35] 技术发展趋势与挑战 - 当前世界模型面临的最大挑战是视觉真实与物理真实的差距,生成看起来合理的3D场景不等于模型理解物理定律[27] - 公司正在探索将传统物理引擎与生成式模型结合的混合路径,包括通过物理引擎生成模拟数据训练模型,以及给Splats赋予物理属性等方式[27][28] - 在算力被巨头垄断的时代,学术界应专注于探索短期内看似不可行但具备长远颠覆性的研究方向,如打破硬件彩票现象,寻找替代矩阵乘法的计算原语[36][37][38]
潮声丨人工智能有时比人还“蠢”,AI版图缺的这块拼图是什么
搜狐财经· 2025-12-03 00:35
文章核心观点 - 当前以大语言模型和图像分类器为主导的人工智能发展已达到极限,缺乏对物理世界的深度理解,导致生成内容常出现不合常理的问题[2][6][7][10] - 空间智能被视为人工智能突破当前瓶颈、实现下一个飞跃的关键前沿,其核心是让机器像人一样理解并交互于三维物理世界[2][11][12] - 实现空间智能的根本路径在于构建“世界模型”,该模型能赋予AI对物理规则进行推理和预测的能力,已成为学术界和产业界新的重点投入方向[19][20][23] 人工智能当前发展的局限性 - 现有大语言模型和多模态模型在生成可靠文本方面强大,但在处理与物理世界相关的任务时表现不佳,常被调侃为“人工智障”[6][7] - 具体案例显示AI缺乏物理常识:豆包模型在图像生成中将骆驼比例严重失调,并添加了不符合生物特征的动物[7];OpenAI的Sora模型生成的蚂蚁视频中蚂蚁只有四条腿,且升级版Sora2在视频细节衔接上仍存在不符合常识的瑕疵[10] - 根本原因在于语言是人造信号,处理过程有信息损耗,而AI缺乏对真实物理世界体系的经验和根基[10] 空间智能的定义与重要性 - 空间智能概念源于教育心理学,指对空间信息进行感知、理解与操作的综合智能,涉及三维思维和空间想象,是人类从婴儿期发展的本能[12] - 在人类文明进步中,空间智能是关键驱动力,例如用于计算地球周长、发明珍妮纺纱机(使单人工效提升八倍)以及发现DNA双螺旋结构[12] - 将空间智能迁移至科技领域,旨在让机器获得理解并交互于三维世界的能力,这是AI发展的终极愿景之一,例如响应“去买杯咖啡”这类需要自主任务拆解与规划的高层指令[11][12] 空间智能的技术发展与产业应用现状 - 空间智能研究历史悠久,早在1970年代,大卫·马尔在《视觉》一书中就系统提出了从图像恢复三维世界的框架[15] - 技术已在部分产业中应用,例如手机AR测量、VR眼镜、扫地机器人、服务型机器人和机器狗,但这些应用或需人为操控,或对环境适应能力不强,容易因识别不清等问题导致故障[16] - 自动驾驶被视为目前规模最大、最成熟的空间智能应用,但其系统仍难以在复杂城市街道上进行安全推理,例如无法从突然出现的小球推测出可能有儿童跑上马路的潜在危险[17] - 当前技术的瓶颈在于“感知-推理-行动”链条中的“推理”环节,即缺乏能够理解物理规则并进行因果预测的内部模型[17] 实现突破的关键:世界模型 - 在数据(高质量语言数据可能在2026年左右耗尽)和算力(训练GPT-4成本可能超过1亿美元)存在限制的背景下,模型成为推动AI发展的关键[19] - “世界模型”于2018年提出,灵感来自人脑构建并运用“内部世界”的机制,旨在让AI能够整合感官信息,对物理世界进行直觉式推理和预测,例如预判咖啡杯滑落轨迹并接住[19] - 世界模型被视为实现空间智能的根本路径,因此成为产业界竞相投入的新焦点[20][23] 产业界的最新动态与投入 - 2025年1月,英伟达在CES上宣布推出可预测和生成“物理感知”视频的Cosmos世界模型[22] - 2025年3月,拥有全球最大室内场景空间数据集的空间智能企业群核科技,开源了空间语言模型SpatialLM,该模型登上HuggingFace模型趋势榜第二位[22] - 2025年8月,谷歌DeepMind发布了支持“实时交互”的世界模型Genie 3,为智能体训练及游戏开发等领域带来新可能性[22] - 近期,李飞飞参与创建的公司World Lab发布了首款多模态世界模型产品Marble,支持通过多种输入生成可编辑的3D环境[22] 未来展望与挑战 - 大语言模型的成功验证了“基础模型”技术路线的潜力,促使业界瞄准下一个前沿——赋予AI对物理世界的理解与交互能力[23] - 世界模型的搭建仍面临诸多难点:真实世界的复杂性与不确定性难以用现有数学模型全面处理;某些领域(如地球内部构造)数据获取有限;物理学本身对暗物质等现象的认知局限也限制了模型的完整性[23] - 尽管挑战巨大,但发展空间智能和世界模型代表了AI技术演进的重要方向[24]
2026年互联网传媒投资策略:国内AI纵深发展,悦己消费全球化
申万宏源证券· 2025-11-28 07:46
核心观点 - 2026年互联网传媒行业投资机会将集中在AI重估和悦己消费全球化两大方向 [3] - AI云进入资本开支扩张第二年,投资重点从资本支出规模转向投入回报率,资本开支与经营现金流比率成为关键指标 [3] - AI应用从概念阶段转向商业化落地,重点关注用户和收入兑现,国内大厂将Chatbot升级为ToC应用生态 [3] - 悦己消费领域经过估值消化后,业绩持续性成为关键,游戏、视频、音乐、潮玩等细分领域存在年轻化全球化机遇 [3] - 部分行业处于底部复苏阶段,包括分众传媒、视源股份、教育出版等 [3] A股传媒及港股互联网复盘 - 近三年A股传媒板块受政策周期向上和悦己消费景气支撑,业绩实现增长,游戏版号审批自22年后逐步宽松 [7] - 2025年8月广电21条政策优化电视剧内容审查机制,显示政策底部确立,全球化年轻化驱动游戏潮玩动画IP等领域业绩高增长 [7] - 恒生科技投资叙事从23-24年回购分红的价值股转向25年AI资本开支扩张的科技股价值重估 [10] - 中国科技重估主要体现在AI算力基建上,包括云、芯片、服务器、晶圆代工等领域,AI应用表现尚不明显 [10] AI云 - 国内互联网公司加大资本开支投入,阿里巴巴表示三年3800亿元AI基础设施投资规划偏少,未来投入将更积极 [18] - 腾讯控股25年资本开支计划从占收入比例low teens调整为绝对值高于24年,24年资本开支为768亿元,占收入比例11.6% [18] - 使用资本开支与经营性现金流比率衡量云厂商投入健康度,腾讯该比率仅为25%,微软、Meta、谷歌处于50%-70%区间,亚马逊和阿里巴巴已超过经营性现金流水平 [19] - AI云产品利润率高于传统云产品,各互联网云厂利润率整体呈上行趋势,阿里巴巴目标提升份额优先于提升毛利率 [29] - 2026年国产芯片加速上市,互联网大厂自研芯片具备开发生态优势,百度昆仑芯、阿里平头哥等拥有庞大内部工作负载和开发者群体 [31] AI应用 - 中国开发的AI应用在全球具备竞争力,a16z GenAI移动端Top50中有22个由中国开发,仅3个主要在国内使用 [34] - 美图公司占据移动榜5席,字节跳动占据4席,显示出海应用实力强劲 [34] - OpenAI将ChatGPT从对话工具升级为串联多种能力的超级平台,周活用户达8亿,年底前向所有开发者开放应用审核 [35] - 国内互联网大厂持续布局AI入口,字节跳动豆包接入抖音商城,腾讯在微信引入元宝能力测试,阿里巴巴C端入口转向千问 [39] - AI赋能数字广告全链路,Meta的Lattice模型将广告转化率提升3%,腾讯25年前三季度广告收入达1039亿元,哔哩哔哩超50%效果广告素材使用AIGC工具 [50] - AI视频技术大幅压缩制作成本,从零制作AI漫剧成本降至2000-5000元/分钟,部分平台甚至达到1000元/分钟,市场规模预计突破200亿元 [57] - 世界模型进入初步商业化阶段,李飞飞团队推出的Marble支持单张2D图像生成高保真可交互3D场景,应用于游戏开发、VR/VFX等领域 [71] 悦己消费 - 视频影视行业政策拐点已现,广电总局21条优化审核机制,红果免费短剧25年9月MAU已超过优酷,人均单日使用时长超2小时 [75] - 游戏版号审批持续宽松,25年1-10月国产版号月均达135个,创监管常态化后新高,进口版号25年1-10月发布88个 [82] - 中国游戏市场Z世代用户占比达65%,年轻用户带来搜打撤、女性向等结构性产品红利,美国90后+00后玩家占比为51% [88] - 海外SLG市场规模约80亿美元,行业进化至第三阶段,点点互动通过产品创新将用户获客成本降至几美元水平 [97] - 音乐流媒体平台分化明显,腾讯音乐和网易云音乐聚焦Z世代社群与高质量版权,汽水音乐主打免费加广告模式 [104] - 泡泡玛特商业模式具备延长IP生命周期能力,国际化进程顺利,欧美渗透率仍低,25年上半年收入实现高增长 [110] - 大麦娱乐演出业务收入25财年同比增长236%,IP衍生业务收入增长339%,战略向上游延伸并布局ToC业态 [114] 底部复苏行业 - 分众传媒互联网广告投放大幅增长,毛利率达到74.10%,归母净利率45.11%,公司承诺24-26年分红不低于扣非净利润80% [122] - 视源股份AI教育业务加速落地,希沃AI备课助手激活用户超60万,MAXHUB品牌会议交互智能平板国内销量份额26.5% [125] - 出版行业经营出现分化,南方传媒25年前三季度归母净利润同比增长61%,中原传媒增长47%,山东出版单三季度同比大幅增长 [129]
图灵奖得主 Yann LeCun:大模型是“死胡同”,下一步押在哪一条路?
36氪· 2025-11-28 01:43
核心观点 - 图灵奖得主Yann LeCun宣布离开Meta,创办专注于先进机器智能的新公司,标志着AI技术路线可能发生重大集体转向[1][2] - Yann LeCun和OpenAI前首席科学家Ilya Sutskever在一周内先后质疑大语言模型主流路线,认为“拼算力”时代结束,后LLM时代正在成形[3][8][31] - 下一代AI的竞争焦点将从模型规模和训练数据转向新架构的发明以及系统的强大与可控性[31][32][39] 对LLM的批判 - LLM被Yann LeCun称为通往人类智能的“死胡同”,因其缺乏对真实世界的理解、常识和因果关系,仅是统计相关性的堆叠[3][5] - 模型规模增大带来语言流畅度提升,但世界理解力未同步跟上,Meta的Llama 4在真实场景中表现远不如基准测试即为例证[5] - LLM能力在实验室显露天花板,性能趋于饱和,更大模型不一定带来更高真实智能,继续堆算力边际收益越来越低[6][7][8] - LLM的核心缺陷在于无法进行多步骤推理、长期规划和具身交互,智能本质是行动能力而非语言能力[12][13] - 语言被视为人类智能的副产品而非核心机制,真正的智能应源于对物理世界的建模、预测和行动[9][10][11] 世界模型与JEPA架构 - Yann LeCun提出的下一代AI路径是构建“世界模型”,让AI能从多模态输入中构建对世界的内部理解,并基于此预测和行动[14][15] - 世界模型的关键在于让AI具备类似人类和动物的抽象内部投影能力,以理解重力、速度、距离等物理概念[15] - LeCun推动的新架构是联合嵌入预测架构,其与LLM的核心差异在于处理多模态数据、预测抽象状态变化及结合表征学习与因果建模[16][17][26] - JEPA架构的学习模式是让AI在模拟环境中自主互动,从中提取因果关系并形成持续记忆,最终具备规划行动能力,不依赖更多token而依赖更好的世界模型[19][20][21] 后LLM时代的技术路线分歧 - Yann LeCun押注世界模型方向,目标是让AI具备对物理世界的理解和行动能力,判断10年内会出现具身AGI原型[25][28] - Ilya Sutskever押注安全超智能方向,关注点在解决AI系统的泛化脆弱性,确保AI能力提升过程中的安全可控[25][29] - 两位先驱代表了后LLM时代的两个主要方向:架构创新派和安全优先派[30] 工业界的动向与影响 - 工业界出现悄然转向迹象:OpenAI确认首个AI硬件原型已完成,计划2年内发布无屏幕AI设备[34] - Google挖来波士顿动力前CTO,推动Gemini成为通用机器人控制平台,目标是让同一模型适配任何形态的机器人[34] - 李飞飞的World Labs融资2.3亿美元后发布商业产品Marble,Figure AI估值达390亿美元,Tesla Optimus计划2026年量产,显示下一代AI将不局限于对话框[35][36][37] - 新架构的突破需要时间,LeCun预估需几年到十年,Sutskever预估需5到20年,当前LLM仍是主流应用基础[38][39][40] - 对创业者和开发者的启示包括:不要迷信模型规模、垂直场景存在机会、开源路线重要以及需做好长期准备[41][42][43][44]
李飞飞:不要让AI把你变愚蠢,必须守住“人”的主导权
虎嗅APP· 2025-11-25 10:19
AI技术本质与影响 - AI是一种文明级技术,其产生的巨大影响力和规模超出预期,已触及每个人的工作、福祉与未来 [2][4][6] - 技术具有双刃剑属性,既可能被故意误用,也可能产生意料之外的后果 [7] - AI对劳动力市场将产生深远影响,例如客服岗位可能被大规模取代,但技术革命最终会催生新的就业图景 [25][26] AI技术发展方向 - 空间智能是AI进化的下一关键阶段,赋予机器在三维空间中理解、感知、推理与交互的能力,与语言智能形成互补 [5][9][22] - World Labs公司专注于空间智能前沿探索,其基础模型Marble能通过简单指令生成完整的3D世界,应用领域包括设计、游戏开发、机器人训练和教育 [9][23] - 人类智能建立在海量数据感知基础上,现代AI性能与数据规模密切相关,ImageNet数据集包含2.2万个物体类别和1500万张标注图像 [12][13] AI行业格局与治理 - 当前AI技术权力集中在少数科技公司手中,行业希望技术走向普惠与开放,打破垄断 [5][8] - 中国是AI领域的重要力量,全球公认的AI领跑者是中美两国,世界各地都表现出在AI领域占据一席之地的进取心 [5][21] - 超级智能的挑战根源在于人类治理能力,而非技术本身,亟需建立有效的国际监管框架与责任机制 [5][27] AI可持续发展 - AI算力增长带来能源与环境压力,应务实推进可再生能源与绿色技术创新,将能源政策转型作为AI长期发展的基础支撑 [5][33] - 当前巨额资本主要流向科技巨头,AI作为新兴领域仍有大量科学难题待解,需要持续投入,其在软件工程、医疗健康、教育等领域的应用前景广阔 [32] AI时代的教育与人才培养 - 在AI时代应回归教育本质,培养孩子的好奇心、批判性思维与责任感,使其成为技术驾驭者而非被动个体 [5][31] - 教育工作者需要支持以运用AI工具提升教学,并指导学生正确使用技术,培养自主思考能力和永葆求知欲 [31][34] - 使用AI的根本原则是不要让工具使人变愚蠢,例如依赖AI完成本应自己思考的作业或制造虚假信息 [36]
Meta再推WorldGen,一句话「盖」出50×50米一座城
具身智能之心· 2025-11-25 00:03
文章核心观点 - Meta公司推出名为WorldGen的突破性生成式AI系统,能够仅通过一段文本提示生成完整、可交互、可导航的3D世界,覆盖面积达50x50米,并在整个区域内保持风格和几何结构的一致性[12][13][19] - 该技术融合了程序化推理、扩散模型3D生成以及面向对象的场景分解,代表了生成式AI从2D内容创作向复杂3D环境构建的重大跨越[13][17] - WorldGen的输出可直接兼容Unity、Unreal等主流游戏引擎,无需额外转换,展示了在游戏开发、仿真和沉浸式社交环境等领域的巨大应用潜力[22][29] 技术方法与创新 - 系统采用多阶段流程:规划(程序化blockout生成、导航网格提取)、重建(图像到3D基础模型)、分解(场景部件提取)、精修(网格与纹理优化)[21] - 与基于Gaussian Splatting等技术(如World Labs的Marble)相比,WorldGen以网格为基础输出几何结构,原生支持物理模拟、碰撞检测和导航,功能性更强[29] - 传统方法通常从单一视角向外扩展,移动3-5米后质量骤降,而WorldGen能生成50x50米完整纹理化场景并保持一致性[18][19] 应用前景与行业影响 - 该技术有望大幅降低3D内容制作门槛,使普通人无需编写代码即可从文本提示创建虚拟世界,推动内容创作大众化[22][30] - 对游戏开发、技术美术和关卡设计师等工作流程将产生变革,从业者可从手动建模转向使用AI提示词驱动并筛选编辑输出[30][31] - 生成过程算力需求较高,开发者需评估本地与云端渲染能力以确定合适部署方式[31] 当前状态与发展方向 - WorldGen目前仍处于研究阶段,尚未对开发者开放,但已展示出跨行业节省时间和成本的潜力[22] - 未来版本计划支持更大规模世界生成并降低生成延迟,进一步提升实用性[20][22]