Workflow
世界模型
icon
搜索文档
世界太小,不够世界模型们用了
36氪· 2025-12-04 09:29
文章核心观点 - AI行业对“世界模型”的定义和技术路径存在显著分歧,但普遍认为其是超越大语言模型、通往通用人工智能的必经之路 [1][2] - “世界模型”概念正经历严重的通货膨胀,其外延被无限扩大,成为一个涵盖环境理解与模拟上下游技术的宽泛“筐” [2][3][18][19] - 世界模型的兴起背后交织着资本焦虑、技术瓶颈和对AGI的渴望,并被视为一场“反LLM中心主义”的运动 [20][22] 概念起源与演变 - “世界模型”的思想最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型来进行预测 [4] - 2018年Jürgen Schmidhuber等人的论文《Recurrent World Models Facilitate Policy Evolution》首次系统定义了神经网络世界模型的框架 [4] - 近两年,随着大语言模型的爆发和对AGI的渴望,该概念迅速繁殖,衍生出众多抽象定义,如“自主智能”、“空间智能”、“压缩即智能”等 [5] 主要技术流派:表征派 - 以杨立昆为代表,主张世界模型是一个在潜在空间运作、预测“抽象状态”的“大脑”,而非生成具体画面 [7] - 其定义的世界模型需同时输入四个变量来预测下一时刻的世界状态,追求逻辑上的因果推演,而非视觉逼真 [12] - 提出的I-JEPA和V-JEPA模型摒弃了生成式AI“预测每一个像素”的做法,以避免浪费算力在不可预测的噪音细节上 [12] 主要技术流派:生成派 - 与表征派的核心区别在于旨在重建和模拟视觉世界,认为“我若无法创造,便不能理解” [13] - OpenAI的Sora被视为世界模拟器,其通过在海量视频数据上预测下一帧像素,试图涌现出对物理规律的理解 [13] - 生成派进一步衍生出互动式生成视频,如谷歌DeepMind的Genie 3,支持生成720p分辨率、24fps帧率的实时互动画面,理解动作与环境的因果关系 [14] 主要技术流派:3D空间智能 - 以李飞飞为代表,主张通过构建持久、高精度的3D环境来实现“空间智能” [16] - World Labs发布的Marble采用类似“3D高斯泼溅”的技术,将世界表征为成千上万个高斯体,以生成符合物理规律的3D世界 [16] - 该路线旨在生成可下载、高精度且物理准确的3D空间,区别于Sora的视频流和Genie 3的实时生成 [16] 行业现状与驱动因素 - 当前各技术路线的成果均未达到理想的世界模型状态,但概念已广泛挂钩于具身智能、自动驾驶、游戏视频、多模态模型、3D模型乃至视觉信息压缩等领域 [18] - 热潮背后存在巨大泡沫,部分源于创投圈需要新叙事来突破大语言模型竞争已定的格局,将“视频生成”等工具概念提升至AGI高度以吸引投资 [20] - 科研人员大规模下场创业,使得学术上的“定义之争”蔓延至商业世界,不同定义直接关联数十亿级别的算力投入和产业链方向 [21] - 行业对大语言模型产生集体性技术焦虑,认为其存在“离身”的先天缺陷,且性能提升的边际效益递减,因此转向对物理现实的模拟与交互被视为关键 [23]
碾压π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架
机器之心· 2025-12-04 08:18
文章核心观点 - 研究团队提出ProphRL框架,通过将大规模预训练的世界模型Prophet作为视频级模拟器,并结合专为流式动作头设计的在线强化学习算法FA-GRPO与FlowScale,在虚拟环境中优化VLA策略,显著提升了机器人操作任务的成功率[4] - 该方法解决了当前VLA策略主要依赖模仿学习导致的分布偏移和长时序任务失败问题,以及直接在真实机器人上进行强化学习成本高昂、难以规模化的瓶颈[3][4][12] - 实验结果表明,ProphRL在多个公开基准上为各类VLA模型带来5–17%的成功率提升,在真实机器人实验中进一步取得24–30%的大幅度成功率提升[8] 研究背景与问题 - 当前大多数Vision-Language-Action策略仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化或操作时域拉长时,极易出现误差累积并导致任务失败[3][11] - 在真实机器人上开展在线强化学习成本高昂,并行执行受限,伴随大量重置与标注开销,难以规模化[12] - 基于传统物理引擎的强化学习难以同时兼顾逼真度、场景多样性与工程可用性,而现有数据驱动世界模型泛化能力有限,尚未形成能够真正支撑强化学习的通用模拟器[13][14] ProphRL技术框架 - Prophet世界模型采用视频扩散模型结构,通过双重动作条件(末端执行器位姿增量和动作帧)和FramePack历史记忆机制,学习从动作序列到未来操作视频的映射[17] - 研究团队提出光流引导的评估协议,通过对比真实视频与生成视频的光流一致性,以外观无关的方式评估末端轨迹和接触行为是否对齐[22] - FA-GRPO算法在动作层面而非流步层面构造PPO比例,使信用分配更贴近真实环境反馈;FlowScale利用噪声调度平衡各流步对整体梯度的贡献,提升训练稳定性[23][27] - 奖励模型基于视觉-语言模型,以任务文本和整段执行视频为输入,输出标量得分作为轨迹优势,替代手工设计的几何距离[26] 实验验证结果 - 在世界模型能力评估中,Prophet在AgiBot、DROID、LIBERO和BRIDGE等多数据集上,视觉逼真度和动作一致性均超越Nvidia的Cosmos与上海智元的Genie-envisioner[31][32][34] - 在仿真环境强化学习效果上,ProphRL为VLA-Adapter-0.5B模型带来最高25个百分点的成功率提升,为Pi0.5-3B模型带来最高16.7个百分点的成功率提升,为OpenVLA-OFT-7B模型带来最高19.4个百分点的成功率提升[37] - 在真实机器人验证中,基于UR30e机械臂的四个桌面操作任务显示,ProphRL相比纯监督微调在所有任务平均成功率上带来约24–30%的提升,其中Pi0.5-3B模型提升幅度最大,达到30个百分点[38]
从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?
海外独角兽· 2025-12-03 12:05
文章核心观点 - 大语言模型在语言理解和生成方面展现出强大能力,但仅依赖语言不足以支撑真正的智能,构建能够理解和操作世界的空间智能与世界模型成为下一代人工智能发展的关键方向[2][4] - 空间智能被定义为在三维空间中进行推理、理解、移动和交互的深层能力,与语言智能互补,是通往通用人工智能不可或缺的拼图[4] - 语言是对三维世界的“有损压缩”,而视觉和空间感知是更接近“无损”的表征方式,让AI理解像素和三维空间中的物理规律难度高于处理符号化语言[10][11] - World Labs公司推出的Marble模型是全球首个高保真度3D世界生成模型,旨在突破模型“只懂文本”的限制,具备在三维环境中定位、推理、模拟、生成和执行任务的能力[15][17] 空间智能的必要性与理论基础 - 从生物演化角度看,大自然花费5.4亿年优化动物的视觉感知与空间行动能力,而人类语言形成历史仅约50万年,忽视这5.4亿年的进化积淀仅通过语言构建通用人工智能是不合理的[7][8] - 空间智能是人类进行高级科学创造不可或缺的思维工具,DNA双螺旋结构的发现就依赖于高强度空间推理,通过在三维空间中对分子结构进行几何构建和逻辑验证而完成[12][13] - 根据多元智能理论,人类智能是多维度的,至少具备八种相互独立的智能,空间智能与语言智能并非对立而是互补关系[4][5] Marble模型的技术特点 - 模型采用多模态输入方式,用户可输入文本描述、单张图像或一组图像,并能基于照片在虚拟空间中重构3D模型[20] - 具备交互式编辑功能,用户可对生成场景下达具体修改指令,模型能根据新约束条件重新生成并调整整个3D世界,形成“生成-反馈-修改”的闭环[20][21] - 选择Gaussian Splats作为3D世界的基础原子单元,通过大量3D高斯体表示和渲染场景,实现了在移动设备上30fps甚至60fps的实时渲染能力[24][25] - 模型架构基于Transformer,其本质是集合模型而非序列模型,置换等变的特性使其天然适合处理3D空间数据[28][29] Marble模型的应用场景 - 在创意与影视领域提供精确的相机放置控制,能极大降低特效制作门槛和成本,成为电影工业强大的生产力工具[21][31] - 室内设计成为典型涌现用例,用户通过手机拍摄厨房照片即可在虚拟空间重构3D结构并随意尝试各种设计方案,无需掌握复杂CAD软件[31][32] - 在机器人领域可作为强大模拟器,生成高保真合成数据填补真实数据与互联网视频之间的鸿沟,为具身智能体提供零成本虚拟训练环境[34][35] 技术发展趋势与挑战 - 当前世界模型面临的最大挑战是视觉真实与物理真实的差距,生成看起来合理的3D场景不等于模型理解物理定律[27] - 公司正在探索将传统物理引擎与生成式模型结合的混合路径,包括通过物理引擎生成模拟数据训练模型,以及给Splats赋予物理属性等方式[27][28] - 在算力被巨头垄断的时代,学术界应专注于探索短期内看似不可行但具备长远颠覆性的研究方向,如打破硬件彩票现象,寻找替代矩阵乘法的计算原语[36][37][38]
赛道分化加剧,2026年人工智能最强风口来袭
36氪· 2025-12-03 08:57
文章核心观点 - 2026年将成为人工智能发展的关键分水岭,AI将从“AI+”的修补模式,演进为AI原生重构系统底层逻辑、物理AI打通虚拟与现实、多模态技术融合以及世界模型实现规律预判的深度变革阶段 [1] AI原生引发系统应用底层革命 - AI原生意味着以AI为系统设计的底层逻辑与能力中枢,驱动从技术架构、业务流程、组织角色到价值创造方式的全方位重塑,是AI未来发展的关键方向 [3] - AI原生架构与传统“AI+”架构存在根本差异:设计起点从现有业务流程转向AI能力边界;数据流向从业务系统抽取数据给AI模型,转变为数据实时流入AI中枢驱动业务;系统角色从“辅助工具”转变为“决策引擎”;迭代速度从月级提升至天级 [4] - 真正的AI原生系统具备三个显著特征:以自然语言交互为基础,实现GUI与LUI混合;具备自主学习和适应能力,能根据上下文和环境变化调整输出;具备基于大语言模型和知识库自主完成任务的能力,实现端到端闭环 [4][5] - AI原生开发平台趋势明确,低代码/无代码工具催生大量“一人公司”模式,巨头正将AI智能体深度嵌入办公套件实现端到端闭环 [8] - AI原生应用大规模普及的前提是具备完善的工具和框架体系,如部署管理大模型的Hub平台、自动化微调工具、知识图谱管理工具等,产品化工具的积累是其快速普及的关键 [8] - 在办公场景,AI原生应用可将知识工作者的重复劳动时间减少40%以上,2026年AI原生是To C端最确定的增量市场,其核心竞争力在于对用户习惯的重构 [8] - AI原生应用的技术架构、工具产品及方法论将在1~2年内演进并达到可大规模复用的成熟度,之后全面爆发,短期内“AI原生应用”与“传统应用+AI”将共存 [9] 物理AI向现实世界全面渗透 - 2026年的AI将以物理实体形态渗透到城市、工厂、医院、家庭等场景,实现从“感知”到“行动”的跨越,即物理AI [10] - AI发展经历三阶段:感知AI(理解图像、文字、声音)、生成式AI(创造文本、图像、声音),现在正进入物理AI时代,AI能够进行推理、计划和行动 [10][11] - 物理AI的技术基础建立在三个关键组件之上:世界模型(构建对三维空间及物理定律的理解)、物理仿真引擎(实时计算复杂物理交互)、具身智能控制器(生成具体控制指令) [11][12] - 物理AI成为主流趋势的原因:一是机器人、无人系统等智能设备的物理交互需求驱动,要求AI具备在真实环境中稳定、泛化的感知、理解与执行能力;二是AI技术演进加速赋能物理实体 [14] - IDC预测,到2026年,AI模型、视觉系统及边缘计算的进步将使机器人可实现的应用场景数量增加3倍,并在制造、物流、医疗、服务等多个领域广泛部署 [14] 多模态将成为AI基础能力 - 2025年,多模态大模型以强大的跨模态理解和推理能力,成为推动产业智能化升级和社会数字化转型的中坚力量 [15] - 多模态大模型能同时处理文本、图像、音频、视频、3D模型等多种数据类型,实现信息的深度融合与推理 [15] - 其能力体系围绕“跨模态理解”与“跨模态生成”两大核心构建:理解方面包括语义匹配、文档智能解析、多模态内容深层解读;生成方面可实现文本、图像、音频、视频等不同模态内容的相互生成 [15][16] - 多模态大模型还展现出多模态思维链和上下文学习等高级认知能力,为构建更接近人类认知方式的AI系统奠定了基础 [16] - 原生多模态技术路线成为重要进化方向,即在训练之初就将多种模态数据嵌入同一个共享的向量表示空间,实现不同模态间的自然对齐与无缝切换,无需文本中转 [16] - 2026年,多模态大模型将以前所未有的速度重塑各行各业,已在文物保护、安防、智能驾驶、内容创作、工业质检、政务服务等领域展现出巨大价值,正从实验探索迈向实际应用 [17] - 技术案例如Sora 2在视频与音频生成上实现物理逼真、镜头控制、音效同步等突破;Nano Banana Pro在图像生成与编辑方面支持多图融合、4K输出等 [17] 世界模型引爆AI新一轮增长 - 世界模型让AI从“数据驱动”转向“规律驱动”,通过构建虚拟世界模型模拟物理规则实现前瞻性决策,是2026年最具颠覆性和挑战性的领域 [19][21] - 世界模型的价值在于“泛化能力”,能够将已知场景的认知迁移到未知场景,例如让自动驾驶系统在未见过道路上基于物理规律理解安全行驶 [22] - 世界模型是一种能够对现实世界环境进行仿真,并基于多模态输入数据生成视频、预测未来状态的生成式AI模型,是AI系统对现实世界的“内在理解”和“心理模拟” [22] - 与大语言模型相比,世界模型的主要数据是感知数据、模拟数据和遥测数据;架构是编码器加潜在动态的混合架构;目标是预测环境状态以支持决策;训练范式是自监督或强化学习;应用集中于机器人、控制、模拟等领域;认知基础是物理性和因果性 [24] - 世界模型具有三大核心特点:内在表征与预测,能将高维观测数据编码为低维潜在状态并预测未来状态;物理认知与因果关系,能理解和模拟重力、摩擦力等物理规律;反事实推理能力,能进行假设性思考 [24][25] - 技术层面关键包括因果推理、场景重建时空一致性、多模数据物理规则描述等,全球主流模型有谷歌Genie3、英伟达COSMOS,国内有华为盘古、蔚来NWM等 [25] - 在自动驾驶领域,世界模型可生成高动态、高不确定性场景解决长尾问题,通过闭环反馈机制降低成本、提升效率,案例如蘑菇车联MogoMind实现实时数字孪生与深度理解服务 [25] - 在具身智能中,世界模型能提供大规模高质量合成数据解决数据缺口,并重塑开发范式,未来将构建“物理+心智”双轨建模架构 [26]
潮声丨人工智能有时比人还“蠢”,AI版图缺的这块拼图是什么
搜狐财经· 2025-12-03 00:35
文章核心观点 - 当前以大语言模型和图像分类器为主导的人工智能发展已达到极限,缺乏对物理世界的深度理解,导致生成内容常出现不合常理的问题[2][6][7][10] - 空间智能被视为人工智能突破当前瓶颈、实现下一个飞跃的关键前沿,其核心是让机器像人一样理解并交互于三维物理世界[2][11][12] - 实现空间智能的根本路径在于构建“世界模型”,该模型能赋予AI对物理规则进行推理和预测的能力,已成为学术界和产业界新的重点投入方向[19][20][23] 人工智能当前发展的局限性 - 现有大语言模型和多模态模型在生成可靠文本方面强大,但在处理与物理世界相关的任务时表现不佳,常被调侃为“人工智障”[6][7] - 具体案例显示AI缺乏物理常识:豆包模型在图像生成中将骆驼比例严重失调,并添加了不符合生物特征的动物[7];OpenAI的Sora模型生成的蚂蚁视频中蚂蚁只有四条腿,且升级版Sora2在视频细节衔接上仍存在不符合常识的瑕疵[10] - 根本原因在于语言是人造信号,处理过程有信息损耗,而AI缺乏对真实物理世界体系的经验和根基[10] 空间智能的定义与重要性 - 空间智能概念源于教育心理学,指对空间信息进行感知、理解与操作的综合智能,涉及三维思维和空间想象,是人类从婴儿期发展的本能[12] - 在人类文明进步中,空间智能是关键驱动力,例如用于计算地球周长、发明珍妮纺纱机(使单人工效提升八倍)以及发现DNA双螺旋结构[12] - 将空间智能迁移至科技领域,旨在让机器获得理解并交互于三维世界的能力,这是AI发展的终极愿景之一,例如响应“去买杯咖啡”这类需要自主任务拆解与规划的高层指令[11][12] 空间智能的技术发展与产业应用现状 - 空间智能研究历史悠久,早在1970年代,大卫·马尔在《视觉》一书中就系统提出了从图像恢复三维世界的框架[15] - 技术已在部分产业中应用,例如手机AR测量、VR眼镜、扫地机器人、服务型机器人和机器狗,但这些应用或需人为操控,或对环境适应能力不强,容易因识别不清等问题导致故障[16] - 自动驾驶被视为目前规模最大、最成熟的空间智能应用,但其系统仍难以在复杂城市街道上进行安全推理,例如无法从突然出现的小球推测出可能有儿童跑上马路的潜在危险[17] - 当前技术的瓶颈在于“感知-推理-行动”链条中的“推理”环节,即缺乏能够理解物理规则并进行因果预测的内部模型[17] 实现突破的关键:世界模型 - 在数据(高质量语言数据可能在2026年左右耗尽)和算力(训练GPT-4成本可能超过1亿美元)存在限制的背景下,模型成为推动AI发展的关键[19] - “世界模型”于2018年提出,灵感来自人脑构建并运用“内部世界”的机制,旨在让AI能够整合感官信息,对物理世界进行直觉式推理和预测,例如预判咖啡杯滑落轨迹并接住[19] - 世界模型被视为实现空间智能的根本路径,因此成为产业界竞相投入的新焦点[20][23] 产业界的最新动态与投入 - 2025年1月,英伟达在CES上宣布推出可预测和生成“物理感知”视频的Cosmos世界模型[22] - 2025年3月,拥有全球最大室内场景空间数据集的空间智能企业群核科技,开源了空间语言模型SpatialLM,该模型登上HuggingFace模型趋势榜第二位[22] - 2025年8月,谷歌DeepMind发布了支持“实时交互”的世界模型Genie 3,为智能体训练及游戏开发等领域带来新可能性[22] - 近期,李飞飞参与创建的公司World Lab发布了首款多模态世界模型产品Marble,支持通过多种输入生成可编辑的3D环境[22] 未来展望与挑战 - 大语言模型的成功验证了“基础模型”技术路线的潜力,促使业界瞄准下一个前沿——赋予AI对物理世界的理解与交互能力[23] - 世界模型的搭建仍面临诸多难点:真实世界的复杂性与不确定性难以用现有数学模型全面处理;某些领域(如地球内部构造)数据获取有限;物理学本身对暗物质等现象的认知局限也限制了模型的完整性[23] - 尽管挑战巨大,但发展空间智能和世界模型代表了AI技术演进的重要方向[24]
华为重投,头部具身智能机器人创企发布并开源“最强”具身世界模型!
Robot猎场备忘录· 2025-12-03 00:03
文章核心观点 - 国内领先的通用具身智能企业极佳视界发布并开源了行业领先的具身世界模型GigaWorld-0,该模型在全球范围内首次实现世界模型生成数据在VLA训练中占比达到90%,并使模型性能提升近300% [2][6] - 公司定位为物理AI公司,是国内第一家专注「世界模型 x 具身大脑」方向的科技公司,采取软硬件全栈自研路线,同时布局本体和大脑 [8][11] - 公司在2025年融资活跃,已完成四轮融资,并获得华为哈勃等机构投资,显示出资本市场对具备强大AI能力且涉及本体的初创公司的青睐 [7][21] 技术突破与产品发布 - GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,由GigaWorld-0-Video和GigaWorld-0-3D两大协同组件构成,分别负责生成视觉逼真的操作数据和确保几何结构与物理动力学的准确性 [2][4] - 公司发布全球首个主要依靠世界模型生成数据驱动的端到端VLA具身基础模型GigaBrain-0,实现了开放世界“零样本”泛化 [13] - 公司于10月31日正式开源三大AI基础设施框架GigaDatasets、GigaModels和GigaTrain,并于11月28日开源GigaBrain-0 [14][16] - 公司推出首款具身智能人形机器人通用本体Maker H01,拥有丰富的传感器配置和高度开放的接口 [16] 公司背景与团队 - 公司于2023年1月在北京注册成立 [8] - 创始人兼CEO黄冠为清华大学人工智能方向博士,是连续创业者,拥有超过十年的AI技术和产业经验 [9] - 核心团队兼具领先的研究能力和大规模的产业落地经验,是少有的同时具备计算机视觉和大模型经验的创始团队 [10][15] - 团队关键成员包括首席科学家朱政博士、工程副总裁毛继明、产品副总裁孙韶言博士和算法负责人陈新泽 [15] 融资情况 - 公司于2025年10月30日完成由华为哈勃、华控基金联合投资的亿元级A1轮融资 [7] - 公司于2025年8月28日完成Pre-A和Pre-A+两轮数亿元融资 [7] - 公司于2025年2月完成由普超资本等投资的数千万天使++轮融资,2025年已完成4轮融资,累计完成6轮融资 [7] - 极佳视界是华为投资的第二家具身智能领域创企 [7] 商业化进展 - 在自动驾驶世界模型方向已经和多个头部主机厂达成签约合作 [18] - 在具身世界模型、具身大脑等方向已经和多个具身本体、终端公司达成签约合作,应用于科研、教育、展览、数据采集、工业、服务、家庭等多个场景 [18] 行业趋势与公司定位 - 双系统架构技术路径VLA模型已成为具身智能领域模型主流,但仍旧存在数据、黑盒风险、泛化能力等问题 [19] - 未来机器人通用大模型的架构演进方向之一是将世界模型引入决策推理流程,作为具身智能的核心支撑模块 [20] - 具备强大AI能力且同时涉及本体的初创公司已成为资本市场关注重点,此类公司在2025年接连完成大额融资并取得商业化突破 [21] - 公司路线是具身智能大模型和人形机器人本体同时涉及,在软硬件上全栈推进 [21]
ChatGPT三岁生日,谷歌却为它准备了“葬礼”
虎嗅APP· 2025-12-02 23:55
文章核心观点 - ChatGPT发布三年后AI行业格局发生颠覆性变化,谷歌Gemini 3的强势崛起对OpenAI形成巨大竞争压力[8][9][17][34] - AI技术演进从纯文本对话发展到多模态应用爆发,彻底重塑人类生产效率和社会结构[28][29][33][34] - OpenAI采用独特的融资模式,通过合作伙伴承担近1000亿美元债务来支撑算力扩张,自身财务风险极低[53][54][55][63] 人类被改写的三年 - 2022-2023年:ChatGPT突破图灵测试防线,主要特点是"对话"交互,Prompt Engineering成为热门技术但迅速被AI自身能力瓦解[24][25][27] - 2024-2025年:多模态AI爆发,GPT-4o、Midjourney等模型具备图像、音频、视频处理能力,Vibe Coding和Cursor等工具重塑生产关系[28][29][33] - 2025年成为"奇点体验年",谷歌Gemini 3的卓越表现引发行业格局变化[34] 谷歌重生,OpenAI变天 - 谷歌Gemini移动应用月活用户从5月约4亿激增至6.5亿,用户使用时间已超过ChatGPT[37][39] - 行业领袖评价发生逆转,Hugging Face联合创始人称"天已经变了",Salesforce CEO表示"回不去了"[42][43][44] - OpenAI面临多重压力,内部员工感到竞争压力,公司产品线扩张过快可能影响专注度[46][48][49] OpenAI的独特融资模式 - 合作伙伴为OpenAI承担近1000亿美元债务,相当于全球六大企业借款人净债务总和[53][54][58] - OpenAI自身账上几乎没有欠款,仅拥有40亿美元信贷额度且未动用[55] - 具体债务分布:甲骨文/Vantage债务380亿美元,软银债务200亿美元,CoreWeave债务超100亿美元[53][60][61] - 甲骨文已发售180亿美元债券,未来四年可能还需借款1000亿美元完成OpenAI合同[64] 技术演进对比 - GPT系列性能持续提升:GPT-5在速度、推理能力、token效率、准确性和上下文保留方面均达到最佳水平[23] - OpenAI计划未来8年投入1.4万亿美元用于算力建设,与英伟达、甲骨文、AMD等达成巨额交易[49] - 技术发展带来社会影响:CS课程教授开始教"不写一行代码的"编程课,企业开始大规模裁员[11]
第七届全球智能驾驶大会在苏州举办
中证网· 2025-12-02 12:00
大会概况与主题 - 第七届全球智能驾驶大会于12月1日在苏州相城区举办,主题为“智联世界 驾驭未来” [1] - 大会旨在助力构建智能驾驶全球化发展新格局 [1] 技术发展趋势 - 自动驾驶领域当前正围绕端到端、VLA与世界模型等主流技术路线展开探索 [1] - 世界模型通过对物理环境的高维认知建模,使智能体具备“理解世界、预测未来、自主决策”的能力 [1] - 依托苏州丰厚的车路云数据资源,顶尖院所与行业领袖将全面启动世界模型联合研发,旨在攻克下一代智能驾驶核心技术,驱动产业范式变革 [1] 专题交流与产业生态 - 大会围绕“探索汽车智能化产品出海路径”和“构建汽车数字化与服务化出海生态”两大主题展开专题交流 [1] - 中国机电产品进出口商会、中国汽研、岚图汽车、轻舟智航、曹操出行、奥托立夫等机构与企业代表参与讨论 [1] 政策与法规进展 - 现场对《江苏省无人驾驶装备商业示范应用工作指引(试行)》进行了解读 [1] - 该《工作指引》的出台为无人驾驶技术走向市场化、规模化应用提供了重要指导 [1] 苏州产业发展现状 - 苏州正奋力打造全球领先的“智驾之城”,已集聚相关企业超800家 [2] - 苏州智能车联网产业规模达1100亿元 [2] - 苏州成功获批国家5G车联网验证与应用项目,以及国家首批智能网联汽车“车路云一体化”应用试点 [2] 研发平台与产业链 - 江苏省智能驾驶技术重点实验室在苏州市政府指导下,由苏州数智科技集团牵头,联合清华大学苏州汽车研究院、Momenta共同组建,并于今年正式获评省级重点实验室 [2] - 苏州构建了以智能汽车、基础支撑、信息交互为核心的产业链生态,覆盖自动驾驶算法、激光雷达、高精地图、高级辅助驾驶等30余个细分领域 [2] - 产业形成“1+5+4”空间格局:以相城区为核心区,常熟市、苏州工业园区、吴江区、吴中区、高新区为重点区,张家港市、太仓市、昆山市、姑苏区为联动区 [2]
Runway重夺全球第一!1247分碾压谷歌Veo3,没有千亿算力也能干翻科技巨头
新浪财经· 2025-12-02 11:45
行业地位与技术优势 - Runway Gen-4.5 在 Artificial Analysis 文本转视频排行榜中以 **1,247** 的 ELO 分数位列第一,超越了谷歌 Veo 3(1,226)、快手 Kling 2.5 Turbo(1,225)和 OpenAI Sora 2 Pro(1,206)等竞争对手 [1][2][5][23][24][28] - 该模型在视频生成的运动质量、提示词遵循度和视觉保真度方面树立了全新标杆,实现了前所未有的物理精确度,物体能以逼真的重量、动量和力量运动 [3][8][26][31] - 模型能够处理从照片级真实感、电影感到风格化动画的广泛美学风格,并在复杂场景、精细构图、物理准确性和生成富有表现力的角色方面表现出色 [8][31][32][34] 公司发展历程与市场定位 - Runway 是第一家将文生视频技术做成可供大众使用的 SaaS 产品的公司,于2023年初率先推出 Gen-1(视频生视频)和 Gen-2(文生视频)[7][30] - 公司是第一个让“AI视频生成”成为独立商业赛道的企业,其产品化进程早于谷歌 Imagen Video、Meta Make-A-Video 等实验室项目,甚至早于2024年初发布的 OpenAI Sora [7][30][31] - 创始人认为,与拥有无限资源的大厂竞争时,公司的核心优势在于对视频生成愿景的极度专注以及在有限资源下进行训练和推理效率的极度创新 [14][37] 技术理念与未来愿景 - 公司将视频模型视为“通用模拟引擎”,认为其通过学习大量观察数据能捕捉物理世界规律,超越了语言模型仅对现实进行抽象的局限 [18][41] - 模型训练被描述为一种需要“品味”和直觉的过程,涉及成千上万个参数的微调,而非依赖单一的“魔法按钮” [17][19][40][42] - 视频模型未来的应用场景被设想将远超影视制作,包括非线性娱乐体验、具身智能的合成数据训练以及个性化学习等 [23][46] 技术细节与开发基础 - Gen-4.5 在视频模型的预训练数据效率和后训练技术方面均取得显著进步,并成为用于世界建模的新基础模型 [5][28] - 整个模型的开发过程,从初期研发、预训练、后训练到推理,完全基于英伟达 GPU 完成 [9][32] - 尽管能力有飞跃,模型仍表现出物体恒存性、成功偏差和因果推理方面的常见限制 [9][10][32][33]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
新浪财经· 2025-12-02 11:22
世界模型的定义与前景 - 世界模型本质是预测模型,给定当前状态及动作序列,预测下一个状态 [3] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量状态模拟 [3] - 终极目标是对世界进行1:1建模,可能达到原子级别,但实际需根据不同任务目的进行建模 [3] - 三大应用前景包括:为自动驾驶、具身智能等多模态任务提供更多数据、建立模型与世界的结合替代传统模拟器、以及最终成为端到端系统的一部分 [3] 世界模型的构建与数据挑战 - 构建面临核心悖论:先有模型还是先有数据,自动驾驶公司积累上亿公里数据但99%为晴天道路数据,缺乏危险场景数据 [5] - 可行路径为先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强世界模型 [5] - 有公司构建世界模型时数据采集成本达千万级,研究团队难以承担,需通过特定高质量数据提升模型效果 [5] - 提出循环过程:先有0.1版本模型生成0.1版本数据,再进一步训练模型,采用生成数据与真实数据混合模式 [5] 技术实现路径与架构分歧 - 技术路径存在分歧,有研究团队偏向融入物理信息保持视觉模型与物理世界一致性如重力 [6] - 模型构建与需求相关,面向影视游戏方向视频生成更合适,面向通用任务可能不需严格保持物理规律 [6] - 随着生成能力增强,模型最终形态可能是纯生成式,无需重建 [6] - 架构存在扩散模型与自回归模型之争,扩散模型从随机噪声还原内容更接近物理世界生成方式 [7] - 观察到技术融合趋势,包括OpenAI正探索将不同架构在特定阶段统一,如使用token化扩散 [7] - 已有扩散和自回归结合工作,扩散擅长捕捉现实世界分布,自回归补足时序与逻辑连贯性 [7] 发展时间表与商业化前景 - 世界模型的ChatGPT时刻可能需要三年左右出现,目前最困难是缺乏高质量长视频数据 [8] - 视频生成时长大多在5到10秒,大厂演示仅达一分钟量级,因此ChatGPT时刻可能需更长时间 [8] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟需开拓新研究方向 [8] - 存在ToB和ToC商业化挑战,如ToB端按token收费时如何定义视频生成数据价值,ToC端如何提升token [8] - 未来需训练强化学习Agent并将视觉-语言-动作技术进化为世界-语言-动作技术 [8]