世界模型
搜索文档
马斯克背刺英伟达?你投资,我挖角!
搜狐财经· 2025-10-14 01:53
世界模型技术概述 - 世界模型被认为是实现通用人工智能的关键路径,其目标是让AI理解物理规律并进行常识性推理和预测 [3] xAI团队关键人事变动 - xAI引入两位来自英伟达Omniverse平台的核心专家,其专业背景与构建世界模型的理念高度契合 [3] - Zeeshan Patel专注于多模态模型与物理AI,研究方向是教会AI预测物理世界中的互动(如物体滚动、弹跳) [4] - Ethan He深耕视频自监督学习和多模态模型,致力于让AI通过观察视频自主学习世界运行规则,无需人工标注 [4] - 两位专家的加入为xAI的世界模型提供了关键技术支持,旨在提升AI模拟现实和构建沉浸式虚拟环境的能力 [5] 商业应用战略:游戏领域 - xAI计划将世界模型技术首先应用于游戏领域,开发能实时响应玩家行为并动态生成游戏世界的3D游戏 [6] - 该技术旨在使游戏内的互动符合物理逻辑,NPC行为将不再依赖于死板的脚本代码 [6] 商业应用战略:机器人及自动驾驶 - 长远来看,xAI的世界模型技术将应用于机器人和自动驾驶领域,以提升在复杂现实环境中的操作能力 [8] - 在自动驾驶方面,该技术可使AI系统更精准预测其他车辆和行人的动态,从而做出更安全智能的决策 [8] 公司生态协同与行业竞争 - xAI的技术将与特斯拉的自动驾驶、人形机器人以及Neuralink的脑机接口技术形成生态协同,构成集团军作战的独特优势 [9] - 全球科技巨头如谷歌DeepMind、Meta的FAIR和英伟达均在世界模型领域投入巨资,行业竞争激烈 [10] - 此次人事变动被视为xAI在行业竞赛中争夺领先地位的明确信号 [10]
早报|三大运营商eSIM手机业务上线;西贝回应新公司涉及预包装食品;库克在抖音完成直播带货首秀;天府大道车祸系酒驾事故
虎嗅APP· 2025-10-14 00:08
eSIM手机业务商用 - 中国移动、中国联通和中国电信正式启动eSIM手机业务商用试验,中国联通网上预约人数已达68,356人[2][3][4] 苹果新产品发布 - 苹果CEO库克在抖音直播宣布iPhone Air将于下周在中国正式发售,直播观看人数持续保持在10万以上[5] 中美航运政策 - 中方对美船舶收取特别港务费正式施行,豁免中国建造船舶及进入中国船厂修理的空载船舶[7][8] - 中美双方自10月14日起相互对对方船舶征收高额港口费,中方按每净吨400元起征,美方对中资船舶每净吨50美元起征[28] 微软操作系统支持 - 微软将于2025年10月14日停止对Windows10系统提供安全更新和技术支持,建议用户升级至Windows11或参加扩展安全更新计划[9][10] 人工智能芯片合作 - OpenAI与博通宣布战略合作,计划于2026年推出定制数据中心芯片,部署10吉瓦的AI加速器,博通盘前股价上涨12%[11] 无人机行业竞争 - 大疆多款产品降价促销,影石CEO公开致歉并为其客户提供100元无门槛代金券,引发行业竞争关注[14][15] 半导体行业动态 - 荷兰政府计划对闻泰科技旗下安世半导体采取限制措施,中方表示反对将经贸问题政治化[26][27] 人工智能技术发展 - 马斯克旗下xAI公司加速研发"世界模型",计划2025年底推出AI生成游戏,突破文本局限实现具身智能[29] 企业高层变动 - 万科企业董事长辛杰因个人原因辞职,选举黄力平为新任董事长[21] 企业业务澄清 - 西贝注册新公司澄清不涉及预制菜新业务,主营业务为餐饮服务及预包装食品销售[22] 社交媒体技术故障 - 小红书出现图片评论无法显示等技术故障,官方回应已恢复正常[23][24]
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
具身智能之心· 2025-10-14 00:02
xAI入局世界模型 - 马斯克的xAI公司已正式进入世界模型研发领域,加入与Google DeepMind、Meta、英伟达等巨头的竞争 [2][7][8] - 为增强实力,xAI于2024年夏季从英伟达挖来多名资深研究员,包括Zeeshan Patel和Ethan He [2][9][16] 核心人才引进 - Zeeshan Patel于2024年5月硕士毕业于UC伯克利,研究方向为深度学习、生成模型和物理人工智能,此前曾在英伟达研究院从事生成式世界模型研究 [10][11] - Ethan He本科毕业于西安交通大学,在CMU获得计算机视觉硕士学位,其Google Scholar被引数高达8495,在加入xAI前于英伟达从事MoE模型、多模态模型和世界模型研究 [12][13][15][16] - 两位研究员均参与了英伟达Omniverse平台的核心开发工作,该平台是全球最成熟的物理一致性仿真系统之一 [18][19][20] 世界模型的战略意义与技术路径 - 世界模型被视为实现AGI(通用人工智能)的核心底座,其目标是让AI系统真正理解和推理物理3D世界,而不仅限于文本处理 [23][24][26] - xAI计划将英伟达在图形与物理模拟领域的积累(如Omniverse技术)应用到自家的世界模型体系中 [21][22] - 世界模型的应用前景广泛,可驱动AI游戏、智能体、自动驾驶乃至具身智能机器人 [38][39] 游戏领域作为首要落地场景 - xAI入局世界模型后的首批落点可能是电子游戏,团队正尝试让AI自动生成自适应、逼真的3D场景,并能根据玩家行为实时变化 [30][31] - 马斯克设下目标,计划在2026年底前推出一款由世界模型驱动的AI生成游戏 [3][32] - 为达成目标,xAI正在组建全模态团队(Multimodal Team),并公开招聘“电子游戏导师”(Video Games Tutor),时薪45–100美元,旨在向模型讲解游戏机制与设计逻辑 [33][34][35][36] 马斯克AI帝国的协同效应 - xAI的使命是“让AI理解宇宙的本质”,世界模型是实现该目标的关键路径 [37] - xAI、特斯拉、Neuralink、X平台之间可能形成协同效应:xAI研发模型,特斯拉提供机器人和自动驾驶数据,Neuralink提供脑机接口,X平台则作为社交与实时反馈渠道 [40][41]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-10-13 23:33
技术交流社群 - 自动驾驶行业成立了专注于前沿技术方向的技术交流群 [1] - 技术交流群覆盖世界模型、端到端、VLA等当前行业重点研究方向 [1]
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
36氪· 2025-10-13 10:46
对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11] 对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20] 对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31] 对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]
Meta最新论文解读:别卷刷榜了,AI Agent的下一个战场是“中训练”
36氪· 2025-10-13 07:19
AI行业竞争焦点转变 - 2025年AI竞争焦点从跑分比拼转向Agent自主完成复杂长程任务的能力 [1] - 行业巨头如xAI和Anthropic发布新品时均强调同一能力 [1] - AI的下一战场被明确为通用Agent [2] Agent落地的现实瓶颈 - 除编程领域外,Agent落地应用寥寥无几 [2] - 核心瓶颈之一是反馈机制的困境 [2] - 现有反馈机制要么太弱要么太贵,阻碍预训练模型蜕变为强大Agent [2] 主流Agent训练方法的局限性 - 模仿学习(监督微调)依赖昂贵静态反馈,高质量专家数据难以大规模生产 [4] - 模仿学习导致模型泛化能力极差,无法适应训练数据外的情况 [4] - 强化学习依赖复杂动态反馈,在真实世界任务中奖励信号常缺失、稀疏或延迟 [5] - 强化学习应用高度依赖精心设计的奖励函数或人工调整的训练流程 [5] Meta提出的“中训练”范式 - Meta等机构在2025年10月论文中提出“早期经验”的“中训练”范式 [2][7] - 该范式利用Agent自己探索产生的状态变化作为宝贵的学习信号 [7] - 设计两种具体训练策略:隐式世界建模和自我反思 [7] 隐式世界建模策略 - 让Agent学会预测“如果我这么做,世界会变成什么样” [9] - 具体步骤包括自我尝试、记录数据、微调训练预测能力 [9] - 通过大量“作死”和观察后果,让Agent悟出世界运行规律 [10] 自我反思策略 - 让Agent学会解释“为什么专家的做法比我的其他想法更好” [11] - 具体步骤包括自我尝试、教练点评、微调训练预思考能力 [11] - 训练Agent学会先生成反思推理再输出正确动作 [11] “中训练”范式的有效性验证 - 在8个多样化环境中测试显示,平均成功率比传统模仿学习提升9.6% [15] - 在未见过的任务上表现提升9.4%,显示强大泛化能力 [15] - 作为强化学习初始化时,最终性能提升最多6.4% [15] - 提升在不同复杂度的环境中保持稳定 [17] “中训练”的理论基础与价值 - 谷歌DeepMind研究证明成功Agent内部必须拥有准确“世界模型” [18] - 传统模仿学习只学习从状态到行为的浅层映射 [20] - “早期经验”补上了建立世界因果理解的关键课程 [21] - 可能需“预训练+中训练+后训练”三段式训练范式通往通用Agent [23] 参数效率与新Scaling Law可能性 - “早期经验”展示通过自我递归训练释放参数潜力的可能性 [25][27] - 700M参数小模型经训练后可在某些任务上超越参数量大十几倍的大模型 [25] - 传统增加参数量的做法边际收益递减很快 [27] - 可能预示一个新的属于Test Time Compute的Scaling Law [28]
闻泰科技半导体资产被荷兰政府冻结;Windows 10系统明日起停服;特努斯成为苹果下一任CEO热门人选
搜狐财经· 2025-10-13 05:32
闻泰科技/安世半导体资产冻结 - 荷兰政府于9月30日指令冻结闻泰科技控股子公司安世半导体的资产与知识产权调整,为期一年 [4] - 安世半导体部分外籍高管要求闻泰科技转让股权并暂停其委派的CEO职务,荷兰企业法院已暂停张学政的CEO职务和职权 [4] - 安世半导体2024年收入规模约147亿人民币,闻泰科技要求荷兰政府撤销指令并停止对中国企业的系统性歧视 [4] 微软Windows 10停服 - 微软自10月14日起停止对Windows 10系统提供安全更新和技术支持,用户设备可能更易遭受网络攻击 [6] - 微软建议用户尽快升级至Windows 11系统,因部分应用程序功能可能随停服而减弱 [6] 苹果公司动态 - 硬件工程高级副总裁约翰·特努斯(50岁)成为接替库克的CEO热门人选,其在9月开发者大会负责介绍iPhone Air [7] - 苹果自10月10日起停用Clips应用,新用户无法下载,现有用户可继续使用但应用不再更新 [8] - 分析师郭明錤称折叠iPhone铰链量产后单价预计降至70-80美元,低于市场预期的100-120美元,主因设计优化及富士康参与 [9] - 富士康与新日兴合资公司占折叠iPhone铰链约65%份额,安费诺供应剩余35%,立讯精密最快2027年后可能成为新供应商 [9] xAI与英伟达 - xAI从英伟达招募研究员Zeeshan Patel与Ethan He,开发用于电子游戏与机器人领域的“世界模型” [13] - 英伟达CEO黄仁勋10月1日至10日通过多次交易减持公司股票,累计套现超1亿美元达1.13亿美元,减持后仍持有超7060万股股票 [14] 媒体行业并购 - 华纳兄弟探索公司以报价过低为由拒绝派拉蒙天舞传媒的初步收购提议,派拉蒙报价约每股20美元 [15] - 华纳兄弟探索公司股价收于每股17.10美元,市值达423亿美元,派拉蒙股价为每股17美元,市值为186亿美元 [15] 半导体产业链 - 台积电供应商万机仪器考虑出售价值10亿美元的特种化学品部门,以聚焦于为芯片制造商供货 [16] 战略合作 - 海尔集团与阿里巴巴集团签署全面战略合作协议,将结合海尔全生态布局与阿里全栈AI能力共建数字产业新生态 [5] 全球工程成就 - 2025全球十大工程成就发布,包括Blackwell GPU架构、DeepSeek开源大语言模型及人形机器人等 [17]
马斯克xAI投身“世界模型”竞赛,欲重塑AI与现实交互新体验
搜狐财经· 2025-10-13 04:45
公司战略与研发重点 - xAI公司正全力投入“世界模型”的研发,与Meta、谷歌等科技巨头在人工智能领域展开竞争[1] - xAI今年夏天从英伟达招揽了专家团队,专注于新一代人工智能模型的打造[4] - “世界模型”以视频和机器人数据为训练素材,旨在深入理解现实世界,不同于传统基于文本训练的大型语言模型[4] - xAI为其“全能团队”招聘图像和视频生成技术人员,薪资范围从18万美元到44万美元不等[5] 技术应用与市场方向 - “世界模型”有明确的应用方向,游戏领域是重点之一,该模型可生成交互式3D环境,为玩家带来全新体验[4] - 该技术也能应用于机器人的人工智能系统,推动实体产品智能化发展[4] - xAI同时招聘电子游戏导师,负责训练Grok制作电子游戏,助力用户探索人工智能辅助的游戏设计[5] - 英伟达指出,该技术有望为人工智能在软件和计算机之外的应用开辟新途径,如人形机器人等实体产品领域[4] 技术挑战与行业动态 - “世界模型”的研发面临巨大挑战,需要实现对物理学和物体实时交互的因果性理解,目前存在数据获取困难和成本高昂等问题[4] - 目前像OpenAI的Sora等视频生成模型,通过预测训练数据模式来生成图像帧[4] - xAI聘请的研究人员在“世界模型”方面经验丰富,且英伟达的Omniverse平台在该技术领域处于领先地位,为研发提供了支持[4]
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
创业邦· 2025-10-13 03:53
公司战略与布局 - 马斯克的xAI公司已正式入局世界模型领域,加剧了与Meta、Google DeepMind等巨头的竞争[3][9][10] - 公司计划在2026年年底前发布一款由世界模型驱动的AI生成游戏[3][29] - 公司正在组建全模态团队,专门研究图像、视频、音频的综合理解与生成,以支持世界模型开发[30] 人才招募与技术基础 - 公司于今年夏季从英伟达挖来至少两名资深研究员Zeeshan Patel和Ethan He,以增强世界模型研发实力[3][11] - 新招募的研究员此前均参与了英伟达Omniverse平台的核心开发,该平台是全球最成熟的物理一致性仿真系统之一[18][19] - 公司计划将英伟达在图形与物理模拟领域的积累应用到自家的世界模型体系中[20] 世界模型的应用前景 - 世界模型被视为AGI的核心底座,能让AI系统真正理解和推理物理3D世界,而不仅限于文本处理[23][25] - 该技术首批落地应用可能是电子游戏,旨在生成自适应、逼真的3D场景,并能根据玩家行为实时变化[29] - 世界模型技术未来可驱动智能体、自动驾驶乃至具身智能机器人,与特斯拉、Neuralink等马斯克旗下公司形成协同效应[35][36] 市场背景与行业动态 - 世界模型是近两年全球AI巨头和实验室的新战场,参与者包括Google DeepMind、Meta、英伟达和李飞飞团队等[9][28] - 视频游戏行业市场规模巨大,今年收入约2000亿美元,为AI生成游戏提供了广阔的市场空间[6]
马斯克AI公司开发“世界模型”,从英伟达挖专家将推游戏
凤凰网· 2025-10-13 03:21
公司战略与进展 - xAI公司正加紧构建能够理解现实世界动态特征的“世界模型”,旨在实现对物理环境的自主导航与设计 [1] - 公司计划将世界模型应用于游戏领域,用于生成可交互的3D环境,并计划在明年年底前推出一款由AI生成的优秀游戏 [1][2] - xAI已从英伟达聘请了两位具备世界模型研发经验的AI研究员泽尚·帕特尔与何宜晖,以加强研发能力 [2] - 公司于近期推出了最新的图像和视频生成模型,并进行了重大升级,且免费向用户开放使用 [2] 技术定义与潜力 - 世界模型是一种生成式AI模型,能利用文字、图像、视频以及动作等输入数据来生成影片,其核心是理解现实世界的物理属性和空间特性 [1] - 世界模型通过学习视频以及来自机器人的数据来理解现实世界,有望将AI能力提升到超越大语言模型的水平 [1] - 与OpenAI的Sora等逐帧生成视频的模型不同,世界模型能实时理解物理世界的因果关系,掌握物体在不同环境中的实时互动机制 [2] - 世界模型被认为能将AI应用从软件和计算机拓展到实体产品,例如人形机器人,其潜在市场规模可能接近当前全球经济总量 [2] 行业竞争格局 - 除xAI外,谷歌、Meta等领先的AI实验室也在研发世界模型系统 [3] - 英伟达凭借其能够创建并运行模拟环境的Omniverse平台,在该技术领域保持领先地位 [2] 行业面临的挑战 - 世界模型的研发面临巨大技术挑战,要找到足够的数据来模拟现实世界并训练这些模型被证明既困难又成本昂贵 [3] - 有行业观点指出,游戏行业面临的重大问题并非技术,而是领导力与远见的缺失,更需要能让玩家投入的世界呈现方式,而非算法生成的玩法循环 [3]