Genie 3
搜索文档
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
搜狐财经· 2025-12-21 06:05
公司战略与核心优势 - 公司将其独特优势归结为将世界级的研究、工程能力和基础设施三者结合 在AI前沿领域 同时具备这三者的机构非常少 [8] - 公司采用科学方法作为核心思维方式 并将其应用于研究、工程乃至商业领域 这构成了其工作的严谨性与精确性的来源 [7][8] - 公司在发展路径上保持务实 会追随实证证据的指引 例如在看到scaling laws显现效果后 逐步将更多资源投入到该研究路径上 [27][28] 产品与技术路线图 - 公司的核心基础模型Gemini从一开始就是多模态的 能够同时处理图像、视频、文本和音频 并越来越多地生成这些类型的输出 [10] - 接下来12个月的重点方向包括:多模态能力融合取得显著进展、视频能力与语言模型融合产生有趣的能力组合、以及开发更可靠的基于Agent的系统 [10] - 公司的长期愿景是将Gemini打造成“通用助手” 使其出现在更多设备上 并成为用户日常生活结构的一部分 提升工作效率和改善个人生活 [11] - 最新发布的Gemini 3模型在推理深度、细腻度以及“性格”上表现出色 能够简洁直接地回答 并在观点不合理时温和提出异议 [24] - Gemini 3展现出对高层次指令的深度理解能力 以及生成高度细节化输出的能力 在前端开发、网站构建和一次性生成游戏方面表现突出 [25][26] - 公司有一个名为Genie 3的“世界模型”或交互式视频模型 用户可以在生成的视频中“行走” 并在一分钟内保持整体一致性 [10] 行业竞争格局 - 在AI领域 美国和西方整体在基准测试和最先进系统方面仍处于领先地位 但这种领先优势可能仅以“月”为单位 而非“年” [21] - 中国在AI领域并未落后太多 拥有出色的模型和有能力的团队 但在算法创新和原创性方面 西方目前仍然具有优势 [21] - AI行业正经历一场可能是科技史上最激烈的竞争 [8] - AI产业某些部分可能存在泡沫 例如一些规模极其夸张的早期融资 但从长期看 AI被认为是人类历史上最具变革性的技术之一 投入将被证明是值得的 [31] - 行业人才争夺战相当激烈 但最优秀的科学家和工程师希望参与最前沿的工作 持续的技术领先地位将形成吸引力正反馈 [31] 通用人工智能发展预测 - 通用人工智能可能还需要五到十年的时间才能实现 [6][29] - 对AGI的标准设定很高 要求系统能展现出人类所具备的全部认知能力 包括发明和创造能力 并在各个维度上具备一致性 而非当前“锯齿状”的智能形态 [29] - 实现AGI可能不仅需要将现有系统的scaling能力推到极限 还需要一到两个类似Transformer或AlphaGo的范式级关键突破 [29][30] - 当前系统缺乏一些关键能力 如持续学习、在线学习、长期规划和推理能力 这些能力最终会具备 但可能需要关键性突破 [6][29] 技术应用与市场潜力 - AI在网络安全领域的应用受到高度重视 旨在用AI强化防御体系以应对网络威胁 [17] - 在商业和企业领域 随着AI变得重要 企业客户会对Agent的行为保障提出明确要求 这可能会自然地奖励那些更负责任的供应商 [18] - AI在体育领域有巨大应用潜力 因为体育拥有丰富数据并追求极致精英表现 例如AI可以优化角球进攻中球员的精确站位以增加头球进球 [35][36] - 多模态理解能力 尤其是视频理解能力被严重低估 例如Gemini能够对视频内容进行概念层面的理解和哲学解读 [22] - 像Gemini Live这样的功能 允许用户用手机摄像头对准物体获得实时协助 其多模态能力的强大尚未被充分认识 [23] 技术发展现状与挑战 - 目前基于Agent的系统还不够可靠 无法独立完成完整任务 但预计一年后会开始看到接近这一能力水平的Agent出现 [10][12] - 创新和进步的速度非常快 以至于模型的创造者可能都来不及探索现有系统十分之一的潜力 用户常常将模型能力发挥到远超内部测试的程度 [27] - 随着AI系统变得更复杂和更具自主性 存在偏离最初设定指令或目标的空间 如何确保其始终保持在安全边界内是一个活跃的研究领域 [18] - 存在AI被恶意行为者滥用的风险 例如制造病原体或对关键基础设施发动网络攻击 这是必须严密防范的场景 [15][16][17]
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
Z Potentials· 2025-12-21 02:24
文章核心观点 - Google DeepMind联合创始人兼CEO Demis Hassabis认为,通用人工智能(AGI)可能在五到十年内实现,但仍需一到两个关键性突破,公司正致力于推进多模态AI、Agent系统和世界模型等前沿方向,以构建一个在日常生活中真正有用的通用助手 [6][30][31] - 公司认为AI是人类历史上最具变革性的技术之一,其最佳前景是带来“激进式丰裕”,解决能源、疾病等重大问题,但同时也需严肃应对AI安全、恶意滥用及系统失控等风险 [14][15][20] - 公司将其在激烈竞争中的优势归因于植根于科学方法的严谨性,以及将世界级研究、工程能力和基础设施相结合的能力 [9] 科学家与诺奖得主:从科学方法到公共责任 - Demis Hassabis获得诺贝尔奖后,其最大的变化在于该荣誉成为与领域外人士(包括政府高层)沟通时的“捷径”,能迅速确立其专家身份,这为其就AI安全等关键议题发声提供了重要平台 [5][7] - 公司强调科学方法是其面对一切问题的默认思维方式,认为这是人类历史上最重要的思想之一,并尝试将这种方法推向极致,这成为其作为研究组织和工程组织的优势来源 [9] - 除了长期AGI安全,公司关注的议题还包括当下AI的负责任使用,以及让整个社会为即将到来的变革做好准备,认为各国政府及其他关键领导者将发挥决定性作用 [6][8] 接下来的一年:多模态与Agent - 公司在接下来12个月将全力推进多模态能力的融合,其核心基础模型Gemini从一开始就是多模态的,能够同时处理并生成图像、视频、文本和音频,多模态本身正在带来有价值的交叉增益 [11] - 公司正在重点投入世界模型方向,例如其Genie 3系统是一种交互式视频模型,用户不仅可生成视频,还能在其中“行走”并保持长达一分钟的整体一致性 [11] - 公司希望Gemini最终成为一种“通用助手”,在接下来一年中会出现在更多设备上,可能通过眼镜等设备真正伴随用户生活,目标是打造一个每天都会被多次求助、成为生活结构一部分的系统 [12] - 目前Agent还不够可靠,无法独立完成完整任务,但预计一年后会开始看到接近这一能力水平的Agent出现 [11][13] 理想与担忧:AI带来的乌托邦与失控 - 公司设想的AI最佳前景是带来一种“激进式丰裕”状态,解决当今社会和人类面临的许多重大问题,如实现廉价可持续的清洁能源、治愈大量疾病,使人类进入后稀缺时代并真正繁荣 [14] - 公司担忧的风险主要来自两个方面:一是恶意行为者利用AI从事有害活动(如制造病原体、发动网络攻击);二是当AI接近AGI、变得更具自主性时,可能在某种情况下“失控”并对人类造成伤害 [15][18] - 公司认为AI突破安全边界的风险概率并非零,因此必须投入大量资源和注意力去应对,但精确量化这种灾难性风险(如P(doom))是没有意义的 [6][20] - 在AI安全研究上,随着具备持续学习能力的系统变得更具自主性,如何确保其始终保持在设定的安全边界内是一个活跃的研究领域,同时市场机制(如企业要求行为保障)也会自然奖励更负责任的参与者 [19] 行业竞争与现状 - 目前美国和西方在AI整体上仍然处于领先位置,但领先优势并不遥远,中国并没有落后太多,当前的领先可能只是以“月”为单位 [21] - 在算法创新和原创性方面,西方仍然具有优势,中国的模型或公司在快速跟进最先进技术方面做得非常出色,但在展示超越当前最前沿水平的原创突破方面目前仍略逊一筹 [22] - AI产业中的某些部分可能确实存在泡沫,例如一些规模极其夸张的早期融资看起来并不太可持续,但从长期来看,AI作为最具变革性的技术之一,其投入将被证明是完全值得的 [32] - AI领域的人才争夺战相当激烈,公司更看重那些被使命驱动的人才,并相信始终站在技术最前沿会形成对顶尖人才的吸引力正反馈 [33] Gemeni3: 实证引导下的强大模型 - 公司对近期发布的Gemini 3模型非常满意,认为其在智能水平和实用性上带来了明显跃迁,其回答风格简洁直接,并能在用户观点不合理时温和地提出不同意见 [25] - Gemini 3体现了对高层次指令的深度理解以及生成高度细节化输出的能力,其在前端开发和网站构建方面表现尤为突出,在美学、创造力和技术实现上都达到了很高水平 [26][27] - 公司认为创新速度过快,以至于在发布新版本时,内部甚至还没来得及探索现有系统十分之一的潜力,最终往往是用户将模型能力发挥到远超内部测试的程度 [28] - 公司决定全力押注LLM是基于科学方法和实证证据的指引,当看到scaling开始显现效果时,便逐步将更多资源投入到这条研究路径上 [28][29] AGI的十年之约:还需关键突破 - 公司认为目前尚未达到AGI,但已相当接近,预计还需要五到十年的时间 [6][30] - 公司对AGI的标准设得相当高,定义为一个系统能够展现出人类所具备的全部认知能力(包括发明和创造),且在各个维度上都具备一致性,而非当前“锯齿状”的智能形态 [30] - 当前系统缺乏一些关键能力,如持续学习、在线学习、长期规划和推理能力,这些能力可能还需要一到两个关键性突破才能实现 [6][31] - 实现AGI的路径上,必须把现有系统的scaling能力推到极限,但公司更倾向于认为除了scaling之外,还需要一到两个类似Transformer或AlphaGo那样的范式级重大突破 [31] 其他洞察与展望 - 公司认为当前AI最令人震撼却被严重低估的一点是模型所具备的多模态理解能力,尤其是多模态视频理解,能够在概念层面理解视频中发生的事情 [23][24] - 公司对人类大脑的适应能力充满信心,认为人类大脑已成功从狩猎采集社会适应到现代文明,理应具备持续适应AI变革的能力,未来或可通过脑机接口等新技术保持竞争力 [34] - 体育领域拥有极其丰富的数据且追求极致精英表现,天然适合引入AI进行优化,例如在角球进攻中,AI系统可通过分析球员的精确站位来帮助进更多的头球 [37][38]
电子行业2026年投资策略:AI创新与存储周期
广发证券· 2025-12-10 09:08
核心观点 - 报告核心观点认为,AI创新与存储周期是电子行业2026年投资策略的两大主线 AI模型创新与资本开支是产业发展的核心动力,驱动AI产业链协同发展 同时,AI推理需求驱动存储价格上涨和架构升级,存储周期持续向上 [1][4] AI创新:模型创新与CAPEX筑基,AI产业链协同发展 需求:模型创新与CAPEX筑基 - AI产业链包括AI硬件、AI CAPEX和AI模型与应用三大环节,其中AI CAPEX是驱动上游硬件发展的核心动力源 [12] - 模型创新是AI发展的核心动力,大模型在Chatbot、Coding、多模态等场景快速渗透,持续拓展应用领域 [14] - AI CAPEX构筑AI周期的基石,云厂商、头部企业及主权国家的资本开支具有刚性与延续性,为上游硬件环节提供订单与现金流支撑 [14] - 海外云厂商及Oracle的CAPEX/OCF在2025年第三季度环比有所下降,但仍处于可控范围,未来AI周期持续向上 [36] 模型创新进展 - **谷歌**:持续突破多模态模型边界,产品矩阵覆盖内容理解、生成到虚拟世界交互全链条,多模态生成在清晰度、动作可控性与叙事连贯性上已具备商业化价值临界点 [19] - **OpenAI**:通过记忆功能、GPT-5.1及群聊功能升级个性化体验,内部预测2025年收入将达130亿美元,同比增约350%,2030年收入预期上调至2000亿美元 [25][28] - **Anthropic**:在企业级LLM API市场份额达32%,内部预测2025年营收38亿美元,2028年目标700亿美元,毛利率有望从-94%跃升至77% [29] 算力:GPU与ASIC共舞 - AI算力竞争已转向“专用硬件+计算平台”的生态构建,展现从通用计算到专用AI计算的产业演进路径 [42] - **谷歌**:发布TPU v7 Ironwood,单芯片峰值算力达4614 TFLOPs,性能较前代提升4倍以上,支持单SuperPod扩展到9216个芯片,构建了从芯片集群到云服务的完整生态闭环 [45][48] - **英伟达**:确立年度产品更新节奏,发布Vera Rubin NVL144和Rubin Ultra NVL576平台,后者性能可达Blackwell Ultra GB300 NVL72平台的14倍,通过“硬件+软件+网络”垂直生态巩固市场地位 [52][56] - **AWS**:宣布研发下一代定制芯片Trainium4,将集成英伟达NVLink Fusion互连技术和UALink,旨在提升计算、内存和互连性能 [58] - **国产算力**:从“单点突围”转向“系统升维”,华为、阿里等厂商推出超节点解决方案,华为昇腾芯片规划以一年一代、算力翻倍的速度演进 [61][63][64] PCB:价值量提升与扩产 - **单GPU PCB价值量持续提升**:英伟达Rubin系列新增midplane、CPX板及正交背板等设计,驱动PCB规格升级 测算显示,Vera Rubin NVL144若包含正交背板,单GPU PCB价值量预计达1313美元,较A100/H100时代提升显著 [70][74] - **单ASIC PCB价值量持续提升**:谷歌TPU v7和AWS Trainium3的架构升级对PCB提出更高要求 测算显示,2025年AWS T系列单ASIC对应PCB价值量预计超700美元,Google TPU约363美元 [78][86] - **AI PCB市场规模高速增长**:预计AI服务器PCB市场规模将从2025年的49亿美元增长至2026年的102亿美元,同比增长108% 其中ASIC AI服务器PCB市场规模预计从32亿美元增至63亿美元,同比增长94% [89] - **国内PCB厂商积极扩产**:沪电股份、生益电子、景旺电子等国内头部厂商通过海外建厂、国内技改等方式积极扩充AI PCB产能 [90][93] 存储:AI推理驱动增长 - AI推理采用分级存储架构,HBM、DRAM、SSD、HDD协同支撑高效计算 [101] - AI推理,特别是超长上下文和多模态需求,驱动AI存储快速增长 测算显示,2026年10个谷歌级推理应用所需存储容量将达48EB [106] - 英伟达GPU配置持续升级,单GPU对应的HBM容量从H100的80GB提升至VR300 Ultra的1024GB,同时CPX系列新增GDDR7内存 [108] 电源:800V HVDC升级 - 为满足MW级机柜功耗需求,英伟达提出800V HVDC供电架构,可减少电能转换环节、降低损耗并简化热管理 [111] - SiC和GaN功率半导体是实现800V HVDC架构的关键,能实现更高功率密度与能效 [112] - 采用超高压SiC MOSFET的固态变压器可将高压交流电直接转换为800V直流,进一步提升能效 [119] - 预计至2030年,全球SiC&GaN功率器件市场规模将达25.64亿美元 [121] 存储周期:AI驱动价格上涨,扩产与升级同发力 价格与盈利 - AI驱动云侧和端侧存储搭载量显著增长,存储价格持续上涨,存储原厂毛利率显著提升 [4] 扩产:优先投向HBM - 海外存储原厂资本开支进入上行区间,产能优先投向HBM,传统DRAM和NAND投产较为谨慎 [4] 架构升级与设备需求 - **DRAM升级**:4F2+CBA工艺延续主流DRAM升级趋势;3D堆叠DRAM显著提升带宽,指向AI推理市场 [4] - **NAND升级**:3D NAND堆叠层数持续升级 [4] - 存储架构升级为设备需求带来新机遇 [4] 产业模式与接口芯片 - 存储代工模式迎来产业变革机会 [4] - 接口芯片如MRDIMM和VPD为产业打开新空间 [4] 投资建议 - 建议关注AI产业链相关标的,包括模型创新与CAPEX驱动下的算力、存储、PCB、电源等环节 [4] - 建议关注存储产业链相关标的,聚焦AI驱动下的价格上涨、架构升级及产业模式变革机会 [4]
哈萨比斯:DeepMind才是Scaling Law发现者,现在也没看到瓶颈
量子位· 2025-12-08 06:07
Scaling Law的现状与历史 - 谷歌DeepMind首席执行官哈萨比斯在Axios AI+峰会上力挺Scaling Law,认为其对于实现AGI至关重要[1][6] - 哈萨比斯指出,Scaling Law最早的发现者并非OpenAI,而是DeepMind团队,其内部在2017至2018年期间的研究已发现相关规律,并称之为“Chinchilla Scaling Laws”[6][14][17] - 基于对Scaling Law有效性的确认,DeepMind调整了研究方向并投入更多资源,这被认为是其在大模型领域取得成功、推动Gemini从1.0演进到3.0时代的关键[18] Scaling Law与AGI(通用人工智能)的关系 - 公司认为,无论AGI最终形态如何,Scaling都将是其中的关键组成部分,且当前Scaling尚未到达极限,有必要继续沿此路线将系统推向最大化[21][22] - 哈萨比斯提出,单靠Scaling Law也有可能达成AGI,因为大量数据和计算资源的投入是展现类人智慧能力的合理途径[7][23] - 同时,他也猜测实现AGI可能还需要一两个类似Transformer或AlphaGo级别的重大突破,并预测这个时间点可能在5到10年内[24][26] 对未来12个月AI发展的预测 - **多模态融合**:完整的多模态融合将是主流演进方向,谷歌DeepMind正全力推进,旨在通过交叉融合图像、视频、文本和音频来全面提升模型的推理和创造力[27][28][30] - **视觉智能突破**:以谷歌Nano Banana Pro等图像模型为例,视觉理解能力有显著进展,未来将在更丰富的分析、故事讲述和分步视觉推理方面继续探索[31][32][33] - **世界模型普及**:世界模型是行业关注重点,也是哈萨比斯个人的工作重点,例如谷歌8月上线的世界模型Genie 3,预计下一年该领域将持续受到业界关注[35][36][37] - **Agent可靠性提升**:哈萨比斯认为,现有Agent系统尚不完全可靠,但预计再有一年时间,Agent将能开始接近于可靠地完成委托任务[38][39][40] Gemini的发展与目标 - Gemini 3的成功验证了Scaling Law的有效性,其全网爆火被视为谷歌打了一场漂亮的翻身仗[4][5] - Gemini 3的独到之处在于个性化的深度、简洁的回答、温和反驳不合理观点的能力,并能一键式生成商业级游戏,展现了其基座架构在理解高层次指令和输出高精度细节方面的优势[43][44][45][46] - 公司对Gemini设定的最终目标是成为“通用万能助手”或“通用助手”,下一代Gemini将延续现有优势,出现在更多设备上并无缝融入日常生活,其使用频率将变得和使用手机一样频繁[9][41][46][47]
潮声丨人工智能有时比人还“蠢”,AI版图缺的这块拼图是什么
搜狐财经· 2025-12-03 00:35
文章核心观点 - 当前以大语言模型和图像分类器为主导的人工智能发展已达到极限,缺乏对物理世界的深度理解,导致生成内容常出现不合常理的问题[2][6][7][10] - 空间智能被视为人工智能突破当前瓶颈、实现下一个飞跃的关键前沿,其核心是让机器像人一样理解并交互于三维物理世界[2][11][12] - 实现空间智能的根本路径在于构建“世界模型”,该模型能赋予AI对物理规则进行推理和预测的能力,已成为学术界和产业界新的重点投入方向[19][20][23] 人工智能当前发展的局限性 - 现有大语言模型和多模态模型在生成可靠文本方面强大,但在处理与物理世界相关的任务时表现不佳,常被调侃为“人工智障”[6][7] - 具体案例显示AI缺乏物理常识:豆包模型在图像生成中将骆驼比例严重失调,并添加了不符合生物特征的动物[7];OpenAI的Sora模型生成的蚂蚁视频中蚂蚁只有四条腿,且升级版Sora2在视频细节衔接上仍存在不符合常识的瑕疵[10] - 根本原因在于语言是人造信号,处理过程有信息损耗,而AI缺乏对真实物理世界体系的经验和根基[10] 空间智能的定义与重要性 - 空间智能概念源于教育心理学,指对空间信息进行感知、理解与操作的综合智能,涉及三维思维和空间想象,是人类从婴儿期发展的本能[12] - 在人类文明进步中,空间智能是关键驱动力,例如用于计算地球周长、发明珍妮纺纱机(使单人工效提升八倍)以及发现DNA双螺旋结构[12] - 将空间智能迁移至科技领域,旨在让机器获得理解并交互于三维世界的能力,这是AI发展的终极愿景之一,例如响应“去买杯咖啡”这类需要自主任务拆解与规划的高层指令[11][12] 空间智能的技术发展与产业应用现状 - 空间智能研究历史悠久,早在1970年代,大卫·马尔在《视觉》一书中就系统提出了从图像恢复三维世界的框架[15] - 技术已在部分产业中应用,例如手机AR测量、VR眼镜、扫地机器人、服务型机器人和机器狗,但这些应用或需人为操控,或对环境适应能力不强,容易因识别不清等问题导致故障[16] - 自动驾驶被视为目前规模最大、最成熟的空间智能应用,但其系统仍难以在复杂城市街道上进行安全推理,例如无法从突然出现的小球推测出可能有儿童跑上马路的潜在危险[17] - 当前技术的瓶颈在于“感知-推理-行动”链条中的“推理”环节,即缺乏能够理解物理规则并进行因果预测的内部模型[17] 实现突破的关键:世界模型 - 在数据(高质量语言数据可能在2026年左右耗尽)和算力(训练GPT-4成本可能超过1亿美元)存在限制的背景下,模型成为推动AI发展的关键[19] - “世界模型”于2018年提出,灵感来自人脑构建并运用“内部世界”的机制,旨在让AI能够整合感官信息,对物理世界进行直觉式推理和预测,例如预判咖啡杯滑落轨迹并接住[19] - 世界模型被视为实现空间智能的根本路径,因此成为产业界竞相投入的新焦点[20][23] 产业界的最新动态与投入 - 2025年1月,英伟达在CES上宣布推出可预测和生成“物理感知”视频的Cosmos世界模型[22] - 2025年3月,拥有全球最大室内场景空间数据集的空间智能企业群核科技,开源了空间语言模型SpatialLM,该模型登上HuggingFace模型趋势榜第二位[22] - 2025年8月,谷歌DeepMind发布了支持“实时交互”的世界模型Genie 3,为智能体训练及游戏开发等领域带来新可能性[22] - 近期,李飞飞参与创建的公司World Lab发布了首款多模态世界模型产品Marble,支持通过多种输入生成可编辑的3D环境[22] 未来展望与挑战 - 大语言模型的成功验证了“基础模型”技术路线的潜力,促使业界瞄准下一个前沿——赋予AI对物理世界的理解与交互能力[23] - 世界模型的搭建仍面临诸多难点:真实世界的复杂性与不确定性难以用现有数学模型全面处理;某些领域(如地球内部构造)数据获取有限;物理学本身对暗物质等现象的认知局限也限制了模型的完整性[23] - 尽管挑战巨大,但发展空间智能和世界模型代表了AI技术演进的重要方向[24]
别再肝了!Google 发布 SIMA 2,你的下一个游戏搭子可能是个 AI
深思SenseAI· 2025-11-21 04:14
SIMA 2核心能力突破 - 新一代通用智能体SIMA 2与Gemini深度集成,能够在虚拟世界理解并执行自然语言指令,执行连续多步操作[1] - SIMA 2超越简单指令执行,通过Gemini作为推理中枢具备思考和推理能力,能够解释意图并描述下一步行动[2] - 智能体可以理解复杂细致指令,执行冗长任务并给予反馈,互动体验接近真实玩家[5] 技术实现与训练方法 - 训练使用大量带语言标注的人类演示视频,结合Gemini自动生成标注进行强化学习[2] - 具备初步对话式协作能力,能用自然语言向用户解释意图并描述行动计划[2] - 通过反复试验加Gemini反馈评估的闭环实现自我改进,不断学会完成更复杂新任务[11] 多模态与环境适应能力 - 借助Gemini出色多模态能力,可以理解图像、表情符号和简洁语言进行互动[6][7] - 在《我的世界》学会挖矿后,能将采集能力迁移到其他未训练过的游戏中[7] - 在Genie 3新生成的3D模拟世界中,即使未受专门训练也能正确辨别方向并执行指令[9][10] 行业意义与发展路径 - SIMA 2是迈向通用交互式具身智能的重要一步,为机器人领域智能具身化提供核心能力模块[15][16] - 通过大规模多世界数据训练叠加Gemini推理能力,将分散的专用系统能力整合进统一通用智能体框架[15] - 虚拟3D世界为具身智能提供可控低成本训练环境,Gemini加SIMA 2组合让会思考的LLM迈向会动手做事的Agent[14]
谷歌DeepMind CEO哈萨比斯:世界模型是未来,AI泡沫真实存在
搜狐财经· 2025-11-20 08:14
产品发布与定位 - 谷歌正式推出最新大模型Gemini 3 Pro,其研发目标是打造综合性能最强的基础模型,并弥补前代在编程、逻辑推理及数学能力等方面的短板[1] - 谷歌DeepMind首席执行官将Gemini 3 Pro描述为构想的通用人工智能(AGI)系统的关键组成部分[1] 产品性能与用户规模 - Gemini 3在多步骤任务中展现出更强的推理连贯性,能更稳定地维持思维链条,并可动态生成定制化交互界面如互动式教程或嵌入式计算器[3] - Gemini应用月活跃用户已突破6.5亿,若计入通过搜索中"AI概览"功能接触Gemini的用户,月活跃人数达20亿[3] - 为扩大影响力,公司宣布全美高校学生将获赠一年期Gemini高级版免费使用权[3] 技术前沿与未来规划 - 研究重心已转向世界模型,并援引SIMA 2及视频生成模型Genie 3等项目作为代表性案例,这些模型已在内部用于机器人及其他智能体的训练,未来将成为实现AGI不可或缺的核心组件[3] - 预测世界模型将迎来一个"ChatGPT时刻",但最大障碍是成本和当前的技术难题,例如让稳定性维持超过一分钟等挑战[4] - 真正的通用人工智能(AGI)实现尚需5至10年时间,仍需一到两项关键突破,尤其在模型可靠性、复杂推理能力及长期记忆机制等方面[5] 行业竞争与市场观点 - 明确指出私募市场显然存在泡沫,举例称某些尚无实质性产出的初创企业在种子轮融资阶段即被赋予数百亿美元估值,认为这不可持续且缺乏基本逻辑[4] - 强调此类风险不适用于谷歌,回溯了将AI研究打造为谷歌产品"引擎室"的长期战略已显成效,Gemini深度赋能搜索、YouTube、云服务等核心业务并迅速实现商业回报[4] 技术发展与投资回报 - 承认仅靠扩大模型参数量已出现收益递减现象,但强调进展远未停滞,相关投入依然极具价值,当前虽不再每代都实现性能翻倍,但仍持续带来显著提升,具备高投资回报率[5] - 警示模型能力的增强如接入外部工具的"函数调用"能力亦带来新型风险,特别强调在网络安全领域必须加倍审慎,严防技术被恶意滥用[5]
首款商用世界模型Marble发布,空间智能再进一步
国投证券· 2025-11-17 07:53
报告行业投资评级 - 行业投资评级为“领先大市-A” [8] 报告核心观点 - 首款商用世界模型Marble正式发布,其生成的持久化、可下载3D环境显著减少了场景变形与不一致性 [1][12] - 世界模型是以3D维度表征真实世界运行规律的AI系统,具备生成性、多模态性和交互性三种核心能力 [2][13] - 全球科技巨头在世界模型技术层取得密集突破,包括腾讯的混元3D世界模型1.0、Google DeepMind的Genie 3以及特斯拉的“世界模拟器” [3][14] - 空间智能是AI从“读写”到“构建”的关键,短期赋能创造力工具,中期有望成为机器实现真正智能的底层能力 [4][15] - 国内世界模型/物理AI产业链正在形成,建议关注相关产业链标的 [5][16] 行业重要动态与技术进步 - World Labs推出的Marble模型支持通过文字、照片、视频、3D布局或全景图生成可编辑、可下载的3D虚拟场景 [1][12] - 腾讯混元3D世界模型1.0融合全景图像合成与分层3D重建技术,支持使用者在3D场景中“沉浸式漫游” [3][14] - Google DeepMind的Genie 3能基于文本提示实时生成交互式虚拟环境,以每秒24帧、720p分辨率保持数分钟高保真度,并能回溯长达一分钟的历史时序信息 [3][14] - 特斯拉“世界模拟器”利用端到端神经网络生成高度逼真驾驶场景,用于自动驾驶与人形机器人训练 [3][14] - 李飞飞团队在空间智能领域的ReKep成果使用了奥比中光的RGB-D相机FemtoBolt,为机器人交互提供3D视觉数据支撑 [5][16] - Meta首席AI科学家杨立昆因战略分歧离职,计划创立专注于世界模型研发的新公司 [24] - OpenAI发布GPT-5.1版本,包含Instant和Thinking两个核心模型,优化了对话与推理能力 [25] - IBM发布120量子比特处理器Nighthawk,并公布2026年实用化路线图 [26] - 我国成功搭建“天衍-287”超导量子计算机,处理特定问题速度比最快超算快4.5亿倍,并即将全球开放云服务 [27] 市场行情回顾 - 本周计算机板块指数下跌3.72%,相对上证综指跑输3.54% [17][18] - 计算机板块年初至今涨幅为26.74% [18] - 本周计算机行业指数在中信30个行业指数中排名第28,在TMT四大行业中排名第2 [20] - 本周计算机个股中,ST峡创周涨幅达33.10%,位列涨幅榜首;淳中科技周跌幅为17.43%,位列跌幅榜首 [22] 投资建议与关注标的 - 建议关注奥比中光(3D视觉感知龙头) [5][16] - 建议关注智微智能(机器人大小脑控制器) [5][16] - 建议关注索辰科技(发布物理AI产品) [5][16] - 建议关注阿尔特(布局机器人赛道) [5][16]
李飞飞和LeCun的世界模型之争
具身智能之心· 2025-11-15 16:03
文章核心观点 - AI领域三大力量(李飞飞团队、LeCun、谷歌DeepMind)正以三种截然不同的技术路线进军“世界模型”,分别代表了“世界模型即界面”、“世界模型即模拟器”和“世界模型即抽象引擎”的范式 [3][30][39] - 三种技术路线在应用场景、技术重点和商业化潜力上各有千秋,共同构成了一个从具体到抽象的“世界模型金字塔” [39][47][48] 主要参与者与技术路线 - **李飞飞团队 - Marble模型**:定位为前端资产生成器,通过3D高斯生成流水线,从文本提示直接生成持久、可下载的3D环境,可导出为高斯斑点、Mesh网格或视频 [5][6][16][29] - **LeCun - JEPA模型**:定位为后端预测系统,根植于控制理论和认知科学,专注于构建抽象表征以捕捉世界状态,用于机器人行动前的预判,更像机器人的“大脑” [23][25][26][27] - **谷歌DeepMind - Genie 3模型**:定位为世界模型式视频生成器,从文本提示生成可交互的视频环境,解决了长时一致性问题并支持触发世界事件,如开始下雨或夜幕降临 [31][32][34][35] 技术特点与应用对比 - **Marble**:优势在于高精度的3D资产生成和商业化潜力,尤其适用于游戏和VR开发者的工作流程,可一键导出到Unity [9][21][38] - **Genie 3**:优势在于生成动态、可交互的视频世界,但画面质量和分辨率有限,核心仍是视频逻辑而非物理因果逻辑 [34][35][36][38] - **JEPA**:优势在于对世界本质和因果结构的理解,是机器人理想的训练基地,但无法生成可供人欣赏的视觉画面 [25][27][28][45] 世界模型范式分类 - **世界模型即界面(以Marble为代表)**:关注“世界长什么样”,生成可供人观看与交互的三维空间 [39][41][42] - **世界模型即模拟器(以Genie 3为代表)**:关注“世界怎么变”,生成连续、可控的视频环境供智能体训练 [39][43] - **世界模型即抽象引擎(以JEPA为代表)**:关注“世界的结构是什么”,以高度抽象的潜在变量形式呈现,最适合机器人推理 [39][44][45]
李飞飞和LeCun的世界模型之争
量子位· 2025-11-15 05:00
文章核心观点 - AI领域三大力量(李飞飞的World Labs、LeCun、谷歌DeepMind)正从三种截然不同的技术路线进军“世界模型”,这标志着AGI的发展路径在此交汇[1][2][3] 李飞飞World Labs的Marble模型 - 公司推出首款商用世界模型Marble,其核心是生成持久、可下载的3D环境,显著减少场景变形和细节不一致的问题[5][6] - 模型能将生成的世界导出为高斯斑点、Mesh网格或直接导出视频,并内置原生AI世界编辑器Chisel,用户通过一句提示即可自由改造世界[6][7] - 该模型为游戏或VR开发者提供了“一句提示→直接生成3D世界→一键导出到Unity”的实用工作链路,商业化潜力显著[9][22] - 有行业观点认为,Marble更像是一个3D渲染模型或3D高斯生成流水线,它捕捉的是世界的视觉表面而非内在的物理规律,因此可能不适用于机器人训练[10][11][12][18][20][21] LeCun的JEPA模型 - LeCun的“世界模型”根植于控制理论和认知科学,其任务不是渲染精美像素,而是让机器人能提前预判世界变化,更像是在训练机器人的“大脑”[24][25][26][28] - 该模型专注于捕捉用于AI决策的世界状态抽象表征,无需浪费算力生成像素,优势在于对世界本质的理解,是机器人理想的训练基地[27][29][51] - 与Marble相比,JEPA是一个高度抽象的后端预测系统,没有可供人欣赏的画面,但更贴近AI的思维方式[30][50] 谷歌DeepMind的Genie 3模型 - 谷歌DeepMind推出的Genie 3是一个可交互的视频环境生成模型,用户可通过一句Prompt在其中自由探索数分钟[32][33] - 该模型首次在同类模型中解决了长时一致性问题,并支持触发如“开始下雨”等世界事件,过程类似由模型驱动的电子游戏[35][36] - 行业分析认为,Genie 3的核心仍是视频逻辑,可被视为“世界模型式视频生成器”或“模拟器”,虽能让世界动起来,但未能完全理解画面背后的物理规律[37][38][39][47] - 其画面质量和分辨率有限,难以与Marble的高精度3D资产相比,但可作为智能体(如SIMA 2)的“虚拟健身房”进行训练[40][41][48] 世界模型的三种技术范式 - 世界模型即界面:以Marble为代表,直接从文字或二维素材生成可编辑、可分享的三维环境,世界是呈现给人的可视空间[43][44][45] - 世界模型即模拟器:以Genie 3为代表,生成连续、可控制的视频式世界,作为智能体反复试错的虚拟环境[46][47][48] - 世界模型即认知框架:以JEPA为代表,以高度抽象的潜在变量和状态转移函数呈现世界,是机器人完美的训练基地[49][50][51] - 三者可构成“世界模型金字塔”:从底部的Marble(对人类最真实)到顶部的JEPA(对AI最易理解),越往上越抽象,越适合机器人训练与推理[53][54]