情景记忆
搜索文档
Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型
海外独角兽· 2025-12-09 12:05
公司概况与融资 - 公司General Intuition是一家专注构建世界模型的公益性初创公司,其战略目标是成为“原子到原子”时代的智能标准,而非重新发明LLM [4] - 2024年10月,公司完成了高达1.34亿美元的种子轮融资,由硅谷传奇投资人Vinod Khosla领投,这是其自2019年首次投资OpenAI以来开出的最大单笔种子轮投资 [2][5] - 投资人Vinod Khosla的投资逻辑类似当年下注OpenAI,是基于第一性原理推演出的变革性技术路径,他看重的是公司宏大的终极愿景和战略推演能力 [6] 核心数据资产 - 公司从游戏高光片段剪辑平台Medal分拆而来,拥有超过38亿个游戏短视频片段,构成了其无法复制的独特数据集 [2][7] - 该数据集与Twitch或YouTube的流媒体直播有本质区别,它通过“回溯录制机制”天然经过了人类筛选,剔除了99%的无意义垃圾时间,只保留了代表“人类高光行为”的片段,被描述为人类在模拟环境中的“情景记忆” [11][12] - 数据不仅包含视频画面,还通过底层技术同步记录了玩家在每一帧下的具体操作输入,形成了数十亿小时的“人类操作(因)”与“屏幕反馈(果)”的完美配对数据 [13] - 公司对数据进行了标准化和隐私处理,雇佣了数千名标注员将不同游戏中的操作映射为标准化的动作空间,并规避了原始按键日志的隐私风险 [14] - 据CEO估计,公司拥有的带动作标签的视频数据集规模,比目前互联网上其他同类数据集高出1-2个数量级 [14] 技术路径与演示 - 公司的技术目标是构建真正的世界模型,其预测目标是在连续的物理空间中进行“下一个动作/状态预测”,这与LLM的“下一个词预测”形成本质区别 [31][32] - 技术演示显示,其训练的AI智能体在一款射击游戏中基于纯视觉输入进行实时对战,不依赖游戏底层代码或API,仅通过“看到”的屏幕像素来理解环境并生成操作 [20][21] - 智能体通过大规模模仿学习,表现出了拟人化特征,如准星移动带有自然平滑曲线,并复刻了人类玩家查看计分板、无聊切刀等“坏习惯”或“无意义动作” [23] - 模型展现出对“物体恒存性”的理解,即使在目标被烟雾或墙壁完全遮挡(部分可观测)的情况下,仍能根据其消失前的轨迹推测并锁定位置 [25] - 模型在生成画面时表现出物理一致性,例如在爆炸场景中生成原版游戏可能没有的镜头晃动,表明其正在学习跨越虚拟与现实的通用物理法则 [26][27] 与LLM的互补关系 - 公司认为其空间智能技术与LLM是互补而非竞争关系:LLM擅长处理被文本高度压缩后的符号逻辑,而公司模型旨在处理被文本压缩掉的、高维的时空信息,掌握人类的直觉与物理常识 [28][29] - 在未来AI架构中,LLM扮演“指挥官”角色,负责高层语义理解和任务规划;而公司的世界模型则是“执行者”,负责处理毫秒级的视觉输入和物理动作控制 [30] - 这种分工解决了LLM落地物理世界时推理延迟过高和缺乏物理直觉导致动作失败的两个致命问题 [30] 商业化路线图 - **第一阶段:游戏产业**。为游戏开发者提供API,用基于视觉的通用AI替换传统的硬编码逻辑或行为树,使游戏角色行为更自然。核心价值是充当“智能替补”,在非高峰时段生成与真人无异的AI对手,以提升玩家留存率 [34][36][37] - **第二阶段:模拟环境(如自动驾驶)**。利用虚拟世界(如模拟驾驶游戏)的低成本数据对现实世界模型进行预训练。例如,玩《欧洲卡车模拟》的玩家数量远超Waymo的实际路测车队,且能获取现实中稀缺的“负样本”(如车祸数据)。公司认为,模型在模拟中学到通用驾驶直觉后,现实自动驾驶公司可能只需原本1%或10%的真实路测数据进行微调即可达到同等安全性 [37][38][39] - **第三阶段:机器人与物理世界**。终极愿景是实现“Atoms to Atoms”闭环,驱动物理世界中的原子交互。公司设想在2030年,其模型能够驱动全球约80%的原子级物理交互(如抓取、移动、避障),成为智能的“金标准” [3][5][40] 创始团队与公司文化 - CEO Pim de Witte是技术产品型领袖,拥有深厚的游戏社区(Medal.tv创始人)、GPU编程和基础设施经验,并通过系统性学习深入理解深度学习与模型原理 [41][42] - 核心研究团队由在世界模型领域有开创性贡献的学者组成,包括GAIA(自动驾驶生成模型)核心负责人、DIAMOND论文作者等,他们因看重公司独一无二的数据集潜力而加入 [44][46] - 公司追求高“人才密度”,并致力于复兴AI领域的“开放研究文化”,例如与开放科学实验室Kyutai合作,认为其数据护城河允许其通过开放协作吸引顶尖人才 [44][47] 行业背景与机遇 - 公司崛起得益于“算力硬件的红利”,消费级GPU算力的指数级爆发使其技术路线在经济上可行。2024年的Diamond论文证明了复杂世界模型可在单张消费级显卡上以10 FPS或更高帧率运行 [17] - 这使得公司可采用“端侧推理”策略,将计算任务下放到用户本地设备(如玩家电脑),从而消除云端推理成本并解决延迟问题,这与LLM公司面临高昂云端推理成本的情况形成对比 [19] - 公司将其技术路径定位为AI发展的第三阶段(Atoms to Atoms),即机器人在物理世界中执行任务,而LLM主导的第一阶段(Bits to Bits,如文本生成)已趋于商品化 [4][5]
第六次突破
腾讯研究院· 2025-09-25 08:33
人类智能进化的五次突破 - 第一次突破是转向 通过区分外界刺激的好坏进行导航 两侧对称身体结构将导航决策简化为二元转向选择 多巴胺和血清素等神经调质使持续状态能够更有效重新定位 出现早期情感模板包括快乐 痛苦 满足和压力 [2] - 第二次突破是强化 通过学习重复历史上带来正面价值的行为并抑制负面价值行为 无模型强化学习带来从缺失中学习 时间感知 好奇心 恐惧 兴奋 失望和宽慰等智力和情感特征 [3] - 第三次突破是模拟 在精神上模拟刺激和行为 新皮质使动物能够在内部模拟现实 通过想象向基底神经节展示应该做什么 发展出规划能力包括情景记忆和反事实学习 运动皮质进化赋予精细运动技能 [4] - 第四次突破是心智化 建立自己的思维模型 新皮质中新区域建立对旧哺乳动物新皮质区域的模型 能够模拟自己具有不同意图和认知的心理状态 预测未来需求 理解他人意图和认知 通过观察学习技能 [5] - 第五次突破是语言 通过命名和语法将内部模拟联系在一起 使得思想能够跨代积累 每一次突破都建立在先前构建的基础上 转向功能因神经元进化而可能 强化学习建立在效价神经元之上 模拟因基底神经节试错学习机制存在 心智化因模拟先出现 语言因心智化先出现 [5] 人类历史的两大篇章 - 第一篇是进化篇章 讲述现代人类从宇宙原始无生命物质演化而来 跨越数十亿年漫长岁月 [6] - 第二篇是文化篇章 描述10万年前社会性现代人类从生物学大体相同但文化蒙昧的祖先中崛起发展 所有文明 技术 战争 发现 戏剧 神话 英雄与反派在这段相对较短时间内上演 [6] - 10万年前智人个体脑海中承载宇宙最令人叹为观止奇迹之一 历经10多亿年进化之路铸就辉煌成果 稳坐食物链之巅 手握长矛 身披手工编织衣物 驯服火焰 征服无数巨兽 展现众多智慧成就 [6] 进化历程与未来展望 - 无数事件汇聚迎来这一刻 从热液喷口第一个冒泡细胞到单细胞生物首次捕食之战 多细胞生物诞生 真菌与动物分化 祖先珊瑚中首个神经元和反射出现 古老两侧对称动物首个具有效价和情感大脑诞生 脊椎动物崛起 对时间 空间 模式和预测掌控 微小哺乳动物模拟能力 树栖灵长类构建政治体系和心智化 早期人类语言诞生 想法在数十亿人类大脑中孕育调整与毁灭 [7][8] - 进化仍在如火如荼展开 站在关于智能的故事起点而非终点 地球生命还有70亿年时间探索新生物智能形式 如果原始分子用45亿年演变成人类大脑 那么70亿年中智能能达到更高高度 宇宙扩张到无法形成新恒星需1万亿年 最后一个星系解体需千万亿年 宇宙千万亿年历程压缩成一年则今天处于第7分钟 [8] - 千万亿年后最后一个星系解体 宇宙开始缓慢无意义消逝过程 最终走向热寂 熵增是不可逆转趋势 DNA通过自我复制抵抗熵增 所有进化创新秉承持久存在精神 与熵增抗争精神 拒绝消逝于无形精神 思想是生命最新但不是最后创新 [9] 第六次突破与超级智能 - 第六次突破越来越可能是超级智能出现 实现智能载体从生物媒介到数字媒介转变 单一智能认知能力将实现天文级扩展 人类大脑认知能力受神经元处理速度 人体热量 大脑最大尺寸等因素严重限制 基于硅的人工智能可根据需要无限扩大处理能力 [9] - 随着人工智能自由复制和重新配置自身 个体性将失去明确界限 生物交配机制被新基于硅的机器训练和构建新智能实体机制取代 亲子关系获得新意义 进化被抛弃 智能不再被遗传变异和自然选择缓慢过程束缚 由更基本进化原则即最纯粹变异和选择原则驱动 [10] - 无论演化出何种智能策略 肯定被打上人类智能烙印 超级人工智能基础媒介摆脱大脑生物局限 但实体仍建立在之前五次突破基础上 因五次突破构成人类创造者智能基石 创造者必然在作品中留下自己印记 初始阶段超级智能被设计用来与人类互动 因此被赋予人类智能再现或某种程度镜像反映 [10] 人类目标与未来挑战 - 站在第六次突破悬崖边上 面临非常不科学但远比科学问题更重要的问题 人类目标应该是什么 这是关于价值观问题 过去选择会随时间推移不断产生影响 如何回答这个问题将会对无数时代产生深远影响 [11] - 可能成功跨越银河系 探索宇宙隐藏奥秘 构建新智慧生命 解开宇宙秘密 发现意识新特征 变得更富有同情心 参与难以想象冒险 也可能失败 进化过程中留下骄傲 仇恨 恐惧和部落主义包袱可能让人类分崩离析 可能像其他悲剧收场进化阶段只是历史长河中匆匆过客 [11] - 人类灭绝数百万年后地球某个物种可能再次尝试攀登进化之山 可能发现人类化石猜测曾经生活状态 书写关于大脑的书 更可悲是人类可能因破坏地球气候或发动核战争亲手终结持续40亿年的地球生命实验 [11] - 有必要回首10亿年漫长历程探寻大脑诞生奥秘 随着获得如神一般创造能力 应从无意识进化过程汲取智慧 越深入理解自己心智就越能够按照形象创造出人工心智 对心智形成过程理解越透彻就越能够明智选择哪些智能特征需要摒弃 保留或改进 [12] - 是这一伟大转变中坚力量 转变历经140亿年漫长岁月 无论是否愿意宇宙已将接力棒交到手中 [12]