General Intuition训练的agent
搜索文档
Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型
海外独角兽· 2025-12-09 12:05
公司概况与融资 - 公司General Intuition是一家专注构建世界模型的公益性初创公司,其战略目标是成为“原子到原子”时代的智能标准,而非重新发明LLM [4] - 2024年10月,公司完成了高达1.34亿美元的种子轮融资,由硅谷传奇投资人Vinod Khosla领投,这是其自2019年首次投资OpenAI以来开出的最大单笔种子轮投资 [2][5] - 投资人Vinod Khosla的投资逻辑类似当年下注OpenAI,是基于第一性原理推演出的变革性技术路径,他看重的是公司宏大的终极愿景和战略推演能力 [6] 核心数据资产 - 公司从游戏高光片段剪辑平台Medal分拆而来,拥有超过38亿个游戏短视频片段,构成了其无法复制的独特数据集 [2][7] - 该数据集与Twitch或YouTube的流媒体直播有本质区别,它通过“回溯录制机制”天然经过了人类筛选,剔除了99%的无意义垃圾时间,只保留了代表“人类高光行为”的片段,被描述为人类在模拟环境中的“情景记忆” [11][12] - 数据不仅包含视频画面,还通过底层技术同步记录了玩家在每一帧下的具体操作输入,形成了数十亿小时的“人类操作(因)”与“屏幕反馈(果)”的完美配对数据 [13] - 公司对数据进行了标准化和隐私处理,雇佣了数千名标注员将不同游戏中的操作映射为标准化的动作空间,并规避了原始按键日志的隐私风险 [14] - 据CEO估计,公司拥有的带动作标签的视频数据集规模,比目前互联网上其他同类数据集高出1-2个数量级 [14] 技术路径与演示 - 公司的技术目标是构建真正的世界模型,其预测目标是在连续的物理空间中进行“下一个动作/状态预测”,这与LLM的“下一个词预测”形成本质区别 [31][32] - 技术演示显示,其训练的AI智能体在一款射击游戏中基于纯视觉输入进行实时对战,不依赖游戏底层代码或API,仅通过“看到”的屏幕像素来理解环境并生成操作 [20][21] - 智能体通过大规模模仿学习,表现出了拟人化特征,如准星移动带有自然平滑曲线,并复刻了人类玩家查看计分板、无聊切刀等“坏习惯”或“无意义动作” [23] - 模型展现出对“物体恒存性”的理解,即使在目标被烟雾或墙壁完全遮挡(部分可观测)的情况下,仍能根据其消失前的轨迹推测并锁定位置 [25] - 模型在生成画面时表现出物理一致性,例如在爆炸场景中生成原版游戏可能没有的镜头晃动,表明其正在学习跨越虚拟与现实的通用物理法则 [26][27] 与LLM的互补关系 - 公司认为其空间智能技术与LLM是互补而非竞争关系:LLM擅长处理被文本高度压缩后的符号逻辑,而公司模型旨在处理被文本压缩掉的、高维的时空信息,掌握人类的直觉与物理常识 [28][29] - 在未来AI架构中,LLM扮演“指挥官”角色,负责高层语义理解和任务规划;而公司的世界模型则是“执行者”,负责处理毫秒级的视觉输入和物理动作控制 [30] - 这种分工解决了LLM落地物理世界时推理延迟过高和缺乏物理直觉导致动作失败的两个致命问题 [30] 商业化路线图 - **第一阶段:游戏产业**。为游戏开发者提供API,用基于视觉的通用AI替换传统的硬编码逻辑或行为树,使游戏角色行为更自然。核心价值是充当“智能替补”,在非高峰时段生成与真人无异的AI对手,以提升玩家留存率 [34][36][37] - **第二阶段:模拟环境(如自动驾驶)**。利用虚拟世界(如模拟驾驶游戏)的低成本数据对现实世界模型进行预训练。例如,玩《欧洲卡车模拟》的玩家数量远超Waymo的实际路测车队,且能获取现实中稀缺的“负样本”(如车祸数据)。公司认为,模型在模拟中学到通用驾驶直觉后,现实自动驾驶公司可能只需原本1%或10%的真实路测数据进行微调即可达到同等安全性 [37][38][39] - **第三阶段:机器人与物理世界**。终极愿景是实现“Atoms to Atoms”闭环,驱动物理世界中的原子交互。公司设想在2030年,其模型能够驱动全球约80%的原子级物理交互(如抓取、移动、避障),成为智能的“金标准” [3][5][40] 创始团队与公司文化 - CEO Pim de Witte是技术产品型领袖,拥有深厚的游戏社区(Medal.tv创始人)、GPU编程和基础设施经验,并通过系统性学习深入理解深度学习与模型原理 [41][42] - 核心研究团队由在世界模型领域有开创性贡献的学者组成,包括GAIA(自动驾驶生成模型)核心负责人、DIAMOND论文作者等,他们因看重公司独一无二的数据集潜力而加入 [44][46] - 公司追求高“人才密度”,并致力于复兴AI领域的“开放研究文化”,例如与开放科学实验室Kyutai合作,认为其数据护城河允许其通过开放协作吸引顶尖人才 [44][47] 行业背景与机遇 - 公司崛起得益于“算力硬件的红利”,消费级GPU算力的指数级爆发使其技术路线在经济上可行。2024年的Diamond论文证明了复杂世界模型可在单张消费级显卡上以10 FPS或更高帧率运行 [17] - 这使得公司可采用“端侧推理”策略,将计算任务下放到用户本地设备(如玩家电脑),从而消除云端推理成本并解决延迟问题,这与LLM公司面临高昂云端推理成本的情况形成对比 [19] - 公司将其技术路径定位为AI发展的第三阶段(Atoms to Atoms),即机器人在物理世界中执行任务,而LLM主导的第一阶段(Bits to Bits,如文本生成)已趋于商品化 [4][5]