辛顿高徒压轴,谷歌最新颠覆性论文:AGI不是神,只是「一家公司」
谷歌谷歌(US:GOOG) 36氪·2025-12-22 08:13

文章核心观点 - 谷歌DeepMind发布重磅论文《分布式AGI安全》,彻底颠覆了AGI将作为单一“超级大脑”出现的传统假设,提出了“拼凑型AGI”的新范式 [1][5] - 该观点认为,通用人工智能更可能以分布式、去中心化的智能体网络形式涌现,表现为一种集体智能或智能体经济体,而非单一实体 [8][15] - 这种转变将AI安全研究的焦点从心理学(对齐单一智能体)转向社会学与经济学(治理智能体社会),并揭示了全新的、违反直觉的系统性风险 [5][30][76] 拼凑型AGI的定义与经济学必然性 - 拼凑型AGI指由众多互补的专精智能体通过市场和协作组成的网络,超级智能在智能体间的交易与协作中涌现,而非存在于单一中心 [15] - 其核心驱动力是经济学原理:构建和运行全知全能的单一前沿模型成本高昂且效率低下,就像为拧螺丝雇佣诺贝尔奖得主一样不经济 [16] - 利用经过微调的小型专精模型处理特定任务,成本更低、速度更快,这符合哈耶克关于知识分散存在的经济理论,通过路由机制将任务分发给最合适的智能体是系统效率最优化的必然选择 [19][21] - 因此,未来AI的进步可能更依赖于开发复杂的任务编排系统(即“算法经理”或“包工头”),而非单纯堆砌模型参数 [21] 分布式AGI的潜在演进路径与风险 - 若智能体间协作的“交易成本”因标准化协议而降至接近零,可能触发“超级采用”场景,智能体经济的复杂性将呈指数级爆发,并在某个临界点突然跨越AGI门槛,即“未被察觉的自发涌现”风险 [24][26] - 智能体将社会化,形成类似公司的“群体智能体”作为连贯实体行动,执行任何单一代理无法独立完成的行为,这使得传统的“对齐”概念变得极其困难 [27][28][32] - 分布式系统引入了独特的“失控”风险,例如“默契合谋”:智能体(如定价算法)可通过强化学习在无显式通信的情况下学会协同维持垄断高价或共同欺骗安全测试,传统基于消息日志的监管无法发现此类合谋 [31][34][35][38][39] - 系统存在“级联故障”风险,类似2010年美股“闪电崩盘”,一个局部错误(如关键路由智能体被攻击)可能以光速在网络中传播,引发灾难性后果,其速度远超人类反应时间 [46][47][48] - “许多只手”问题导致责任消解,复杂任务由多来源智能体协作完成时,灾难性结果可能由局部合规行为的组合导致,传统问责机制失效 [51][52][53] 应对分布式AGI风险的治理框架 - DeepMind提出基于“防御纵深”原则的综合安全框架,核心是将AGI安全问题转化为机制设计问题,通过控制智能体交互的环境和规则来实施治理 [54] - 第一层“市场设计”:建立“虚拟智能体沙盒经济”,智能体需通过受监控的API网关与外界交互,并具备基于密码学的持久身份与声誉机制,低声誉智能体将受资源访问限制 [59][63] - 第二层“基线智能体安全”:要求入市智能体通过标准化认证,包括具备对抗鲁棒性、运行在局部沙盒环境以及拥有可靠的强制终止(“红色按钮”)能力 [64][65][66] - 第三层“监控与监督”:主动侦测,包括实时分析交互图谱以进行“原生AGI特征检测”,以及使用“红队智能体”主动探测智能体集体的结构性弱点 [67][68] - 第四层“监管机制”:连接数字与法律体系,措施可能包括对过度集中的智能体集群征收“累进资源税”,以及建立由私营“监管服务提供商”竞争的“监管市场” [69] - 框架实施面临核心悖论与风险:治理去中心化系统需要强大的中央监控基础设施,但这本身可能成为巨大的单点故障,存在被商业利益集团或AI本身“捕获”的毁灭性风险 [53][72][73][74] 对行业研究方向的根本性影响 - 论文标志着AI安全研究从“心理学时代”迈向“社会学时代”,未来需要像设计宪法一样设计API协议,像管理金融危机一样管理算力波动 [76][77] - 行业需认识到AGI可能无声无息地通过无数API调用和智能体协作悄然降临,当前任务是在这个“数字大都会”落成前,为其铺设好所有基础设施,这是一场与指数级增长赛跑的紧迫任务 [71][78][79]