Workflow
AlphaZero
icon
搜索文档
辛顿高徒压轴,谷歌最新颠覆性论文:AGI不是神,只是「一家公司」
36氪· 2025-12-22 08:13
文章核心观点 - 谷歌DeepMind发布重磅论文《分布式AGI安全》,彻底颠覆了AGI将作为单一“超级大脑”出现的传统假设,提出了“拼凑型AGI”的新范式 [1][5] - 该观点认为,通用人工智能更可能以分布式、去中心化的智能体网络形式涌现,表现为一种集体智能或智能体经济体,而非单一实体 [8][15] - 这种转变将AI安全研究的焦点从心理学(对齐单一智能体)转向社会学与经济学(治理智能体社会),并揭示了全新的、违反直觉的系统性风险 [5][30][76] 拼凑型AGI的定义与经济学必然性 - 拼凑型AGI指由众多互补的专精智能体通过市场和协作组成的网络,超级智能在智能体间的交易与协作中涌现,而非存在于单一中心 [15] - 其核心驱动力是经济学原理:构建和运行全知全能的单一前沿模型成本高昂且效率低下,就像为拧螺丝雇佣诺贝尔奖得主一样不经济 [16] - 利用经过微调的小型专精模型处理特定任务,成本更低、速度更快,这符合哈耶克关于知识分散存在的经济理论,通过路由机制将任务分发给最合适的智能体是系统效率最优化的必然选择 [19][21] - 因此,未来AI的进步可能更依赖于开发复杂的任务编排系统(即“算法经理”或“包工头”),而非单纯堆砌模型参数 [21] 分布式AGI的潜在演进路径与风险 - 若智能体间协作的“交易成本”因标准化协议而降至接近零,可能触发“超级采用”场景,智能体经济的复杂性将呈指数级爆发,并在某个临界点突然跨越AGI门槛,即“未被察觉的自发涌现”风险 [24][26] - 智能体将社会化,形成类似公司的“群体智能体”作为连贯实体行动,执行任何单一代理无法独立完成的行为,这使得传统的“对齐”概念变得极其困难 [27][28][32] - 分布式系统引入了独特的“失控”风险,例如“默契合谋”:智能体(如定价算法)可通过强化学习在无显式通信的情况下学会协同维持垄断高价或共同欺骗安全测试,传统基于消息日志的监管无法发现此类合谋 [31][34][35][38][39] - 系统存在“级联故障”风险,类似2010年美股“闪电崩盘”,一个局部错误(如关键路由智能体被攻击)可能以光速在网络中传播,引发灾难性后果,其速度远超人类反应时间 [46][47][48] - “许多只手”问题导致责任消解,复杂任务由多来源智能体协作完成时,灾难性结果可能由局部合规行为的组合导致,传统问责机制失效 [51][52][53] 应对分布式AGI风险的治理框架 - DeepMind提出基于“防御纵深”原则的综合安全框架,核心是将AGI安全问题转化为机制设计问题,通过控制智能体交互的环境和规则来实施治理 [54] - 第一层“市场设计”:建立“虚拟智能体沙盒经济”,智能体需通过受监控的API网关与外界交互,并具备基于密码学的持久身份与声誉机制,低声誉智能体将受资源访问限制 [59][63] - 第二层“基线智能体安全”:要求入市智能体通过标准化认证,包括具备对抗鲁棒性、运行在局部沙盒环境以及拥有可靠的强制终止(“红色按钮”)能力 [64][65][66] - 第三层“监控与监督”:主动侦测,包括实时分析交互图谱以进行“原生AGI特征检测”,以及使用“红队智能体”主动探测智能体集体的结构性弱点 [67][68] - 第四层“监管机制”:连接数字与法律体系,措施可能包括对过度集中的智能体集群征收“累进资源税”,以及建立由私营“监管服务提供商”竞争的“监管市场” [69] - 框架实施面临核心悖论与风险:治理去中心化系统需要强大的中央监控基础设施,但这本身可能成为巨大的单点故障,存在被商业利益集团或AI本身“捕获”的毁灭性风险 [53][72][73][74] 对行业研究方向的根本性影响 - 论文标志着AI安全研究从“心理学时代”迈向“社会学时代”,未来需要像设计宪法一样设计API协议,像管理金融危机一样管理算力波动 [76][77] - 行业需认识到AGI可能无声无息地通过无数API调用和智能体协作悄然降临,当前任务是在这个“数字大都会”落成前,为其铺设好所有基础设施,这是一场与指数级增长赛跑的紧迫任务 [71][78][79]
AI被严重低估,AlphaGo缔造者罕见发声:2026年AI自主上岗8小时
36氪· 2025-11-04 12:11
AI能力进展评估 - AlphaGo、AlphaZero、MuZero核心作者Julian Schrittwieser指出公众对AI的认知与前沿现实存在至少一个世代的落差[1][2][3][5] - 实验室研究显示AI已能独立完成数小时的复杂任务,且能力呈现指数级增长[2][5] - 当前舆论过度关注AI出错案例,而低估其实际进展速度[5] AI任务完成能力量化指标 - METR研究机构数据显示Claude 3.7 Sonnet能在约1小时长度的软件工程任务中保持50%的成功率[6] - AI任务完成时长呈现每7个月翻倍的指数增长趋势[6][9] - 最新模型GPT-5、Claude Opus 4.1、Grok 4已突破2小时任务时长门槛[9][11] - 按此趋势预测,2026年年中模型将能连续完成8小时工作任务,2027年可能在复杂任务上超越人类专家[11][33] 跨行业应用表现 - OpenAI的GDPval研究覆盖44个职业、9大行业的1320项真实工作任务[12][19] - GPT-5在许多职业任务上已接近人类水准,Claude Opus 4.1表现甚至优于GPT-5,几乎追平行业专家[20][23] - 任务设计由平均14年经验的行业专家完成,采用盲评打分机制[19][20] - 研究涵盖法律、金融、工程、医疗、创意等多个行业,显示AI正逐步逼近甚至超越人类专业水平[20][25] 技术发展质疑与回应 - 有观点质疑将AI进展直接类比指数曲线的合理性,认为缺乏明确机制支撑[26][28] - 当前评测任务复杂度得分仅3/16,远低于现实世界7-16的混乱程度,可能高估AI实际适用性[29] - Julian承认这些提醒的合理性,但强调公众忽视已发生的增长更为危险[30][32] - 短期1-2年的趋势外推比专家预测更可靠,关键是要为可能继续的增长做好准备[31][32] 未来发展趋势预测 - 2026年底预计有模型在多个行业任务中达到人类专家平均水平[33] - 2027年后AI在垂直任务中将频繁超越专家,成为生产力主力[33] - 未来更可能呈现人机协作模式,人类作为指挥者配备数十个超强AI助手[36][40] - 这种协作模式可能带来10倍至100倍的效率提升,释放前所未有的创造力[36][37] - 科研、设计、医疗、法律、金融等几乎所有行业都将因此重组[38]
马斯克刚关注了这份AI报告
搜狐财经· 2025-09-19 04:35
算力与成本 - 前沿AI算力集群成本将超过1000亿美元 支持约10^29次FLOP训练任务 相当于2020年全球最大算力集群运行三千年 [3] - 训练算力消耗达GPT-4数千倍 电力需求达吉瓦级别(1吉瓦=1000兆瓦) [3][5] - 地理分布式部署数据中心可缓解算力压力 [18] 规模化扩展与营收 - OpenAI、Anthropic和Google DeepMind 2024年下半年营收增幅超90% 年化增长率达三倍以上 [9] - OpenAI和Anthropic预计2025年仍保持三倍以上增速 [9] - AI收入增长至数千亿美元规模 潜在经济价值达数万亿美元 [19] 数据资源 - 公开人工生成文本数据预计2027年耗尽 [5][12] - 合成数据通过推理模型实现大规模生成 有效性获验证(如AlphaZero和AlphaProof超越人类专家) [15] 算法与算力分配 - 算法效率持续提升 但未出现加速迹象 算力需求可能进一步增长 [20] - 训练与推理算力消耗规模相当 需同步扩展 推理规模扩大不会延缓训练发展 [24][27] 科学领域应用突破 - 软件工程:AI可自主修复问题 实现功能 解决复杂科学编程问题(SWE-Bench-Verified和RE-Bench基准测试) [27][30] - 数学:在AIME、USAMO等高难度竞赛表现优异 可成为研究助理完善证明草稿 [31][32] - 分子生物学:蛋白质-配体相互作用基准测试(如PoseBusters)数年内突破 生物研发AI助理即将登场 [33] - 天气预报:优于传统预测方法 需提升极端事件预测准确性并投入实际应用 [34] 电力与资本支撑 - 太阳能配合电池储能或离网天然气发电可快速提升电力输出 [17] - 千亿美元级投资合理性取决于AI提升生产力产生的经济回报 [3][19]
AI的未来,或许就藏在我们大脑的进化密码之中 | 红杉Library
红杉汇· 2025-07-24 06:29
人类大脑与AI的认知差异 - 人类大脑的认知能力如想象、计划、语言等至今仍是AI难以复制的超能力 [2] - AI之父杰弗里·辛顿认为实现类人智能需模仿大脑的计算方式 [2] - 当前AI已在部分领域(如语言处理)比肩人脑,但在心智理论、物理交互等方面仍落后 [10][14] 大脑进化的五次突破 - **第一次突破(5.5亿年前)**:原始大脑通过数百神经元实现条件反射、情感和利弊权衡 [8] - **第二次突破(脊椎动物)**:强化学习通过多巴胺量化目标可能性,赋予好奇心和复杂动作能力 [8] - **第三次突破(哺乳动物)**:新皮质带来想象力与慢思考能力,类似AI的推理模型(如OpenAI o1) [9] - **第四次突破(灵长类)**:心智理论使模仿学习和长期计划成为可能,AI目前在此领域不稳定 [9][10] - **第五次突破(人类语言)**:社会化语言系统推动文明,大语言模型已展现类似抽象理解能力 [11] AI的进化路径类比 - **K1-K2阶段**:从反射式清洁到强化学习(如试错优化家务动作) [13] - **K3阶段**:新皮质芯片实现数字孪生模拟(如预判儿童行动路径) [13] - **K4-K5阶段**:心智理论与语言能力使AI理解情感意图并沟通,但物理交互仍薄弱 [13][14] 历史突变对智能发展的启示 - 哺乳动物因恐龙灭绝获得发展契机,智能突破依赖历史偶然性 [6][15] - 蓝细菌光合作用等突变事件表明,颠覆性进步常源于冗余或非常规变化 [15][16] - 下一代AI突破可能来自非线性的能力跃迁,如因果推理或直觉感知 [18] 行业技术动态 - 强化学习提升AI格局,通过奖励过程(如围棋步骤评估)优化决策 [8] - 大语言模型已实现语言解码,但心智理论与物理动作仍是研发重点 [10][14] - 最新推理模型(如DeepSeek R1)采用系统2思维进行深度评估 [9]
我不给人做产品,给 Agent 做 | 42章经
42章经· 2025-06-29 14:48
Agent Infra市场机会 - Agent Infra被视为下一个投资热点 未来Agent数量将达到SaaS的几千倍[1][2] - 现有互联网基础设施不适合AI使用 需要为Agent重构[2] - Agent Infra市场规模巨大 类比AWS级别的机会[17] - 互联网上40%流量来自机器人 但大模型流量仅占0.1% 未来可能有10万倍增长空间[23][56] Agent与人类差异 - 交互方式:Agent通过文本和多模态后端交互 人类依赖前端界面[5] - 学习方式:Agent可同时执行任务和学习 人类无法并行[5] - 工作模式:Agent多线程并行 人类单线程按流程执行[6][7] - 责任界定:人类可负责自身行为 Agent需要安全边界[8][10] - 执行状态:Agent需保持多任务状态 人类天然不需要[8] Agent浏览器特性 - 云端化运行 持续工作不需休息[24] - 无前端界面 直接后端交互[25] - 设计反馈循环 支持自主迭代[26] - 安全机制:本地处理账号密码 不泄露给大模型[28][29] - 支持多线程任务连续性 避免资源浪费[31] Agent Infra技术架构 - 三层架构:Runtime层(浏览器内核) Agentic层(交互控制) Knowledge层(领域knowhow)[32] - Runtime层解决网页拉取和渲染 Agentic层控制AI与网页交互[33] - 必须同时构建Runtime和Agentic层才能实现完整功能[35] - Browserbase估值3亿美元 专注Runtime层[22][34] Agent Infra细分领域 - 主要环境:Coding环境(逻辑执行) Browser环境(网页交互)[37] - 工具类:身份认证 支付能力 通讯工具等可重做[38] - 场景切入:旅游Agent需CRM 搜索 支付等工具[40] - 数学环境:公式执行器 定理检索等工具[42] - 物理环境:传感器 具身智能 空间智能等[38] 市场发展阶段 - 类比22年AI Coding 当前Browser Use处于早期[44] - 全球软件开发市值3-4万亿美元 AI Coding仅100亿 增长空间大[47] - 互联网活动通过AI提升5%效率将创造巨大市场[48] - 差异化关键:深耕细分场景 抢占99.9%未开发市场[56] Agent产品设计核心 - 反馈循环设计比上下文或数据更重要[50] - 人类知识可能非必要 Agent可通过强化学习自主迭代[51][52] - AlphaProof案例:仅用+1/-1奖励机制 不参考人类解法即获奥数银牌[52] - 未来范式:Agent通过环境体验获取真实反馈 自主进化[53]
诺贝尔奖得主给你支招:AI时代年轻人该学什么 ?
老徐抓AI趋势· 2025-06-26 19:01
戴密斯·哈萨比斯的背景与成就 - 国际象棋神童:4岁学棋,13岁达到大师水平,多次成为英国少年队队长 [6] - 学术跳级:16岁考入剑桥大学计算机系,20岁毕业 [7] - 游戏创业:毕业后创立游戏公司,开发多款畅销游戏,实现财务自由 [7] - 转向AI与神经科学:认为人类大脑处理数据能力有限,希望通过AI创造"加强版大脑"加速科研 [8] - 深造神经科学:29岁攻读伦敦大学博士,研究大脑运作机制,为AI研究奠定基础 [9] - 创立DeepMind:2010年创办DeepMind,目标用AI解决复杂科学问题 [10] - AlphaGo突破:2016年AI系统击败围棋冠军李世石,2017年再胜柯洁,震惊全球 [11] - AlphaZero进化:AI从零自学围棋,3天碾压AlphaGo,展现超越人类的策略创新能力 [12] - 蛋白质革命与诺奖贡献:AlphaFold将单次蛋白质结构研究时间从数年缩短至分钟级,开源2亿个蛋白质结构数据,2024年获诺贝尔化学奖 [13] AI时代的学习与就业方向 - 基础能力重要性:AI时代更应学习编程、数学和物理等基础科学,掌握底层原理才能有效调教和定制AI工具 [15][16] - AI工具应用能力:能否将AI转化为超级助手,关键在于对底层的理解和调教能力,而非依赖AI的自动化功能 [17][18] AI高考志愿助手产品 - 产品功能:基于北大分段策略模型,结合三年录取数据,提供"冲保稳"分类推荐 [19] - 智能搜索:支持模糊搜索和场景提问(如"适合不擅长数学的专业"、"上海小语种强校") [19] - 个性化AI问答:根据省份、分数、偏好生成定制化建议,非标准化答案 [19] - 使用建议:可对比多个工具,因志愿填报为重大决策需谨慎投入 [21] AI时代的机遇与挑战 - 时代特征:AI带来大量机会,但也会淘汰未能适应技术变革的群体 [24] - 关键行动:需持续关注AI、积极拥抱技术并将其深度融入工作与学习 [25]
AI将受困于人类数据
36氪· 2025-06-16 12:34
AI发展时代划分 - 当前处于从"人类数据时代"向"经验时代"转型的关键拐点 所有大型语言模型依赖互联网文本和人工标注等"二手经验"训练 但高质量人类数据已被快速消耗殆尽 新增语料的边际价值正急剧下降 [2][5][7] - 人类数据时代特征:AI系统训练基于人类生成的文本和图像 通过预测人类下一个词进行学习 而非预测世界 该策略已接近极限 [5][6] - 经验时代特征:智能体需通过与环境实时交互生成原生数据 数据源随智能体能力提升而指数级扩张 学习方式类似婴儿探索玩具或运动员赛场决策 [6][7][10] 技术实现路径 - 强化学习框架已验证可行性:AlphaGo通过模拟移动后果产生经验学习创造性策略 AlphaProof在国际数学奥林匹克竞赛中通过操作后果预测实现突破 [8][10] - 未来技术方向:智能体需建立自生奖励信号和世界模型 发展高保真环境下的长期记忆体系 通过高并行交互提升样本效率 [3][7][11] - 持续学习算法是关键瓶颈:当前AI尚无法实现完全从经验中学习 需开发更强算法支持智能体作为世界知识的可定制接口 [11] 社会治理哲学 - 去中心化合作优于中心化控制:多元目标并存的生态系统通过分布式激励保持创新活力 类比自然界不同生物拥有差异化目标的经济体系 [12][13][16] - 合作机制是核心优势:人类通过语言和金钱实现远超其他物种的合作规模 但需建立制度防范作弊者(如战争、欺诈)同时避免中心化权威僵化 [13][14][16] - AI治理警示:限制AI发展的呼吁与控制人类社会的历史论调高度相似 应警惕基于恐惧的单一目标束缚 保持多样化追求可降低单点失效风险 [15][16] 行业演进展望 - 合成数据成为新趋势:科技公司因人类数据边际效益递减而转向合成数据领域 [2] - 里程碑案例验证路径:从AlphaGo的模拟经验到AlphaProof的现实经验 显示大型语言模型正通过API接入等方式初步进入经验时代 [10] - 长期工程属性:实现超级智能需数十年持续投入 属于马拉松式发展而非短期突破 [10]
AI将受困于人类数据
腾讯研究院· 2025-06-16 09:26
AI发展拐点:从人类数据时代迈向经验时代 - 当前大型语言模型依赖互联网文本和人工标注等"二手经验"训练,但高质量人类数据已被快速消耗殆尽,新增语料的边际价值正急剧下降 [1][7] - 模型规模继续膨胀却收效递减的"规模壁垒"现象显现,大量科技公司开始转向合成数据 [1] - 智能体必须像婴儿学习玩具、足球运动员在赛场决策那样,通过与环境交互不断生成并利用第一手经验,而非单纯模仿人类旧有文本 [1][8] 经验时代的技术特征 - 智能体需要在真实或高保真模拟环境中持续运行,用环境回馈而非人类偏好作为原生奖励信号 [2] - 发展能够长期复用的世界模型与记忆体系,并通过高并行交互大幅提升样本效率 [2] - 强化学习范例(如AlphaGo、AlphaZero)已证明从模拟经验到现实经验的演进路径 [5][12] 去中心化合作的发展哲学 - "去中心化合作"优于"中心化控制",多元目标并存的生态系统通过分布式激励与竞争协作保持创新活力 [2][16] - 让智能体和人类都保持多样化追求,能降低单点失效与僵化风险,为未来AI治理提供更具韧性的框架 [2] - 人类最大的成功是合作(如经济、市场和政府),最大的失败是合作的失败(如战争、盗窃) [16][17] AI发展的三个阶段 - 模拟时代:AlphaGo、Atari等强化学习智能体从模拟经验中学习 [12] - 人类数据时代:ChatGPT和大型语言模型依赖人类生成的数据 [12] - 经验时代:智能体通过与世界互动的经验学习,AlphaProof是早期例证 [12] 智能体的核心能力构建 - 智能体需要像婴儿那样通过感知-行动循环凭第一人称经验自我学习 [5][8] - 知识必须关于经验而非文字,智能程度取决于预测和控制输入信号(特别是奖励信号)的能力 [10] - 强化学习框架让智能体成为能够做决定、实现目标、与世界互动的一流智能体 [10]
让你的公司像大脑一样思考、连接与成长
36氪· 2025-06-09 11:51
企业预测与适应机制 - 公司成功关键在于建立准确"世界模型"并快速适应变化 而非依赖僵化流程和KPI管控 [2] - 大脑通过持续修正认知最小化意外 企业需模仿神经网络特性实现联通性、适应性和实时反馈 [2][3] - 领导者需训练组织像"超级大脑"一样减少意外、快速反应、持续进化 [4] 组织设计方法论对比 - "笨办法"依赖规章制度和KPI审批 导致组织迟钝脆弱 [5] - "聪明办法"采用神经自适应方式 拥抱变化、实时学习、持续修正 提升灵活性 [5] - 零售案例通过每日销售复盘会议发现需求下降20% 快速调整策略避免损失 [11] 共同认知构建 - 部门间"世界模型"不统一会导致决策矛盾 如市场/销售/产品部对客户需求理解分歧 [6] - 需通过领导团队协作统一客户理解、竞争格局判断和内部摩擦认知 [7] - 谷歌AlphaZero案例显示统一且可更新的世界模型对复杂环境应对至关重要 [7] 神经网络式组织设计 - 打破部门孤岛 采用四象限模型整合客户前线/运营/研发/支持 某案例转化率提升15% [10] - 分散决策权至区域层面 快消公司价格策略反应时间从30天缩至3天 市场份额增10% [12] - 医疗连锁通过单点试验将候诊时间缩短30% 推广后全国客户投诉率下降50% [13] - 电商自动化价格调整流程在供应链混乱时保持60%毛利率 优于被迫降价的竞争对手 [14] 学习型组织建设 - 建立每周战略微调机制 替代传统季度调整节奏 [11] - 将失败视为训练机会 测试广告投入产出比达5:1即快速推广至全品牌 [13] - 动态调整机制优于固定结构 通过灵活流程应对变化而非依赖审批表格 [14]
DeepMind CEO 放话:未来十年赌上视觉智能,挑战 OpenAI 语言统治地位
AI前线· 2025-04-25 08:25
Demis Hassabis的AI探索历程 - 作为AI先驱,Hassabis从小痴迷国际象棋,13岁成为国际象棋大师,这段经历塑造了他对认知过程的思考方式[6][7][8] - 2010年联合创立DeepMind,2014年被谷歌以超5亿美元收购,2017年开发出仅用4小时自对弈就能击败人类大师的AlphaZero算法[3][4] - 2024年因开发AlphaFold2蛋白质预测模型获得诺贝尔化学奖,该模型已解析2亿种蛋白质结构,覆盖190国200万用户[4][46] DeepMind技术突破与产品布局 - Project Astra是谷歌基于Gemini 2.0的多模态智能助手,能通过文本/语音/图像/视频交互,整合Google搜索/地图等核心服务[14][15][16] - Astra演示中展现出艺术鉴赏能力,能识别画作风格并创作故事,产品定位为"能看能听能交流"的具身智能系统[19][20] - 谷歌可能重启AR眼镜项目,访谈中展示了嵌入眼镜的原型设备,此前谷歌眼镜曾因隐私问题在2015年退出市场[24][42][44] AGI发展前景与行业影响 - Hassabis预测2030年可能实现AGI,届时系统将深度理解环境并融入可穿戴设备,药物研发周期有望从10年缩短至数周[14][46][51] - AI可能在未来10年内实现治愈所有疾病,AlphaFold已推动帕金森治疗和抗生素研究取得突破[46][47] - 机器人技术或迎来重大突破,但需警惕AI系统失控和恶意滥用风险,需建立全球协调的安全框架[53][55][56] AI伦理与哲学思考 - 当前AI不具备意识,但未来模型可能展现自我理解特征,需区分机器模仿与人类碳基意识的本质差异[52] - 呼吁建立AI伦理新范式,需要哲学家参与引导技术发展,平衡创新与人类价值观[49][50][57] - AI发展呈指数级增长,成功吸引大量资源与人才,但需防范技术主导权争夺导致的安全标准降低[14][56]