为什么现代 AI 能做成?Hinton 对话 Jeff Dean
36氪·2025-12-19 00:47

现代AI从实验室走向规模化的系统性复盘 - 现代AI的突破是算法、硬件、工程同时成熟后的系统性涌现,而非单点奇迹[1] - 强算法必须与强基础设施结合,才能真正走向规模化[1] 起点突破:硬件让AI从想法变成现实 - 早期算力觉醒:2012年AlexNet的成功证明了足够算力对深度学习的决定性作用,其参数比别人多十倍,算力也超出好几倍[2][3] - 早期并行计算探索:Jeff Dean在1990年就尝试用32处理器的超立方体计算机进行数据并行和模型并行训练,尽管当时因只用了10个神经元而失败[3][4] - 推理成本驱动硬件自研:2013年Jeff Dean计算发现,若1亿人每天使用语音助手3分钟,将使谷歌服务器总量翻倍,这直接推动了TPU项目的启动[5][6][8] - 专用硬件的发展:2015年第一代TPU专注于推理,其能效比同期CPU和GPU高出30-80倍;2017年TPU v2开始用于大规模训练;如今TPU已进化到第七代,Pathways系统可统一调度数万颗跨数据中心芯片[8] - 硬件生态多元化:AI基础设施呈现多元化趋势,NVIDIA GPU路线持续演进(如H100、H200、B200),支撑着OpenAI、Meta等公司的大规模训练;同时,定制芯片如Google TPU和AWS Trainium为特定需求深度优化,在能效和成本上具有独特价值[9] 系统成熟:算法、组织、工具的协同推进 - 算法架构的可扩展性:Transformer架构的突破在于将顺序处理变为并行处理,所有token同时计算,充分利用硬件并行能力。同样的准确率,Transformer使用的计算量比LSTM少10-100倍,使大规模训练从“理论可能”变为“工程可行”[10] - 组织方式的集中化:在ChatGPT发布前,谷歌内部已有技术可行的聊天机器人,但受搜索业务思维限制及内部资源分散(Brain、Research、DeepMind三个团队各自为战)未能推向市场。ChatGPT上线后,谷歌整合资源成立了Gemini团队,将算力、模型、人才集中到一个目标上[11][12] - 工程工具栈的闭环形成:JAX让研究员能用数学语言直接写代码;Pathways让数万颗TPU能被一个Python进程调度;蒸馏技术可将千亿参数模型压缩到能在手机上运行。这些工具降低了AI的准入门槛,提升了效率[13] - 三条曲线的交汇:Transformer让模型能规模化,但需要更大算力支撑;更大算力需要组织资源集中,同时催生了更好的工具;更好的工具提升训练效率,反过来支撑了更大模型的训练。三者形成闭环,缺一不可[14][15] 未来门槛:规模化后需突破的三大挑战 - 能效:规模化的物理极限:模型升级意味着消耗更多电力、时间和预算。Gemini的训练动用了上万颗TPU芯片。虽然谷歌通过自研TPU和采用FP4等超低精度格式来提升能效,但下一代推理硬件仍需在能效上再提升一个数量级[16][17] - 记忆:上下文的深度限制:当前最强模型的上下文窗口也不过几百万个token,限制了其一次性能处理的信息深度。未来的目标是让模型能覆盖数十亿甚至万亿个token,这需要算法和芯片注意力计算架构的重新设计[18][19][20] - 创造:从模仿到联想:AI在训练海量知识时,会通过压缩过程自动学习到不同事物之间的共同点或类比,这本身就是一种将遥远事物联系起来的创造力。这种能力被认为是AI下一阶段加速科学发现的关键[21][22][23] - 挑战的关联性:能效是物理成本问题,记忆是架构能力问题,创造是认知边界问题。三者相互关联:能效不突破,长上下文训练成本过高;长上下文做不到,深度联想没有基础;联想能力不行,AI就永远只是个更快的搜索引擎[24][27]