Model Distillation
搜索文档
AI到顶了?OpenAI首席科学家否认,行业从堆算力转向追求智能密度
36氪· 2025-12-01 00:15
AI发展态势与核心观点 - AI发展并未减速,而是沿着稳定持续的指数级曲线加速前进,外界感受到的“停滞”源于突破形态的改变,行业从一味做大模型转向构建更聪明、更能思考的模型 [1] - 技术进步总体呈平稳的指数级提升,来源于新发现、算力提升和更好的工程实现,语言模型发展呈S型曲线,预训练处于S曲线上段,扩展定律并未失效 [3] - 新的推理范式处于S曲线下部,在相同成本下能获得比预训练更多的收益,因为还有大量发现待释放 [4] 技术范式演进:从预训练到推理模型 - 预训练依然关键但已不再是唯一引擎,推理模型的出现像是给基础模型加了“第二大脑”,让模型学会推导、验证与自我纠错,而不仅是预测下一个词 [1] - 推理模型在给出最终答案前会形成“思考链条”,并能借助外部工具理清思路,其学习重点是“如何思考”本身,目标是找到更优的推理路径,训练方式从预测下一个词转向强化学习 [8] - 模型通过强化学习训练,学会质疑自己的输出,在觉得可能出错时会重新思考,这种自我验证的能力是从强化学习中自然涌现的 [12] - 从ChatGPT 3.5到当下,核心变化在于模型不再仅依赖记忆权重输出答案,而是能查网页、推理分析后给出正确答案 [5] 模型能力现状与不均衡性 - AI的“智能地形图”极不均匀,最强模型能攻克奥数难题却可能在儿童拼图里数不清物体,能写出超越专业程序员的代码却仍会误判照片的空间关系 [1] - 推理训练主要依赖科学领域数据,远不如预训练的数据广泛,导致模型能力很不均衡,某些方面极其出色但相邻领域却表现不佳 [22] - 多模态能力发展面临挑战,模型在处理图像和声音方面远不如处理文本成熟,视觉任务的基础识别不够稳健,跨模态的语义对齐是核心难题 [6][24] - 模型能解出数学奥赛题,却可能做不出一年级的数学题,而人类只需十秒就能解决,暴露了推理模型在将文本中学到的思维链策略自动迁移到视觉输入上的根本局限 [22][24] 工程挑战与优化方向 - 大量明显需要改进的地方属于工程层面问题,包括实验室基础设施和代码优化、训练方法中强化学习比预训练更棘手、数据质量是瓶颈 [6] - 数据质量是瓶颈,过去使用Common Crawl等互联网原始数据仓库需大量清洗工作,如今大公司设有专门团队提升数据质量,合成数据正在兴起但工程实现细节非常重要 [6] - 多模态推理的改进方向明确,但要取得实质突破可能需要从头开始训练新一代基础模型,这意味着数月时间和巨额资源的投入 [6] - 当前讨论的问题包括多模态推理都是可解的工程挑战而非根本性理论障碍,推理模型的“锯齿状”能力曲线会随着训练和蒸馏逐渐减小 [25] 成本效率与商业化现实 - 面对上亿级用户,成本效率已压过算力堆叠,模型蒸馏从“可选项”变为“必需品”,能否让小模型复现大模型的智慧决定了AI能否真正普及 [1] - ChatGPT拥有十亿用户,每天产生海量对话需求,需要大量GPU资源支撑,用户不愿意为每次对话支付过高费用,迫使公司开发更经济的小模型 [17] - 技术产品化后必须考虑成本,行业不再只追求最大模型,而是努力用更小更便宜的模型提供同等质量,这种降本增效的压力非常现实 [17] - 蒸馏技术重新受到重视,通过将大模型的知识提炼到小模型中,既能保证质量又能控制成本,训练超大模型仍然是蒸馏优质小模型的基础 [17] 研究资源分配与内部组织 - GPU分配主要基于技术需求,目前预训练消耗的GPU最多,资源优先分配给它,强化学习和视频模型对GPU的需求也在快速增长 [15] - 大多数实验室都在做类似工作,如改进多模态模型、提升推理能力、优化预训练或基础设施,通常有专门团队负责这些方向,人员会流动 [15] - 预训练在技术上已进入平稳发展期,投入更多算力仍能提升效果,虽然回报不如推理技术显著,但确实能增强模型能力,值得持续投入 [16] 未来发展方向与突破领域 - 多模态推理正在成熟,当AI能同时理解图像和语言,就会真正赋能机器人和科研领域,它不再只是猜测文字,而是开始在脑子里模拟真实世界的运作逻辑 [29] - 科学领域可能最先被颠覆,语言模型不再只分析数据,而是能主动提出猜想、设计实验、解读结果,到2026年底可能会在顶级期刊上看到第一篇由AI提出核心假设、人类主要做验证的论文 [29] - “自主研究”正在模糊训练和推理的边界,模型能主动设计实验、写代码、分析结果,甚至生成自己的训练数据,形成自我提升的循环 [28] - 真正的AGI里程碑是模型能自主发现新算法,而不只是完成现有任务,这需要强化学习能支持“探索未知”,而不仅限于可验证的任务 [28]
深度|Google首席科学家Jeff Dean对话Transformer发明者:基于自回归的下一词预测方式并非人类学习的最佳模拟
Z Potentials· 2025-03-16 03:54
文章核心观点 文章围绕谷歌AI发展展开,探讨了谷歌早期语言模型探索、硬件与算法对模型的影响、AI自动化未来、训练与推理现状及期望、分布式训练与异步、引导AI可控发展、AI模型未来计算需求、混合专家模型处理能力等内容,强调要主动塑造AI发展方向,确保其符合人类社会长期利益,同时需应对计算需求增长、模型优化、安全可控等挑战 [9][91] Google早期在语言模型上的探索 - Jeff Dean和Noam Shazeer是谷歌DeepMind Gemini项目共同负责人,Jeff是谷歌首席科学家,参与众多变革性系统开发,Noam是现代大语言模型主要架构和技术发明者或共同发明者 [2][3] - 随着谷歌规模扩大,两人逐渐无法掌握公司所有细节,但保持对公司动态高层次了解很重要,建立社交网络有助于获取信息 [4] - Jeff主动联系加入谷歌,Noam 2000年因谷歌是喜欢的搜索引擎且有很多聪明人解决有趣问题而冲动加入,原本计划赚钱后继续AI研究 [6] 从这一代模型到下一代模型的改进因素 - 模型改进由硬件和更大规模驱动,也受重大算法改进、模型架构重大变化、训练数据组合等因素驱动,这些因素使模型计算运算更有效 [9][49] - 人类需主动塑造AI发展方向,确保其进步符合人类社会长期利益,预训练阶段需更先进学习技术,目前训练目标可能未充分利用输入token最大价值 [9] 摩尔定律对系统设计的影响 - 过去几十年硬件变化大,二十年前到十年前硬件每18个月变快,近年通用CPU扩展不显著,制造工艺改进需三年,多核处理器架构改进推动力减弱,但专用计算设备如机器学习加速器、TPU和GPU带来高性能和效率 [11] - 算法跟随硬件,现在算术运算便宜,数据传输成本更高,深度学习基于此起飞,硬件转型使谷歌建设适合深度学习的TPU [11] - 芯片算术单元数量少,但装满单元可提高运算量,算法和数据流需相应调整,算术运算可低精度以装入更多乘法器单元 [12][13] 未来版本TPU的权衡 - 普遍趋势是在量化或采用更低精度模型方面更优秀,从TPUv1开始尝试八位整数量化和模型服务,现在INT4或FP4成常态,甚至有人将模型量化到两位或一位 [18] - 量化需算法设计师和芯片设计师共同设计,虽令人不快但可提升性能和吞吐量,使模型更快 [19][20] 早期模型开发过程 - Jeff 1990年本科论文在32位处理器的Hypercube机器上实现模型并行性和数据并行性,2007年为谷歌机器翻译团队设计N - gram数据的内存压缩表示,将翻译句子时间从12小时缩短到100毫秒 [20] - 当时谷歌机器翻译团队参加DARPA比赛获胜但因翻译时间长无法上线,Jeff花两到三个月与团队设计内存压缩表示,使用五元组统计单词序列频率,构建数据结构并设计批量API [22] AI系统与谷歌使命 - AI是找到信息之间关系的工具,帮助更快获取信息,谷歌是“组织世界信息”的公司,多模态能力表明传递信息不仅是文本,还包括理解世界各种信息模式 [36][37] - 组织信息是巨大机会,当系统能为用户做事时可创造更多价值,需在提升模型能力同时保持灵活和动态 [37] 谷歌搜索与上下文学习结合 - 语言模型有时会出现幻觉和事实问题,因将大量token凝聚在有限参数中,而上下文窗口信息清晰,目前有能处理数百万token上下文的模型,若能关注数万亿个token将很棒,但面临计算挑战,需近似算法 [37][38] - 模型参数在记住事实方面节省内存,在上下文token处理上有很多创新,包括最小化内存占用和更好访问信息 [38][39] AI自动化的未来 - AI编码模型可提高软件开发人员生产力,如外部某人试用实验性编码模型,下达命令后它能生成SQL解析器等初步结果,未来可能有更多类型系统,需管理工作流程 [43] - 未来工作可能和现在相似,人与人之间并行化和机器之间并行化类似,大量计算能力有助于探索新突破,尝试更多想法可能发现惊人成果 [44] - 从这一代模型到下一代模型改进受多种因素驱动,若能自动化探索想法,可验证更多想法并引入实际生产训练,提高效率,但最大规模实验仍需人工参与 [49][50] - 加速芯片设计过程可缩短设计时间,采用自动化搜索过程探索芯片设计空间,获取反馈,使硬件设计更专业化,缩短时间框架 [53] 训练与推理:现状与期望 - 人工智能发展可能在接近人类智能水平时能力迅速爆发,目前模型处理复杂问题分解步骤有限,若能提升复杂问题准确率将是巨大飞跃 [59] - 不久的将来推理时间计算效率将显著提升,与语言模型对话成本低,增加计算能力可使其更智能,推理时采用“更努力思考”方法将是爆发点 [61] - 推理时希望系统主动探索多种潜在解决方案,有调节器可权衡计算成本和结果质量,目前有技术实现,还可决定使用计算器工具 [61][62][63] - 目前正在解决推理时间的算法问题,设计新算法、尝试新方法、找出最佳计算效率是关键,搜索是增加推理时间的一部分 [64][65] - 推理时间计算日益重要,可能需要更专门化硬件,第一代TPU专为推理设计,后续TPU兼顾训练和推理 [66] - 推理存在用户界面问题,如异步任务获取信息和放回后台继续进行的流程,推理计算效率与训练不同,有提高推理效率的方法如使用草稿模型 [68][69] 分布式训练与异步 - 支持多数据中心训练,Gemini 1.5技术报道中使用多个大都市区域训练,训练中长延迟和高带宽连接可行,关键是带宽 [74] - 早期使用CPU机器时进行异步训练帮助扩展,每个模型副本本地计算并发送梯度更新,虽使模型参数摆动但实践可行,TPU集群运行更愉快 [77] - 可记录操作顺序使异步训练结果可重复,从CPU异步训练转向完全同步训练是因TPU硬件芯片和集群及数据中心网络优势,未来可能推动更多异步化 [80][81] - 调试模型表现时,小规模实验进行大量试验,建立基准测试,集成阶段观察改进能否协同工作,不同改进可能存在交互效应,需运行实验验证 [83][84] 引导AI可控发展 - AI发展有渐进和指数级增长两种观点,指数级增长可能使AI在短时间内从“优秀的机器学习研究员”进化为“超人级智能”,需重新思考管理AI智能水平和确保其可控安全 [87] - AI能力将质的飞跃,可在教育和医疗等领域发挥重要作用,但也可能带来负面影响,如制造传播虚假信息、自动化黑客攻击,需确保其安全性和可靠性 [88][89] - 人类需主动塑造AI发展方向,结合政策、技术和安全防护机制引导其部署,确保在关键领域带来社会效益,避免失控 [91][92] - 语言模型分析自身输出内容的能力是解决控制问题的关键,构建可靠安全机制对技术和商业都重要 [93] - 让AI探索算法和研究新想法需人类主导,设置安全防护机制,确保AI可控,利用AI检查自身及其他系统输出,建立限制防止其被滥用 [96][97] AI模型未来的计算需求 - 到2030年,推理计算需求可能比今天增长4 - 6个数量级,原因包括推理计算需求指数级增长、AI服务全球普及、AI模型规模持续扩大,需极高效推理硬件 [99][100] - 未来人们可能愿意花费全球GDP一部分投资AI计算能力,AI系统形态会不同,如个人助理式AI或领导人智能顾问,计算规模将极其庞大 [101][102] - Google持续投资数据中心建设,构建创新性硬件提升AI训练和推理能力,使AI服务更多用户 [103] - 持续学习理论上可行,但存在关键挑战,稀疏模型和混合专家模型可提高推理能力和效率,但当前方法有局限性,未来模型应更有机,允许不同部分独立发展 [103][104] - 让特定领域研究者独立训练模块化子模型并集成到主模型中是更理想方案,可使AI更灵活可扩展,带来软件工程优势,也是持续学习的一种形式 [105] - 可采用版本化的模块化系统,如冻结模型版本,引入不同变体模块进行训练和比较,具有更快研究进展、更低计算成本、更高并行性等优势 [106] - 模型蒸馏可实现现有模型在架构层面转换,持续蒸馏与进化、并行化学习可推动模型自我优化 [107] 混合专家模型的处理能力 - Jeff认为早期混合专家论文里专家模型行为相对容易理解,如某个专家处理特定类型词汇,使用1000 - 2000个专家时模式仍易解读 [108] - 运行时系统可通过学习到的路由器自动选择合适专家,确保推理高效准确,提高计算效率和系统灵活性 [109] - 模型可解释性研究有成果,如Anthropic的研究推断出特定神经元功能,专家级可解释性是更广泛研究领域的子问题,但精细级可解释性并非必需 [109][110] - 现有混合专家模型推理时整个模型需保持在内存中,采用大批量推理优化计算效率,未来专家计算成本和计算路径深度可能不同,需异步处理数据流 [110][111] - 未来AI训练可能集中在少数超大规模公司,因只有它们有能力运营大规模、分布式、异步的MoE体系,系统应根据推理负载特征自动优化资源分配 [112][113]