Workflow
算力转化
icon
搜索文档
NUS尤洋教授深度探讨智能增长的瓶颈:或许我们将这样实现AGI?
机器之心· 2025-12-31 04:09
文章核心观点 - 当前人工智能的发展已取得惊人成就,但正面临进一步增长的瓶颈[1] - 智能增长的核心矛盾在于如何将算力更有效地转化为智能,而非单纯的架构变革[6] - 现有以Transformer架构和超大算力为核心的范式,在进一步增长时难以充分消化持续增长的算力资源,导致“预训练红利递减”[6][33] - 未来突破的关键不在于工程优化,而在于底层范式的突破,以找到更高效的算力利用方式[8][42] - 尽管存在瓶颈,但通过更好的算力利用方式,人工智能的智能水平仍有巨大的发展空间,前景依然乐观[9][44] 智能的本质与现状 - 目前对于智能(AGI)尚无明确定义,其标准会随时代变化[15][16] - 智能的核心能力是预测和创作,预测未来的难度远高于解释过去[17][30] - 当前模型的智能主要来源于预训练(尤其是自监督方法),仅有少量来自微调或强化学习[20] - 预训练、微调、强化学习在计算本质上都是通过计算梯度(或其类似物)来更新模型参数[21] 当前智能增长瓶颈的根源 - 瓶颈的根源在于现有范式无法充分消化持续增长的算力[33] - 当前AI大模型的技术本质是将电力能源通过计算过程转化为可复用的智能,转化效率是关键[19] - 即使算力指数级增长,如果现有算法无法有效利用这些资源,智能提升仍将受限[7] - 衡量智能提升的根本指标是:使用同样的浮点数计算次数,能否获得一个更好的模型[34] 现有成功范式的分析 - Transformer架构能够胜出的核心原因在于其本质是一台并行计算机,完美匹配了GPU的并行计算单元[24][27] - OpenAI坚持的Next-Token Prediction损失函数,因其最小化人为干预且本质是预测未来,在实践中效果显著优于BERT的完形填空等损失函数[28][29][30] - 英伟达GPU设计的核心路线是在同样的物理空间里堆叠更多高带宽内存(HBM),这要求算法必须提供足够大的批处理量或并行度[22][23] 未来潜在的发展方向 - **硬件与基础设施层**:需要持续产生更大的绝对算力,可通过集群方式构建,核心目标是维持或提升“计算开销/通信开销”的比值[36][41] - **计算精度**:探索更高精度(如FP32、FP64)的计算能力,理论上应能带来更可靠的计算结果和智能提升[45] - **优化器**:采用更高阶的优化器,理论上能在学习过程中为模型提供更好的指导,计算出更优的梯度[45] - **模型架构与损失函数**:需要扩展性更好的架构或损失函数,以更高效地整合和利用算力[45] - **训练策略**:在参数与数据匹配的前提下,探索更多的训练轮次和更优的超参数,以“吃下”更多能源并转化为智能[45] - **并行计算**:通过增加模型每层的参数量(Tensor Parallelism)和序列长度(Sequence Parallelism)来提高并行度,从而利用更多算力[37] 对未来的展望 - 智能增长归根结底是算力利用问题,随着问题规模的不断扩大,行业终将找到更高效的算力使用方式[42][44] - 预训练可能才刚刚开始,大模型智能仍有巨大的发展空间[9] - 人工智能发展的历史经验表明,依托计算能力的通用方法最终将占据压倒性优势[44]