项目概述 - 特斯拉前AI总监Andrej Karpathy发布了一个名为nanochat的极简开源项目,用于从零构建全流程的大语言模型训练和推理工具链 [1] - 该项目在GitHub上已获得7.9k星标,整个代码库仅一个文件,依赖项极少 [1] - 项目目标是为LLM101n课程提供核心项目,并有望发展成为研究工具框架或基准测试工具 [6] 成本与性能 - 使用nanochat,仅需约100美元成本(在8卡H100节点上训练约4小时)即可训练出可对话的简易版ChatGPT复现模型 [2] - 训练约12小时后,模型性能可超过GPT-2的CORE指标 [2] - 将成本提升至约1000美元(训练约41.6小时),模型的连贯性会显著提升,能够解决简单的数学题和代码任务 [3] - 一个深度为30的模型训练24小时后,在MMLU数据集上可取得40多分,在ARC-Easy数据集上可取得70多分,在GSM8K数据集上可取得20多分 [3] 技术实现与架构 - 项目总共约8000行代码,完全由Karpathy手写完成,代码结构清晰 [7] - 模型架构整体类似Llama模型,采用稠密Transformer结构,使用旋转位置编码和QK归一化 [7][8] - 优化器采用Muon+AdamW组合,未来计划尝试移除对Muon的依赖 [9] - 实现高效推理引擎,支持KV缓存、工具使用(如Python解释器),并提供命令行和网页两种交互界面 [4] 功能与评估 - nanochat提供从预训练、中期训练到指令微调和强化学习的完整流程 [4] - 项目可自动生成Markdown格式的"报告卡",以游戏化方式总结各项指标 [4] - 评估指标涵盖CORE、ARC-Challenge、GSM8K、HumanEval、MMLU等多个数据集,并展示了模型在不同训练阶段的性能变化 [5] 社区影响与潜在应用 - 该项目被社区认为将对机器学习学习者和科研人员产生深远影响,降低了训练大语言模型的门槛 [10] - 有观点认为,此类工具可能削弱像Anthropic、OpenAI这类公司在技术上的优势,使更多工程师能够训练出强大的大语言模型 [10] - 项目为科研人员提供了现成的工具流程,使改进大语言模型的想法更容易从空想变为可实施的实验 [10]
4小时喜提专属 ChatGPT、卡帕西又整活,自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师
36氪·2025-10-14 12:52