Workflow
nanoGPT
icon
搜索文档
4小时喜提专属 ChatGPT、卡帕西又整活,自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师
36氪· 2025-10-14 12:52
"这是我写过的最精神错乱的作品之一。"刚刚,特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy(安德烈·卡帕西)发布了 自己最新的开源项目,一个名为 nanochat 的存储库。截止当前,该项目已在 GitHub 破了 7.9kStar! GitHub 仓库:https://github.com/karpathy/nanochat 据介绍,和卡帕西之前那个只包含预训练功能的类似仓库 nanoGPT 不同,nanochat 是一个极简的、从零构建的全流程训练 / 推 理工具链,可用于搭建简易版 ChatGPT 复现模型,且整个代码库仅一个文件,依赖项极少。 花半天用 100 美元训练的模型, 打败了 GPT-2 "100 美元能买到的最好的 ChatGPT",卡帕西在公告中这样形容 nanochat。通过 nanochat,你只需启动一台云 GPU 服务器,运 行一个脚本,最快 4 小时后,就能在类 ChatGPT 的网页界面上与你自己训练的大语言模型(LLM)对话。 具体来说,该项目可实现以下功能: 据卡帕西介绍,即便成本低至约 100 美元(在 8 卡 H100 节点上训练约 4 ...
100美元、仅8000行代码,复现ChatGPT,Karpathy:这是我写过的最疯狂的项目
Founder Park· 2025-10-14 04:18
项目概览 - 特斯拉前AI总监、OpenAI创始成员Andrej Karpathy发布全新开源项目“nanochat”,这是一个极简但完整的“从零构建ChatGPT”训练框架 [3] - 该项目被描述为LLM101n的“压轴之作”,并可能成为未来研究基线和开源社区的实验平台 [8][16] - 项目核心理念是降低LLM研究与复现门槛,让每个人都能亲手训练自己的模型,延续了其在nanoGPT时期倡导的民主化路线 [12][22] 技术规格与成本效益 - 整个系统仅需约8000行干净代码,在一台GPU机器上运行约4小时后,即可通过网页界面与训练的“小ChatGPT”对话 [7][25][26] - 项目全程花费低至约100美元,可训练出一个能创作故事/诗歌、回答简单问题的小型ChatGPT [10][13] - 训练约12小时即可超过GPT-2的核心指标,将预算扩展到约1000美元(训练约41.6小时)后,模型能解决简单的数学/代码问题并做多项选择题 [10][11][13] 功能与性能 - nanochat涵盖从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程 [6] - 训练24小时的模型(FLOPs大致相当于GPT-3 Small 125M,约为GPT-3的1/1000)在MMLU上得分进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段 [11] - 项目实现了高效的推理引擎,带有KV缓存,支持简单的预填充/解码,工具使用(如Python解释器),并可通过CLI或类ChatGPT的网页界面交互 [12] 项目定位与影响 - nanochat被视为“LLM生态系统微缩版”,与nanoGPT构成“从神经网络基础到产品级对话系统”的两步闭环 [17][18][19][20] - 项目在放出不到12小时内,GitHub星标就突破4.2k,显示出开源社区的高度关注 [4][6] - Karpathy的目标是将完整的“强基线”技术栈整合到一个连贯、极简、可读、可修改、可最大化派生的代码仓库中 [14]
100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火,一夜近5k star
36氪· 2025-10-14 02:25
「这是我写过最疯狂的代码之一。」 本周一,AI 领域大神 Andrej Karpathy 发布了自己的最新开源项目,瞬间引来了整个社区的关注。 这个名为 nanochat 的项目据说可以教你从零开始,以 100 美元的成本自建 ChatGPT。它覆盖 LLM 的训练和推理,只要跟着学就可以了解构建大模型的所 有步骤了。 总共是 8000 行代码,在 GitHub 上放出不到 12 个小时,star 量就已经超过 4500: GitHub 链接:https://github.com/karpathy/nanochat 与 Karpathy 之前发布的 nanoGPT 仓库(只覆盖了预训练阶段)不同,nanochat 是一个从零开始实现的、极简但完整的 ChatGPT 克隆版训练 / 推理全流 程项目,所有内容都集中在一个依赖极少、结构干净的代码库中。 你只需要启动一台云 GPU 机器,运行一个脚本,大约 4 小时后就可以在 ChatGPT 风格的 Web 界面里和你自己的 LLM 聊天。 使用全新的 Rust 实现训练分词器。 在 FineWeb 数据集上预训练 Transformer LLM,并在多个指标上评 ...
100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火,一夜近5k star
机器之心· 2025-10-14 02:06
| | | 「这是我写过最疯狂的代码之一。」 本周一,AI 领域大神 Andrej Karpathy 发布了自己的最新开源项目,瞬间引来了整个社区的关注。 这个名为 nanochat 的项目据说可以教你从零开始,以 100 美元的成本自建 ChatGPT。它覆盖 LLM 的训练和推理,只要跟着学就可以了解构建大模型的所有步骤 了。 总共是 8000 行代码,在 GitHub 上放出不到 12 个小时,star 量就已经超过 4500: GitHub 链接:https://github.com/karpathy/nanochat 与 Karpathy 之前发布的 nanoGPT 仓库(只覆盖了预训练阶段)不同, nanochat 是一个从零开始实现的、极简但完整的 ChatGPT 克隆版训练 / 推理全流程项目, 所有内容都集中在一个依赖极少、结构干净的代码库中 。 你只需要启动一台云 GPU 机器,运行一个脚本,大约 4 小时后就可以在 ChatGPT 风格的 Web 界面里和你自己的 LLM 聊天。 仓库大约 8,000 行代码 ,但已经实现了以下全部功能: 使用全新的 Rust 实现训练分词器。 在 Fi ...