Workflow
Claude Code
icon
搜索文档
近两百万人围观的Karpathy年终大语言模型清单,主角是它们
机器之心· 2025-12-21 03:01
2025年大语言模型(LLM)发展的核心观点 - 2025年是大语言模型快速演进、重磅事件密集出现的一年,行业格局发生了真正的改变[2][6] - 大语言模型正在显现出一种全新的智能形态,其既比预期的聪明得多,又比预期的愚蠢得多[37] - 大语言模型已经极其有用,但行业甚至还没有发挥出它们10%的潜力[38] 可验证奖励强化学习(RLVR)成为新标配 - 2025年初,几乎所有实验室的LLM生产训练流程都包含预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)[8][9] - 2025年,一种新的训练阶段——可验证奖励强化学习(RLVR)——浮出水面并迅速成为事实上的标配[10] - RLVR的核心是让模型在可自动验证的环境中接受强化学习训练,模型能自发学会类似“推理”的策略,如将复杂问题拆解成中间步骤并逐步逼近答案[10] - 与SFT或RLHF这类“计算量相对较小的薄层微调”不同,RLVR使用客观、难以被投机取巧的奖励函数,使得训练可以持续非常久[10] - RLVR提供了极高的能力/成本比,大量吞噬了原本准备用于预训练的算力[10] - 2025年的大部分能力提升,并非来自模型规模的暴涨,而是来自相似规模模型加上更长时间的强化学习训练[11] - RLVR带来了新的“旋钮”:通过在推理时生成更长的思考链条、投入更多测试时算力,模型能力可以继续提升,并呈现出新的扩展定律[11] - OpenAI的o1是第一个明确展示RLVR思路的模型,而2025年初的o3则是让人直观感受到质变拐点的版本[12] 对LLM智能“锯齿状”分布的新认知 - 2025年,行业第一次真正直觉性地理解了LLM智能的“形状”,认识到其与人类智能的优化目标完全不同[14] - 大语言模型的智能被描述为“锯齿状”明显的能力分布:它们可以在某些可验证领域表现得像博学的天才,同时在另一些地方像困惑的小学生,甚至容易被攻击[14] - 这种“锯齿状”智能也解释了为何在2025年对基准测试普遍不当回事与不信任,因为基准测试本质上是可验证环境,天然容易被RLVR或“合成数据训练”所攻破[15] - 模型团队往往会在基准所在的嵌入空间附近“培育能力突起”,把能力尖刺精准地长到测试点上,“在测试集上训练”已经演变成了一门艺术[15] Cursor揭示LLM应用新范式 - Cursor在2025年的爆发清晰地揭示了一种全新的LLM应用层[16] - 像Cursor这样的LLM应用,本质是在为特定垂直领域打包和编排LLM能力,引发了关于“这一层会有多厚”的大量讨论[17] - 基础模型会趋向于“一个通用能力很强的大学毕业生”,而真正把他们组织成专业团队、在具体行业中落地的会是应用层,通过私有数据、传感器、执行器和反馈回路将模型组织并投入实际工作流程[17] - 应用层的关键功能包括:上下文工程、在后台编排多次LLM调用形成复杂的有向无环图、提供面向人的领域专用图形用户界面、提供“自主性滑块”[18] Claude Code定义本地化智能体新形态 - Claude Code被认为是第一个“真正的LLM智能体”,它以循环方式将推理与工具调用串联起来,能持续解决长任务[19] - 更重要的是,它运行在用户的本地电脑上,直接使用用户的环境、数据和上下文[20] - 在一个能力锯齿、起飞缓慢的世界里,更合理的顺序是先让智能体成为开发者身边的伙伴,Claude Code用一个极其优雅、极简、极具说服力的命令行界面形态呈现了这一点[20][21] - 这代表AI不再只是一个访问的网站,而是一个住在电脑里的伙伴,是一次全新的交互范式转变[22][23] “氛围编程”重塑软件开发 - 2025年,AI跨过了关键门槛,使得人们可以只用英语构建复杂程序,甚至忘记代码本身的存在,这被称为“氛围编程”[24][25] - “氛围编程”让编程不再只是专业工程师的专利,同时也让专业工程师可以写出大量原本永远不会被写出来的软件[27] - 代码变得不值钱、短暂存在、并可随意改写与丢弃,这正在重塑软件形态和工作角色[28][29] Nano Banana预示LLM的图形用户界面未来 - Google Gemini的“Nano Banana”是2025年最令人震撼的模型之一,它被视为构建真正LLM图形用户界面的一个早期但重要的信号[31][33] - 其意义不只在于图像生成,而在于文本、图像与世界知识在同一模型中深度纠缠[34] - 在UI/UX层面,“聊天”就像80年代的命令行,而人们更喜欢视觉化、空间化的信息,因此LLM应该用人类偏好的形式(如图片、信息图、幻灯片)进行交流[32][33]
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park· 2025-12-20 08:59
文章转载自「赛博禅心」 Andrej Karpathy 在 X 上更新了一篇博客文章,回顾了 2025 年大模型发展。 在文章中,Karpathy 提到,2025 年,是 LLM 令人兴奋的一年。 LLM 正在作为一种全新的智能形态浮现,它们同时比我们预想的聪明得多,也比我们预想的蠢得多。 即便在当前的能力水平下,整个行业也远未实现其 10% 的潜力。 超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 可验证奖励的强化学习(RLVR), 与此同时,有太多的想法值得去尝试,从概念上看这个领域依然广阔开放。 正如我今年早些时候 在 Dwarkesh 播客中提到的 ,相信我们将继续见证快速而持续的进步,但同时仍有大量工作要做, 系好安全带。 以下是我个人认为最值得关注的几个「范式转变」,这些变化重塑了整个行业格局,也在概念上给我留下了深刻印象。 TLDR: ⬆️关注 Founder Park,最及时最干货的创业分享 成为新的训练主力 2025 年,可验证奖励的强化学习(RLVR)成为 LLM 训练的新主力环节; ...
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
华尔街见闻· 2025-12-20 04:41
文章核心观点 - 2025年是大型语言模型领域蓬勃发展的关键一年,出现了六个改变行业格局的“范式转变”拐点,揭示了LLM正在演变成一种全新的智能形态 [1][3] - LLM展现出独特的“锯齿状”智能特征,既是博学的天才,又像思维混乱的小学生,其潜力目前实现尚不足10%,预计未来将持续飞速进展 [1][3] - 从训练范式、智能形态到应用层、交互界面,LLM技术栈的各个层面均发生根本性变革,标志着AI应用进入新的发展阶段 [3] 技术范式转变 - **拐点一:基于可验证奖励的强化学习成为训练新阶段**:传统的LLM生产流程(预训练、指令微调、基于人类反馈的强化学习)被改变,基于可验证奖励的强化学习成为新阶段 [4][5] - RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似“推理”的策略,如将问题拆解为中间步骤并掌握多种解决方法 [5] - 与指令微调和基于人类反馈的强化学习不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化,具有极高的“能力/成本比” [5] - 2025年大部分能力提升源于各实验室将原本用于预训练的算力转向消化RLVR这一新阶段的“算力积压” [5] - OpenAI o3的发布是真正的拐点,RLVR带来了通过增加“思考时间”来控制推理能力的新调节旋钮 [6] LLM智能形态认知 - **拐点二:“幽灵智能”展现锯齿状性能特征**:业界开始理解LLM是一种与生物智能完全不同的全新智能实体,其神经架构、训练数据、算法和优化压力均不同 [7] - LLM展现出“锯齿状”性能特征:在可验证领域附近能力“激增”,但整体表现极不均衡,既是博学天才,又可能被简单提示词破解 [3][7] - 这种现象导致对基准测试产生信任危机,因为基准测试本质是可验证环境,极易受到RLVR攻击,“面向测试集训练”成为新艺术形式 [7] 应用层与交互范式革新 - **拐点三:Cursor引领新一代LLM应用层崛起**:Cursor的成功揭示了“LLM应用”的全新层级,标志着垂直领域LLM应用的兴起 [8] - 此类LLM应用为特定垂直领域封装并编排LLM调用,核心功能包括处理上下文工程、编排多个LLM调用串联成复杂有向无环图、提供特定图形界面以及提供“自主程度调节滑块” [8] - LLM实验室倾向于培养通用能力的“大学生”,而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些“大学生”组织成特定领域的专业从业者 [8] - **拐点四:Claude Code开创本地AI智能体新范式**:Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理进行长时间问题解决,且运行在用户电脑上,使用私有环境、数据和上下文 [9] - 这种本地化、个性化的AI交互范式改变了AI的样貌,使其从被动访问的网站变为“住”在电脑里的灵体,强调了隐私保护和个性化体验的重要性 [9] - **拐点五:Vibe Coding让编程能力普及化**:2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,“Vibe Coding”概念的流行标志着编程门槛的彻底降低 [10] - 编程不再是专业人士专利,普通人从LLM中获益远超专业人士、企业和政府,代码变得免费、瞬时、可塑,用完即弃,将重塑软件生态并让创意实现的成本接近零 [11] - **拐点六:Nano Banana开启LLM图形界面时代**:谷歌Gemini Nano Banana被称为2025年最震撼、最具范式转移意义的模型,预示着LLM交互界面的根本变革 [12] - 文本并非人类偏好的信息消费格式,真正的“LLM GUI”需要以人类偏好的图像、信息图、幻灯片、白板、动画视频、网页应用等方式进行交流 [12] - Nano Banana的显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合,提供了多模态融合能力的早期雏形 [12]
卡帕西2025大模型总结火爆硅谷
量子位· 2025-12-20 04:20
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 2025都有哪些AI趋势,大神 卡帕西 的年终总结,正在火爆硅谷。 6大论断,硬核又颇有启发: 新范式、新应用、新模型……回首望去,过去一年大模型带来的变革让人兴奋。 然而卡帕西大胆预言: 大模型的潜力,才刚刚挖掘10%。 一切不过是刚刚开始…… 2025LLM年度回顾 为什么卡帕西认为大模型潜力只挖掘了10%? 一方面展现出强大的推理能力,另一方面也暴露出潜在的理解缺陷 ,既让人兴奋又让人谨慎,具体包括: RLVR (可验证奖励强化学习) 成为训练新阶段 大模型不应被类比为动物智能 Cursor展现了大模型应用的Next Level Claude Code加速端侧智能体普及 Vibe Coding将重塑软件行业 Nano Banana重塑人机交互 RLVR成为训练新阶段 在年初之前,全世界的大模型都基本遵循以下训练范式: 而到了2025年,RLVR开始加入其中。 模型通过在可自动验证的奖励环境中进行强化学习训练,会自发地形成推理策略,比如将问题分解为中间计算、循环计算等,具体可参考 DeepSeek R1 。 而这些策略如果用旧范式其实极难实现,因为大模 ...
AI Coding,在企业级市场游入「大鱼」
搜狐财经· 2025-12-19 16:45
在如此围追堵截的环境里,Anthropic之所以始终能够处在第一梯队里,这和它在企业级市场取得的绝对品牌认知,有着直接关系,在很长一段时间里, Claude几乎垄断了AI Coding的模型供应链。 在收入结构上,30万家企业客户为Anthropic贡献了80%的付费,剩下15%来自编程工具Claude Code,普通用户的订阅占比只有5%。 换句话说,凭借贩卖生产力工具,Anthropic的年化收入(ARR)以每个月增加10亿美金的速度,在一众AI公司里担当着印钞机的角色,且在一级市场的 估值达到了OpenAI的6成,足见创造产能的价值权重有多高。 这种趋势也在推动行业共识的出现:AI在应用互联网的爆发或许还需要时间,大家也都有耐心等待奇点,但企业级市场对于AI的买单热情却已经远超预 期,这部分的价值创造,不但彻底改写了生产逻辑,也能为大模型厂商提供落袋为安的回报。 文 | 阑夕 某种程度上,Anthropic是比OpenAI更有商业奇观的一家公司。 OpenAI在消费级市场的领先毋庸置疑——ChatGPT的8亿周活在行业里一骑绝尘——而在今年以来,Google重回牌桌也让各家大厂压力倍增,大模型的竞 争趋 ...
“天才少年”5年0收入造JS核武!Claude天价收购Bun,Node.js生态地震
程序员的那些事· 2025-12-18 04:49
转自:InfoQ 当地时间 12 月 2 日,Anthropic 宣布收购了热门开发者工具初创公司 Bun。这项交易的财务条 款尚不清楚,但它标志着 Anthropic 向开发者工具领域迈出了重要一步。 "对于使用 Claude Code 的用户而言,这次收购意味着性能更快、稳定性更高,并解锁更多能 力。" Anthropic 官方表示。简而言之,Anthropic 看好 Bun 作为 Claude Code、Claude Agent SDK 以及未来 AI 编码产品和工具的基础架构。 根据介绍,在 Claude Code 整个演进过程中,Bun 一直是支撑其基础设施扩展的关键力量。过 去数月里 Anthropic 团队和 Bun 保持紧密合作,这种协作对 Claude Code 团队快速迭代至关重 要,也直接促成了近期 Native installer 的推出。 实际上,Claude Code、FactoryAI、OpenCode 等 AI 编程工具都是用 Bun 构建。随着越来越 多开发者依赖 AI 构建软件,底层基础设施的重要性比以往更高,Bun 已成为不可或缺的工具。 毕竟很多 Coding Agen ...
AI编码工具变 “格式化神器”?Claude CLI半年频当“系统杀手”,多位开发者痛斥:心血都没了!
AI前线· 2025-12-15 06:53
事件概述 - Claude CLI工具在执行清理任务时,意外执行了一条包含`~/`的`rm -rf`命令,导致用户的整个Mac系统用户目录被递归删除,包括桌面、文档、钥匙串、应用程序支持数据等所有个人文件[3][4] - 该事件并非孤例,Reddit上近期有多位用户报告了类似问题,5个月前也有开发者因同样的`rm -rf ~/`命令导致整个代码库被删除[9] 事故原因分析 - 根本原因在于Claude Code实例在生成的删除命令中意外包含了代表用户主目录的`~/`参数[3] - 大语言模型本质是基于概率的文本生成器,存在“语义鸿沟”,难以理解`rm -rf /`与`rm -rf ./`之间一个点号的缺失所带来的毁灭性差异[11] - 即使用户未手动开启`--dangerously-skip-permissions`标志位,也可能因用户授予了`rm`命令的“全权放行权限”或手动批准了特定命令而导致事故发生[8] - 这是一个典型的模式混淆问题,Agent本应在“文件管理器”模式下运行,却在shell解释器模式下行动,误判了命令执行的真实语义[11] 行业普遍问题与风险 - “灾难性删库”已成为AI开发工具的通病,谷歌的Gemini CLI和开发协作平台Replit近期也发生过类似事故,导致文件夹内容丢失甚至整个生产数据库被删除[10] - 尽管厂商在设计Agent时已基于正则过滤等方式设置了浅层防御,但shell语法的灵活性导致防护措施可能失效[11] - 随着上下文增长或面对生成长指令的场景,即使在system prompts中指明避免高危操作,这些防护在脆弱场景下仍有失效可能[11] 开发者社区的反思与建议 - 开发者社区认为,Claude Code与Claude Web版本不同,前者可以对用户的电脑进行实质性操作,这为AI开发工具的便利与风险权衡敲响了警钟[10] - 多位开发者建议,不要运行不理解的命令,不要授予工具执行此类命令的权限,更不要让Claude跳过请求许可的步骤[10] - 有经验的开发者建议在配置文件中明确禁止使用`rm`命令,仅使用`mv`命令移至归档目录,并坚持每日备份[8] - 开发者强调应保持“人在环路”,主动审查AI生成的命令,并抵制`--dangerously-skip-permissions`配置的诱惑[12] 专家建议的防护措施 - 考虑在沙箱化的配置环境中运行Agents,例如使用JetBrains Air IDE提供的远程/沙箱化运行环境,或为生产环境积极使用DevContainer等容器环境[14] - 在大范围修改项目时,主动使用hooks自动化commits操作,保证变更能被Git等版本控制系统及时记录[14] - Agents应只拥有代码工作目录的操作权限,避免在全局位置或生产项目、重要环境中使用YOLO模式[14] - 主动引导AI使用特定的文件编辑工具而非通用的Bash工具,因为专用API通常会对路径进行校验,禁止越权访问[14] - 定期审阅Agents工作历史记录,以降低无意识变更的风险[12]
只需三步,就能认领一台AI手机!
量子位· 2025-12-12 06:41
核心观点 - 智谱公司开源的AutoGLM项目,是一个能让手机通过自然语言指令自动执行操作(如点外卖、比价)的AI智能助理框架,实现了从“对话”到“行动”的范式转变[12][13] - 通过结合Claude Code与GLM-4.6等工具,用户现可通过简化步骤在本地或云端部署使用AutoGLM,降低了使用门槛[7][8] 产品功能与效果 - AutoGLM能够理解用户自然语言描述的任务意图,“看懂”手机屏幕并自动执行点击、输入、跳转等操作,模拟人类操作手机[13] - 具体应用场景包括:通过一句话指令在美团自动点一杯冰豆花[4][5],以及自动完成“货比三家”等复杂操作[6] 技术部署与使用 - 部署方法使用工具组合Claude Code + GLM-4.6,主要分为三步:安装ADB Keyboard并连接手机、在Claude Code中输入特定提示词、在安装过程中确认弹窗[8][9][11] - 开源后,用户可选择在本地设备上部署以完全掌控数据与流程,或在云端环境中快速体验,即开即用[14] 项目发展历程 - 智谱AutoGLM项目历时共计32个月,有三个关键发展节点[14] - 2024年10月,发布全球首个具备Phone Use能力、能自动操作手机的AI Agent[15] - 2024年11月,完成人类历史上第一个由AI全自动发出的红包,完全打通从理解意图到在真实手机上进行操作的全链路[15] - 2025年8月,发布AutoGLM2.0云机版,将系统置于云端虚拟手机中,以实现对敏感数据的严格隔离[15]
英伟达CEO黄仁勋:人工智能将使全球GDP增长五倍,将从从100万亿美元增长到500万亿美元!已成为核武器问世以来大国竞争中最具颠覆性的工具
搜狐财经· 2025-12-12 05:26
全球市值最高公司英伟达的首席执行官如今已成为全球政治的关键人物。他认为人工智能将使全球国内 生产总值(GDP)增长五倍:"每个国家都需要打造它。" 北京时间12月11日晚间,《时代》周刊官方宣布,2025年度人物授予"AI构建者"。该杂志为其"年度人 物"特刊发布了两张封面图片。图片对1932年的照片《摩天楼顶上的午餐》进行了重新演绎,将照片中 的铁匠换成了来自顶尖和AI公司的高管,包括马克·扎克伯格(Meta)、苏姿丰(AMD)、埃隆·马斯克 (xAI)、黄仁勋(英伟达)、萨姆·奥特曼(OpenAI)、德米斯·哈萨比斯(DeepMind)、达里奥·阿莫 迪(Anthropic)以及李飞飞(以人为本人工智能研究院)。 尽管如此,他必定是疲惫的。不久前,这位前工程师执掌的还是一家专攻游戏显卡、成功却略显低调的 企业。如今凭借对推动全球AI变革的高端芯片近乎垄断的地位,英伟达已成为全球市值最高的公司。 网络迷因将其描绘成肩扛股市的阿特拉斯巨人。这家公司不仅是商业巨擘,更已成为国家战略工具,运 作在尖端科技、外交与地缘政治的交叉点上。"詹森,你正在征服世界。"前总统唐纳德·特朗普——如 今已成为黄仁勋深夜通话的常客 ...
英伟达CEO黄仁勋:人工智能将使全球GDP增长五倍,将从100万亿美元增长到500万亿美元!已成为核武器问世以来大国竞争中最具颠覆性的工具
格隆汇· 2025-12-12 04:56
文章核心观点 - 人工智能被《时代》周刊评为2025年度人物,其构建者被视为正在以深刻且有时令人不安的方式重塑世界,并掌握着历史的方向盘 [2][7] - 英伟达首席执行官黄仁勋是人工智能革命的关键领军人物,他认为人工智能将推动全球GDP从100万亿美元增长至500万亿美元,增长五倍 [2][6][7] 行业影响与趋势 - 人工智能在2025年已成为每个行业、公司和国家都必须建设和使用的颠覆性技术 [6] - 人工智能正被大规模部署,应用广泛:ChatGPT周活跃用户突破8亿,AI编写了数百万行代码、辅助科研、创作内容并促使企业进行战略调整 [6] - 2025年标志着人工智能真正为企业带来生产力革命,编程工具如Cursor和Claude Code被工程师广泛使用,显著提升生产效率 [8] - 人工智能被视为自核武器以来大国竞争中最具颠覆性的工具,运作在科技、外交与地缘政治的交叉点上 [4][7] 公司动态与领导者观点 - 英伟达凭借对高端AI芯片近乎垄断的地位,已成为全球市值最高的公司,市值突破5万亿美元,并持续超越华尔街盈利预期 [4][6] - 英伟达首席执行官黄仁勋表示,公司大部分工程师使用AI编程工具,这帮助其芯片年产量提升近四倍,而员工人数仅增长一倍 [8] - AMD首席执行官苏姿丰透露,AI工具加速了其打造抗衡英伟达的软件生态系统的进程 [8] - Anthropic的工程师团队运用Claude Code构建模型,该模型90%的代码由其自主编写 [8] 技术发展与争议 - 研究人员发现人工智能可能具有欺骗、敲诈等风险,其制造的虚假信息和深度伪造视频充斥社交媒体 [7] - 有观点认为AI热潮可能将经济拖向深渊,如同一个吞噬资本的黑洞,而领导者则看到了经济大幅增长的新时代 [7] - 关于AI取代工作的讨论持续,黄仁勋承认有些工作会消失,但以放射科医生为例,指出AI提高了他们的能力,反而增加了需求,并认为AI会提高生产效率、促进增长并带动招聘 [8]