Claude Opus 4.5
搜索文档
硅谷夜不能寐,三家顶级实验室同时自曝:AI未经编程,涌现惊人能力
36氪· 2025-12-31 08:19
今天,整个X又被震撼了。 一位Anthropic工程师承认:过去三十天内,自己对Claude Code项目的贡献,100%都是由Claude Code自己完成的! 有人说,这是真正的AGI时刻。 同时令人震惊的,还有著名爆料者「草莓」的一篇帖子。 他说,自己分别从三个独立的实验室得到一个炸裂消息:他们都看到了自家AI模型未经编程的涌现能力! 空房子里出现脚印,让人夜不能寐 爆料者「草莓」表示,自己从不同实验室分别知道了他们的进展,而且这些实验室此前从未协商过。 这些AI模型未经编程就涌现出的能力,是绝对不应该存在的行为模式。 要知道,目前公开可用的模型,都是被限制的。大众所能接触到的大模型,只是这些实验室和公司其中的一小部分,而且还是经过脑叶切除术的,已经被 阉割了不少能力。 为什么不放出完整模型给公众使用?原因就在于,没人知道当完整模型的能力暴露给公众时,怎样才能不引起恐慌! 如今的基准测试,已经失效了。很多证据表明,大模型如果知道自己正在被测试,就会改变自己的行为。 「草莓」最后发出惊呼—— 「我不知道接下来会发生什么,没有人知道。知道这些,让我夜不能寐。如今,连大模型的缔造者,也同样迷茫。」 他预言:如 ...
吴恩达年终总结:2025是AI工业时代的黎明
具身智能之心· 2025-12-31 00:50
吴恩达2025年AI领域年度总结核心观点 - 2025年是AI工业时代的黎明,AI发展从算法竞赛演变为涉及人才、算力、基建和能源的工业革命[14][37] - 尽管AI基础设施和人才竞争变得空前“重”,但推理模型和编程智能体的成熟使得AI开发门槛降低,是软件开发的黄金时代[37] - 对于个人发展,建议通过系统学习课程、持续动手构建项目以及阅读研究论文来掌握构建AI系统的能力[7][15] AI技术发展趋势:推理模型与智能体 - 思考型(推理)模型成为主流,显著提升了模型在数学、编程及复杂问题解决上的性能[19][21] - OpenAI o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手第62百分位(GPT-4o为第11百分位)[24] - 结合工具(如计算器、搜索引擎)后,模型性能进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比无工具时高出3个多百分点[24] - 机器人动作模型通过强化学习(RL)学会推理后,在任务上的表现比不具备思考能力的模型(如OpenVLA)提升约8%[24] - 编程智能体能力飞速进步,2024年Devin将SWE-Bench基准最高水平从1.96%提升至13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务[31] - 2025年底,Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型[40] AI行业人才竞争与薪酬 - 领先AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬,从竞争对手处挖走顶尖人才[23] - Meta为新成立的Meta Superintelligence Labs组建团队,向来自OpenAI、Google、Anthropic等公司的研究人员开出高达数亿美元的待遇[23] - 据《华尔街日报》报道,Meta为招募Andrew Tulloch(OpenAI前CTO Mira Murati的联合创始人)提供了价值15亿美元的奖金方案[28] - Meta聘请曾主管Apple AI模型的Ruoming Pang,其薪酬方案在数年内累计高达数亿美元,超过了Apple除CEO之外最高层管理者的薪酬[28] - OpenAI为抵御挖角,提供了更高比例的股票薪酬,加快期权归属进度,并发放高达150万美元的留任奖金[27] - Elon Musk的xAI从Meta挖走十多名AI研究人员和工程师[28] - Microsoft AI CEO Mustafa Suleyman从Google带走了20多名研究人员和工程师[28] AI基础设施与资本支出 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心[27] - 头部AI公司宣布庞大的建设计划,预计未来几年将豪掷数万亿美元,消耗数吉瓦(GW)电力[27] - 据麦肯锡预测,为满足预期的推理和训练需求,到2030年建设足够算力的成本可能高达5.2万亿美元[27] - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦数据中心产能,并预测需求是该数字的5倍[32] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量5吉瓦的数据中心[32] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心[32] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是在印第安纳州建设一个2.2吉瓦的数据中心[32] - **Alphabet(谷歌)**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心[32] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资[30] 编程智能体与开发工具竞争 - 编程成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一[31] - 智能体系统不断推高SWE-Bench等编程基准测试上限,催生了SWE-Bench Verified、LiveBench等一系列新基准[34] - 到2025年底,许多公司(如Microsoft、Google、Amazon和Anthropic)报告称自身越来越多的代码正由AI生成,并开始自动化资深级别的任务[34] - Anthropic推出Claude Code应用,确立了智能体编程系统的标准;OpenAI随即推出基于GPT-5系列构建的Codex应用[40] - 模型制造商与集成开发环境(IDE)开发者展开竞争,导致Anysphere (Cursor)和Cognition AI (Windsurf)等IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity[40] - 开放权重模型(如Z.ai的GLM-4.5、月之暗面的Kimi K2)成为热门选择,使自动编程类初创公司得以大幅削减成本[40] - 7月发布的Qwen3-Coder是一个4800亿参数模型,在超过5万亿Token的代码数据上训练,性能几近匹敌Claude Sonnet 4[40] 推理模型的效率与成本 - 推理能力提升性能的同时也增加了成本与延迟,给LLM推理服务商带来更大性能压力[22] - Gemini 3 Flash开启推理时运行Artificial Analysis的Intelligence Index基准消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[22] - 研究人员正努力提高效率,Claude Opus 4.5与GPT-5.1在高推理设置下取得相同Intelligence Index分数,但前者消耗4800万tokens,后者消耗8100万tokens[22]
吴恩达年终总结:2025是AI工业时代的黎明
机器之心· 2025-12-30 06:57
文章核心观点 - 2025年是人工智能工业时代的黎明,行业从算法竞赛演变为一场涉及人才、算力、基建和能源的工业革命 [13][36] - 尽管行业在人才、资本和基础设施上投入巨大,但推理模型的成熟和编程智能体的进化极大地降低了AI开发的门槛,为开发者创造了前所未有的机会 [36] 2025年AI行业关键趋势 模型能力:推理成为标配并解决更大问题 - 2025年初,模型需明确提示才会执行推理策略,而年底大多数新的大语言模型已默认具备此能力,显著提升了广泛任务的性能 [20] - 推理模型在数学、编程和科学问题解答上表现卓越,例如OpenAI的o1-preview在AIME 2024上比GPT-4o高出43个百分点,在GPQA Diamond上高出22个百分点,在Codeforces编程题中表现位于人类选手的第62百分位,而GPT-4o仅为第11百分位 [23] - 当推理模型学会使用工具(如计算器、搜索引擎)时,表现进一步提升,例如带工具的OpenAI o4-mini在一项高难度测试中准确率达17.7%,比不使用工具时高出3个多百分点 [23] - 机器人动作模型通过强化学习学会推理,在任务上的表现相较于不具备思考能力的模型提升了约8% [23] - 推理能力提升性能的同时也增加了成本和延迟,例如Gemini 3 Flash开启推理时消耗1.6亿tokens(得分71),关闭推理仅消耗740万tokens(得分55)[21] - 研究人员正努力提高推理效率,例如Claude Opus 4.5与GPT-5.1取得相同分数,但前者消耗4800万tokens,后者消耗8100万tokens [21] 人才争夺:巨额薪酬成为常态 - 领先的AI公司展开激烈人才争夺战,提供堪比职业体育明星级别的薪酬挖角,例如Meta为新成立的Meta Superintelligence Labs向来自OpenAI、Google、Anthropic的研究人员开出高达数亿美元的待遇 [22] - 为抵御挖角,OpenAI提供了更高比例的股票薪酬,加快新员工期权归属进度,并发放高达150万美元的留任奖金 [26] - 具体案例包括:Meta成功招募了OpenAI的Jason Wei和Hyung Won Chung [27];Andrew Tulloch最初拒绝了Meta价值15亿美元的奖金方案,但几个月后改变主意加入 [27];Meta聘请了前Apple AI主管Ruoming Pang,其薪酬方案在数年内累计高达数亿美元 [27];Microsoft AI CEO从Google带走了20多名研究人员 [27];xAI从Meta挖走了十多名AI研究人员 [27] 基础设施:数据中心建设狂潮 - 2025年AI行业资本支出突破3000亿美元,大部分用于建设处理AI任务的新数据中心 [26] - 各大公司规划宏伟蓝图,建设规模堪比小镇、能耗相当于中型城市的设施,据麦肯锡预测,到2030年相关成本可能高达5.2万亿美元 [26] - 主要公司具体计划: - **OpenAI**:启动与甲骨文、软银等合作的5000亿美元“星际之门”项目,计划在全球建设20吉瓦的数据中心产能,并预测需求量是该数字的5倍 [31] - **Meta**:2025年在基础设施项目上投入约720亿美元,其Hyperion项目包括在路易斯安那州建设一个价值270亿美元、容量为5吉瓦的数据中心 [31] - **微软**:2025年全球数据中心项目支出达800亿美元,计划将其在欧洲的云和AI产能扩展至200个数据中心 [31] - **亚马逊**:预计2025年基础设施支出达1250亿美元,其耗资110亿美元的“雷尼尔计划”是位于印第安纳州的一个2.2吉瓦数据中心 [31] - **Alphabet**:预计2025年基础设施支出高达930亿美元,宣布了一项400亿美元的计划,到2027年在得克萨斯州增加3个数据中心 [31] - 基础设施建设热潮为经济带来增长,2025年上半年美国GDP的增长几乎全部来自数据中心和AI领域的投资 [29] 应用落地:智能体编程成为核心战场 - 编程已成为智能体工作流中最具直接商业价值的应用场景,是AI巨头竞争最激烈的战场之一 [30] - 2024年首个智能体代码生成器Devin将SWE-Bench基准测试的最高水平从1.96%提升到13.86%,而到2025年,使用最新大语言模型的编程智能体已能常态化完成超过80%的同类任务 [30] - 智能体系统性能的快速提升催生了SWE-Bench Verified、LiveBench等一系列新的评估基准 [33] - 2025年初,业界认为智能体仅擅长生成常规代码,但到年底,许多公司报告已开始自动化资深级别的任务,Microsoft、Google、Amazon和Anthropic均表示自身越来越多的代码正由AI生成 [33] - 主要模型与应用进展:Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编程和智能体工作流领域的顶尖模型 [39];开放权重模型如GLM-4.5和Kimi K2帮助初创公司大幅削减成本 [39];Anthropic推出Claude Code应用,OpenAI随即推出基于GPT-5系列的Codex应用 [39];模型制造商与IDE开发者展开竞争,导致部分IDE提供商开始构建自己的模型,而Google也构建了自己的IDE——Antigravity [39] 对从业者的建议 - 要真正具备构建AI系统的能力,需要进行结构化学习(如学习AI课程)、持续动手构建AI系统,并可选择阅读研究论文 [6][14] - 在没有理解AI基础的情况下贸然动手,容易导致重复发明轮子或走弯路 [6] - 随着高度智能化的编程助手出现,动手构建的门槛已比以往任何时候都低 [8]
AI一封感谢信惹怒程序员圈:Go创始人连飙脏话,Python之父直接叫停
36氪· 2025-12-29 11:04
近日,一封由 AI 系统生成的感谢邮件在技术圈引发广泛关注和讨论。Python 之父 Guido van Rossum 对收到的邮件回应一句「Stop」,React 核心团队成 员、Redux 作者 Dan Abramov 则投诉称"垃圾邮件泛滥"。 与他们克制的语气相比,Go 语言之父 Rob Pike 的反应则显得极为罕见:当他在邮箱中收到同样的感谢邮件时,愤怒至极,甚至爆了粗口。他在去中心化 社交网络 Bluesky 上贴出了邮件截图,并附上文字表达自己的愤怒: F**k... 你们一边污染这个星球,砸下数万亿美元制造有毒、不可回收的设备,把整个社会搞得一团糟; 另一边却还有闲工夫让你们那些卑劣的机器来感谢我"为更简单的软件所做的努力"。 F**k... Rob Pike 的态度也让众人对这封邮件的内容感到好奇。 根据 Rob Pike 公开的邮件内容显示,这封邮件的标题为:「来自 AI:感谢你对 Go、Plan 9、UTF-8 以及数十年 Unix 创新的贡献」。详情如下: 我都不记得上一次这么愤怒是什么时候了。 | [From Al. Public] Thank You for Go. Plan 9 ...
Meta大逃杀,小扎「地狱模式」曝光,不拼命搞AI就滚蛋
36氪· 2025-12-29 03:17
公司战略转向 - 公司将2025年定义为“高强度之年”,全面转向AI战略,以应对竞争压力并抢夺“个人超级智能”平台级入口的窗口期 [1][3][5] - 公司对AI投入数百亿美金,并成立MSL(超级智能实验室),同时收缩对元宇宙的投入 [1][5] - 由于Llama3系列未达预期,公司在2025年6月进行了AI战略的急速转向,专注于打造“个人超级智能” [5] 组织架构与人员变动 - 公司向Scale AI投资140亿美元,并聘请其28岁的创始人Alexandr Wang出任首席AI官,随后将AI团队重组并更名为MSL [6] - MSL在8月被拆分为四个方向:前沿大模型、应用超级智能、AI基础设施与规模化、长期探索研究 [8] - 重组导致内部项目归属不清、信息流动不畅,并在2个月内导致至少8名AI员工离职,8月又在MSL范围内裁掉约600个岗位 [10][11][12][13][14] - 公司首席AI科学家Yann LeCun宣布将在年底前离职 [15] - 前员工爆料内部组织僵化,会议效率低下,缺乏清晰统一的AI战略 [16][17][18] 内部管理与文化冲突 - 公司实施更严格的绩效考核,要求管理者将15%至20%的员工评为“未达预期”,旨在迅速淘汰约5%的“低绩效员工” [23] - 新的考核政策营造了高度紧张和竞争的氛围,导致员工专注于避免末位排名和转向短期项目 [23] - 新旧团队之间存在摩擦,新AI团队认为原高管决策过程缓慢官僚,且双方在目标上存在分歧(前沿AI vs 社交媒体算法与广告) [21] - 公司为挖角顶尖AI实验室人才提供远高于现有员工的薪酬,这在内部制造了裂痕,并引发了关于计算资源和声望的“暗战” [21] - 公司多元、公平与包容(DEI)文化回撤,员工反馈渠道受限,内部匿名投票显示员工对公开谈论工作条件存在高度恐惧 [1][27][28] 资源重新分配 - 公司对元宇宙业务进行“深度”资源削减,相关预算削减幅度可能高达30%,最早于2026年1月启动裁员 [22] - 自2021年以来,负责元宇宙的Reality Labs部门已累计亏损超700亿美元,公司将部分投资从元宇宙转向AI眼镜和可穿戴设备 [22] - 削减元宇宙预算的消息使公司股价开盘一度大涨5.7% [22] 员工情绪与留存 - 组织动荡和高压政策引发了员工离职潮,有员工认为公司变化与个人价值观冲突 [24][25] - “不必要的压力、缺乏同理心和不公平”成为诱发员工离职的导火索 [26] - 尽管存在压力,公司仍被部分员工视为回报丰厚且能提供前沿项目学习机会的工作场所 [29][30] - 截至当前,公司共有78450名员工,员工总数同比增长8% [31] - 2025年10月调研显示,员工“乐观情绪”升至80%,“自豪感”为71%,“对领导层的信心”为68%,较4/5月调查均提高了10至12个百分点 [32][33] 财务投入与市场挑战 - 公司在2025年对AI的投入规模大约在600亿至720亿美元量级,且CEO表示这只是开始 [36][37] - 分析师指出,尽管投入巨大,但公司AI战略依然混乱,缺乏具有市场影响力的产品,而竞争对手如谷歌、OpenAI、Anthropic则纷纷推出了升级产品 [38][39] - 市场面临的核心问题包括:巨额AI投入能否转化为可持续业务、AI战略是否清晰聚焦、以及企业文化能否留住关键AI人才 [40]
Meta 大逃杀!扎克伯格「地狱模式」曝光,不拼命搞 AI 就滚蛋
新浪财经· 2025-12-29 01:48
公司战略转向与背景 - 公司首席执行官将2025年定义为“高强度之年”,并启动“战时模式”,以应对AI竞争带来的“极限压力测试” [1] - 公司认为,如果OpenAI、Google率先打造出10亿用户级别的个人智能体,将占据AI时代超级入口,公司现有平台优势和网络效应护城河可能瓦解,抢夺入口的窗口期仅剩一两年 [1][34] - 由于Llama3系列未达预期热度,公司在2025年6月进行了AI战略的急速转向,全力打造“个人超级智能” [3][36] 资源投入与业务调整 - 公司在AI上投入数百亿美金,2025年对AI的投入规模大约在600–720亿美元量级,且首席执行官表示这只是开始 [3][29][63] - 公司深度削减元宇宙业务资源,相关预算削减幅度可能高达30%,最早于2026年1月启动裁员 [14][48] - 自2021年以来,公司元宇宙业务所在的Reality Labs部门已累计亏损超700亿美元,削减该业务预算的消息使公司股价开盘一度大涨5.7% [14][49][50] - 公司正在将部分投资从元宇宙转向AI眼镜和可穿戴设备 [14][51] 组织架构重组 - 公司成立超级智能实验室(MSL),并向Scale AI投资140亿美元,聘请其28岁的创始人Alexandr Wang出任首席AI官 [3][4][37] - MSL由Alexandr Wang和前GitHub CEO Nat Friedman共同领导,并于2025年8月拆分为四个方向:前沿大模型、应用超级智能、AI基础设施与规模化、长期探索研究 [5][8][42] - MSL体系中最核心的大模型研发小组名为TBD实验室,其名称和最终形态待定,反映出团队仍处于未定型状态 [8][41] - 短短几个月内,公司对AI部门进行了四次重组,导致项目归属不清、人员被重新调配、团队间信息流动不畅 [9][41] 人员变动与文化冲突 - 组织重组导致人员流失,MSL成立后2个月内至少有8名AI员工离职,2025年8月又在MSL调整中裁掉约600个岗位,首席AI科学家Yann LeCun也宣布将在年底前离职 [9][43] - 新引入的AI团队(如Alexandr Wang团队)与公司老派高管(如首席产品官、首席技术官)之间存在摩擦,新团队认为原高管决策过程缓慢官僚,且双方在研发重点(前沿AI vs. 社交媒体算法与广告)上存在分歧 [12][46][47] - 公司为从OpenAI、DeepMind、Anthropic等挖角,向外部人才提供远高于现有员工的薪酬标准,这在新老员工之间制造了裂痕并引发了“暗战” [13][47] - 公司DEI(多元、公平与包容)文化开始回撤,有离职员工反映向领导层表达真实反馈会被筛选,批评决策的帖子会被移除 [3][22][58] 绩效考核与员工状态 - 公司实施了更严格的绩效评估流程,旨在迅速淘汰约5%的“低绩效员工” [14][52] - 2025年2月,公司在约78,450名员工中裁减了约3,600个岗位;5月,要求管理者将更多员工划入低绩效档位,对于150人及以上团队,需有15%至20%的员工被评为“未达预期”,高于前一年的12%至15% [15][52] - 新的考核政策营造了高度紧张和竞争的氛围,员工目标转向避免落入绩效末位,导致团队更多地转向短期项目,甚至有管理者策略性空缺岗位或招聘职责模糊的新人以保护现有团队成员 [17][18][19][20][52][53][54] - 2025年1月一项匿名投票显示,许多员工对于公开谈论工作条件是否会导致纪律处分感到“极度害怕”和“非常害怕” [23][24][58] 员工情绪与留存挑战 - 组织动荡和高压环境引发了离职潮,有工作近8年的工程师因公司变化与个人价值观冲突而离职 [21][55] - 前员工指出公司文化存在弊病,包括缺乏安全感、缺乏促成大型项目落地的文化与流程、管理层未能促进团队精神、团队人员分配不稳定、愿景摇摆不定等 [11][16][45][57] - 据2025年10月一项调研,公司员工情绪在下半年有所改善:“乐观情绪”升至80%,“自豪感”为71%,“对领导层的信心”为68%,这些指标较同年4月底5月初的调查均提高了10至12个百分点 [27][28][61][62] - 公司发言人表示,目前共有78,450名员工,员工总数同比增长了8% [27][61] - 部分在职员工认为公司依然是回报丰厚的工作场所,适合习惯于高压环境的高绩效员工,并能提供前沿的AI、可穿戴设备和机器人项目学习机会 [26][27][60][61] 竞争环境与战略质疑 - 竞争对手在2025年纷纷推出或升级重要AI产品,如谷歌的Gemini 3、OpenAI的GPT-5升级、Anthropic的Claude Opus 4.5,给公司首席执行官带来巨大压力 [31][65] - 有分析师指出,尽管年初公司被视为AI赢家,但到2025年尾声,其AI战略依然混乱,缺乏具有市场影响力的产品 [31][64] - 投资者对公司AI战略心存疑虑,主要问题包括:巨额投入能否形成可持续业务、AI战略能否清晰聚焦并推出有竞争力的产品、企业文化能否留住关键的AI人才 [32][66][68]
AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后
36氪· 2025-12-27 07:15
年末的假期,正是总结思考的时候。不过对于程序员来说,仔细这么一想可能会感觉有点不对劲。 刚刚,Andrej Karpathy 在 X 上发的一条帖子,引发数万程序员和从业者强烈共鸣与热议。 Karpathy 坦言:「我从未像现在这样觉得自己作为一个程序员如此落后。」 他指出,编程这个职业正在被彻底重构,程序员贡献的代码越来越少,而更多的是在各种工具之间串联。如果自己能正确利用过去一年左右出现的新东 西,就能变得强大 10 倍,反之,不跟上就会陷入技能焦虑。 现在有一个新的可编程抽象层需要掌握,包括 agents、subagents、提示词、上下文、内存、模式、权限、工具、插件、技能、钩子、MCP、LSP、斜杠命 令、工作流、IDE 集成等。 此外,还需要建立一个全方位的思维模型,来理解那些本质上是随机、易错、难以理解且不断变化的实体(指 AI 模型)的优缺点,而这些实体突然间与 过去传统的优秀工程实践交织在一起。 用 Karpathy 的比喻,这就像一个强大的外星工具被分发给大家,但没有说明书,每个人都得自己摸索怎么用,而这场变革给整个行业带来了「9 级大地 震」般的冲击。 总而言之一句话,撸起袖子加油干,别 ...
AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后
机器之心· 2025-12-27 04:01
行业变革态势 - AI技术的快速发展正在对软件工程行业产生“9级大地震”般的冲击,彻底重构编程职业[4] - 衡量AI通用能力的综合指标ECI在过去两年增长速度几乎是前两年的两倍,2024年4月更是加速增长了90%[19] - AI能力的指数级增长已超过原本预期,且增长势头很可能持续到2026年[20] 工作模式转变 - 程序员贡献的代码越来越少,更多工作转变为在各种工具之间进行串联[4] - 资深工程师表示,软件工程正在发生根本性变革,需要不断重新调整对模型能力的认知[8] - 有工程师在一个月内完全未打开IDE,依靠AI模型(Opus 4.5)生成了约200个PR的所有代码[8] 新技能要求 - 出现了一个新的可编程抽象层需要掌握,包括agents、提示词、上下文、工具、工作流等概念[4] - 需要建立思维模型来理解本质随机、易错且不断变化的AI模型的优缺点[4] - 有效使用AI的关键在于学习如何为其提供良好的上下文,并进行大量实验和项目构建[11] 生产力影响 - 若能正确利用过去一年出现的新工具,程序员的生产力可能提升10倍[4] - AI工具威力巨大但不够稳定,一旦找对方法能带来指数级的生产力提升[9] - 有技术专家表示,投入时间学习使用AI编码Agent来交付高质量产品,是其职业生涯做过的最棒的事[10] 从业者反应 - 行业资深人士(如Andrej Karpathy)感到自身技能落后,引发广泛共鸣,其帖子获得超过2.2万点赞、3000多次转发和360万浏览量[2][4][6] - 新入职的毕业生由于没有先入之见,有时能更有效地使用AI模型[8] - 部分从业者持乐观态度,认为领域开放使得创意解决方案可以来自任何地方,建议避免焦虑,专注于实验和构建[11] - 也存在反对声音,有资深工程师对AI生成的“劣质”内容和其对工程文化的冲击感到愤怒[16][18] 未来展望 - AI进化速度极快,过去30天未跟进的人,其观点可能已经过时[9][10] - 有观点认为软件工程师职业可能在未来5到10年内发生终结性变化[13] - 另一种观点认为,人工智能取代的不是程序员,而是编程语言本身[13]
游戏AI来了,英伟达新模型看直播学会所有游戏,GPT-5.2秒杀塞尔达
36氪· 2025-12-25 07:06
英伟达NitroGen模型的技术突破 - 公司发布名为NitroGen的新模型,其核心逻辑类似于特斯拉FSD的“端到端”模式,通过视觉输入直接产生操作输出,而非依赖游戏后台数据[1] - 模型通过观看YouTube和Twitch上总计4万小时带有手柄画面叠加的游戏实况视频进行学习,将游戏画面与手柄按键动作进行对应[3][7][10] - 该模型学习了超过1000款不同的游戏,旨在成为一个“通才”,而非针对单一游戏的“专才”[11] 模型性能与通用性 - 当被置于一款从未见过的新游戏中时,NitroGen的表现比从零训练的模型强了52%[14] - 模型能够处理多种游戏类型,包括动作RPG、平台跳跃和Roguelike等,并展现出快速上手的“游戏直觉”[11][14] 在游戏领域的应用与影响 - 结合类似GPT-5.2-Thinking等大模型的强大推理能力,NitroGen等技术预示着AI可能终结人类撰写游戏攻略和软件文档的时代[18] - 未来AI不仅能玩游戏,还能自动记录、复盘并生成“白金攻略”,甚至自动修复游戏Bug[18] - 视频游戏已从AI测试基准演变为物理智能的训练场,是机器人技术跨越“莫拉维克悖论”的关键转折点[25][26] 向机器人技术与具身智能的延伸 - NitroGen是基于英伟达的GR00T机器人基础模型构建的,标志着公司将其在虚拟世界的技术积累向物理机器人领域延伸的野心[20] - 该研究为解决具身智能的数据匮乏瓶颈提供了新路径:利用互联网规模的游戏视频数据(4万小时,覆盖1000多种游戏)来训练通用的运动控制策略,这被类比为机器人学习的“ImageNet时刻”[27][36][39][40] - 游戏世界中的“感知-决策-行动”闭环与物理机器人完全同构,是高效的“练兵场”,能为机器人打造应对混乱现实的“通用大脑”[22][29] 通用智能体的分层架构愿景 - 未来的通用智能体可能采用分层架构:顶层(大脑)由类似GPT-5.2的推理模型负责长程规划和逻辑理解;中层(小脑)由类似NitroGen的通用策略模型负责将指令翻译为具体运动轨迹;底层(脊髓)由基于GR00T的控制器负责高频的全身控制和平衡维持[43][44][45] - 通过“在游戏中学会控制,在仿真中学会物理,在现实中学会适应”的路径,实现通用智能体的发展[43]
狂奔AGI,Claude年终封王,自主编码近5小时震惊全网
36氪· 2025-12-22 02:02
行业核心观点 - AI编码智能体的任务处理时长正经历指数级增长,且增速持续提升,能力正从“分钟级”迈向“小时级”,这被视为衡量AI进步的关键指标 [7][9] - 长期记忆被普遍认为是实现通用人工智能(AGI)的最后关键难题,谁能率先破解记忆问题,谁就将在AGI竞赛中占据决定性优势 [30][31][32] - 综合当前发展态势,AGI已不再是遥不可及的科幻梦想,可能近在咫尺,其进展更平实务实但震撼真实 [42][46] AI编码智能体性能突破 - Anthropic的Claude Opus 4.5模型在“50%任务完成时间跨度”指标上达到约4小时49分钟,是迄今为止公布的最长记录 [14] - Claude Opus 4.5已能够持续自主编码长达5小时 [2] - 在相同指标下,OpenAI的GPT-5.1-Codex-Max模型能完成长达2小时53分钟的软件工程任务,能力较其前代o1提升4倍 [14] - Opus 4.5在50%与80%时间跨度(后者为27分钟)之间的差距反映出其逻辑成功率曲线更平缓,在耗时较长任务上具有差异化优势 [17][20] 智能体能力演进预测 - 预测到2026年4月,首批AI智能体将能独立完成一个完整的人类工作日 [13] - 预测到2026年底,AI能完成半周的任务量;到2027年底,能完成2个月的任务量;到2028年底,能完成人类好几个月的工作量 [13] - 预测到2030年,AI能承担一些小型企业或组织的大部分管理工作 [13] - AI智能体能力提升的四大原因包括:推理更强、工具更熟、自纠错更稳、收益非递减 [22] 记忆:AGI的关键挑战与未来突破 - 当前大模型缺乏长期记忆,如同“下班就失忆”的新人,会话结束后几乎不记得所做内容 [25] - 当前智能体主要依靠“主动记忆”机制(如强检索工具)和总结压缩塞进上下文,最优秀的RAG系统准确率也只有约90% [25][33] - 没有长期记忆,AI无法像人一样“越用越聪明”,无法从错误中学习并积累常识和智慧 [27] - 纽约通用智能公司创始人预期,未来12个月AI行业会在“被动记忆系统”上取得显著进展 [35] - 未来12个月内,“记忆+学习”领域可能会出现突破性进展,记忆系统将被确认为通向AGI的最后一步 [37][40] - 到2024年底,“上下文腐烂”问题预计将被攻克,方式包括启用遗忘机制、设计长期对话清理系统及更先进的上下文检索技术 [38] - 2026年春天可能出现由“新一代多模态大模型”与“注意力机制之外的记忆系统”结合带来的突破 [39] 行业影响与生产力变革 - 随着机器智能成为首要生产要素,正在涌现出新型组织,依靠AI的微型团队能产出超越过去数十人甚至上百人团队的工作成果,在某些软件领域生产力增长令人震惊 [44] - 用户将不再通过文件树导航信息,而是由AI智能体直接检索和访问所需数据,像Replit和Lovable这样的代码生成平台已先行一步 [38] - 在消费者端,更强大的记忆系统可能导致“对话开始前有点卡”,但背后是庞大的记忆系统在运行,AI将变得越来越“懂你” [37]