Scaling Laws

搜索文档
撞墙的不是Scaling Laws,是AGI。
自动驾驶之心· 2025-09-28 23:33
NIK @ @ns123abc 作者 | Trisimo崔思莫 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1938174154500215724 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 前言:Scaling Laws成立,不必然导向AGI,甚至会远离AGI 。 ——这是我的一个推论 wn that transformer-hased next-token prediction pernlexity scales o log-linearly with compute and the number of parameters Ex-OpenAl researcher (now at META) explains how scaling laws can never fail because it's a reflection of the data structure "what ...
深度|Sam Altman:OpenAI希望将ChatGPT塑造成一个全新的智能操作系统,打造个人AGI
Z Potentials· 2025-09-23 06:52
图片来源: Khosla Ventures Z Highlights 2025 年 9 月, OpenAI 首席执行官 Sam Altman 与知名风险投资家、 Khosla Ventures 创始人 Vinod Khosla 展开对话,探讨 AI 的发展路径 —— 从聊天机器 人到 AGI ,以及人与机器之间不断演进的交互方式,并思考 AI 如何重塑创造、学习与构建的主体。 展望 2035 :技术颠覆与难以预测的未来 Vinod Khosla : 所以我想先从这里开始,我们已经多次沿着这个方向聊过。想象一下 2035 年以后的世界,大概在 2035 到 2050 年这段时间内。你认为世 界会是什么样子? Vinod Khosla : 更深入一点,比如说当今的公司会怎么样?我今天早上做了一个演讲,下午会在 ILPS 再讲一遍。我认为在 2030 年代, Fortune500 的消 亡速度会比以往任何时候都更快,哪些公司能存活、哪些不能,将取决于它们的应对。更快的消亡速度,你同意吗?还是不同意? Sam Altman : 我不确定,是的。我的直觉是会更快,但我没怎么深入思考过。最近我主要关注的事情是软件公司,我 ...
喝点VC|YC对谈Anthropic联创:MCP和Claude Code的成功有相似之处,都在于以模型为核心的研发思路
Z Potentials· 2025-09-12 05:55
文章核心观点 - Anthropic联合创始人Tom Brown分享从创业到AI研究的职业历程 重点包括在OpenAI参与GPT-3开发 以及创立Anthropic后推动Claude成为开发者首选工具的过程[4] - 规模化定律(Scaling Laws)是AI领域突破的关键 通过增加算力投入可显著提升模型智能水平 这一发现直接推动GPT-3和Claude的开发[8][23][25] - Claude在编程领域取得显著成功 特别是3.5 Sonnet版本推出后市场份额快速增长 在YC创业公司中占比达20%-30% 成为编码任务默认选择[37][38] 职业发展历程 - 早期职业经历包括加入Linked Language项目并作为第一名员工 形成"自主狩猎"的创业思维而非"等待喂食"的大厂心态[5] - 参与多个YC创业公司包括Solid Stage和Grouper 其中Grouper通过人工匹配实现社交约会 最高频用户Greg Brockman后来帮助其加入OpenAI[9][11][12] - 从Grouper离职后花费六个月自学AI 通过Coursera课程和Kaggle项目转型 最终以工程师身份加入OpenAI负责搭建StarCraft环境[17][19][20] OpenAI与GPT-3开发 - OpenAI早期办公地点在旧金山Dandelion Chocolate工厂楼上 背后有Elon Musk承诺的十亿美元资金支持[21] - 参与GPT-3基础设施开发 关键突破是从TPU转向GPU架构 同时软件生态从TensorFlow迁移至PyTorch以实现更好迭代效率[23][59] - 2018-2019年期间基于Scaling Laws开展规模化训练 发现算力投入与智能水平存在线性增长关系 跨越12个数量级仍保持稳定趋势[23][25] Anthropic创立与发展 - 离开OpenAI创立Anthropic的动机是确保AI与人类目标一致 团队认为未来人类需将控制权交给更强大的AI系统[8][28] - 初始团队包括7名联合创始人 疫情期间远程工作 前100名员工均因使命认同加入 这种文化帮助公司保持方向一致性[29][31] - 第一个内部产品是Slack机器人版Claude 1 在ChatGPT发布后9个月推出 但正式上线因基础设施准备不足而延迟[33][34] 技术突破与产品演进 - Claude 3.5 Sonnet版本在编程领域产生突破性表现 能完成反编译等复杂任务 如将二进制文件转换为带合理变量名的C语言代码仅需10分钟[39] - 开发策略强调不优化基准测试分数 而是通过内部使用体验提升模型实际效用 特别关注编码场景中的"智能化编程"能力[37][41][42] - Claude Code最初作为内部工具开发 成功关键在于"以模型为用户"的设计理念 即让Claude自身也能高效使用工具完成任务[44][45] 基础设施与行业趋势 - AI算力投入以每年3倍速度增长 2026年规模已锁定 2027年仍在规划中 预计将超过阿波罗登月和曼哈顿计划的投资规模[53][54] - 当前最大瓶颈是电力供应 尤其在美国数据中心建设受限 需要政策支持加速审批流程 同时考虑可再生能源和核能解决方案[56][57] - Anthropic采用多芯片策略 同时使用GPU/TPU/Tranium三种硬件 优点是可灵活分配训练与推理任务 缺点是需要维护多个性能工程团队[58] 市场影响与机会 - Claude在开发者社区获得广泛认可 因更理解开发者需求而非单纯技术优势 其API开放策略帮助创业公司构建产品[49][50] - 企业级机会存在于让AI成为"业务助手"或"团队教练" 当前模型仅能完成初级工程师任务 仍需大量上下文指导[51] - 硬件加速器和数据中心技术存在重大机会 现有算力供给无法满足需求 连YC内部都出现Claude额度持续短缺现象[55] 人才培养建议 - 建议年轻工程师敢于挑战让朋友惊叹的项目 不必过度追求学历或名企光环 现在这些因素的重要性已显著降低[61][62] - 进入AI领域需要实际项目经验 2015年时的学习路径包括Coursera课程/Kaggle项目/线性代数教材研读 但当前方法可能已不同[19]
DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?
机器之心· 2025-09-02 03:44
| 机器之心报道 | | --- | | 编辑:杜伟、+0 | 这几天,一篇关于向量嵌入(Vector Embeddings)局限性的论文在 AlphaXiv 上爆火,热度飙升到了近 9000。 要理解这篇论文的重要性,我们先简单回顾一下什么是向量嵌入。 图源: veaviate 多年以来,嵌入主要用于「检索」任务,例如搜索引擎中的相似文档查找,或推荐系统中的个性化推荐。随着大模型技术的发展,嵌入的应用开始拓展到推理、 指令遵循、编程等更复杂的任务。这些新兴需求,推动着嵌入技术朝着能处理任何查询、任何相关性定义的方向演进。 然而,先前的研究已经指出了向量嵌入的理论局限性。它的本质,是把一个高维度、复杂的概念(比如「爱」,可能包含亲情、爱情、友情、奉献、占有等无数 面向)强行压缩成一串固定长度的向量。这个过程不可避免地丢失信息,就像三维苹果被拍成二维照片 —— 无论照片多清晰,你都无法从中还原出它的重量、气 味等属性。 过去几年,业界普遍认为这种理论困难可以通过更好的训练数据和更大的模型来克服。这就是过去几年以 OpenAI 为代表的公司所遵循的「大力出奇迹」(Scaling Laws)的哲学。 从 GPT-2 ...
一位被开除的00后爆红
投资界· 2025-09-01 07:42
核心观点 - 前OpenAI研究员Leopold Aschenbrenner被开除后创立对冲基金 通过押注AI受益行业及做空落后行业 实现基金规模达15亿美元 上半年回报率47% 远超市场基准[5][11][12] - 其投资策略基于对AI技术发展的深刻理解 重点布局半导体 基础设施 电力公司及新兴AI企业如Anthropic[11] - 基金获得多位科技及投资界知名人士支持 包括Stripe创始人 Collison兄弟 Meta的AI团队领导Daniel Gross和Nat Friedman 以及投资者Graham Duncan[11] 基金表现与规模 - 基金上半年回报率达到47% 同期标普500指数回报率为6% 技术对冲基金指数回报率为7% 超额收益显著[12] - 资金规模迅速突破15亿美元 折合人民币约108亿元(按1:7.2汇率)[11] - 投资者愿意将资金锁定数年 显示对基金策略的强烈信心[12] 创始人背景与经历 - Leopold Aschenbrenner为00后 15岁进入哥伦比亚大学 19岁获数学 统计学和经济学三个学位[13] - 曾任职于OpenAI的"超级对齐"团队 致力于确保超级智能AI与人类价值观一致[16] - 2024年4月因向董事会提交安全漏洞备忘录后被OpenAI以泄密理由解雇[17] 投资策略与理论基础 - 基金投资策略直接源于其撰写的165页分析文章《Situational Awareness: The Decade Ahead》[10][19] - 核心论点为AI正处于指数级增长阶段 从GPT-2到GPT-4代表多个数量级(OOM)的提升[20][21] - 驱动因素包括扩展定律(Scaling Laws) 算法创新及海量数据集使用[22][26] - 预测到2027年可能实现通用人工智能(AGI) 将引发各行业革命性变化[26][28] 行业影响与技术展望 - AGI发展将显著提升生产力和效率 但同时带来失业 AI伦理及治理结构等挑战[28] - 超级智能可能出现"智能爆炸" 通过自我完善循环实现指数级智力增长[29] - 构建AGI需大规模计算基础设施 涉及算力 设备效率 能源利用及信息处理能力的全面提升[31] - 国家安全机构将在AGI技术管理中发挥更大作用 其战略意义可比曼哈顿计划[33]
23岁小哥被OpenAI开除,成立对冲基金收益爆表,165页论文传遍硅谷
机器之心· 2025-08-30 04:12
文章核心观点 - 前OpenAI员工Leopold Aschenbrenner被解雇后创立对冲基金 通过押注AI相关领域实现47%回报率 远超市场平均水平[1][14] - Aschenbrenner预测2027年将实现通用人工智能 其依据是AI能力的指数级增长和算力扩展定律[29][38] - AI发展将引发各行业变革 需关注算力基础设施 国家安全和治理结构等关键因素[31][36][38] Leopold Aschenbrenner背景 - 23岁 拥有哥伦比亚大学数学 统计学和经济学三个学位 GPA年级第一[16] - 曾任职OpenAI超级对齐团队 参与Weak-to-Strong Generalization研究 后因泄露内部信息被解雇[7][18] - 在FTX Future Fund工作期间专注于AI安全和全球风险管理[17] 对冲基金表现 - 基金规模达15亿美元 投资策略为做多半导体 基础设施 电力公司及Anthropic等AI企业 同时做空可能被淘汰行业[10][11] - 2024年上半年回报率47% 同期标普500指数回报6% 技术对冲基金指数回报7%[14] - 获得Stripe创始人 Collison兄弟 Meta的AI团队领导及著名投资者Graham Duncan支持[11] AI技术发展预测 - 从GPT-2到GPT-4代表多个数量级(OOM)进步 即指标十倍增长[26] - AI进步依赖三大因素:扩展定律 算法创新及海量数据集 性能提升接近指数级[27][29] - AGI系统将具备并行研究能力 可同时进行多项测试 解决复杂科学技术难题[35] 行业影响与基础设施 - AGI将改变材料科学 能源和健康领域 显著提高经济生产力和人类福祉[35] - 构建AGI需大规模计算基础设施 包括设备效率 能源利用和信息处理能力提升[36] - 科技巨头正投入重金建设大规模AI算力基础设施[38]
深度|Sam Altman:创业者不要做OpenAI核心要做的事,还有很多领域值得探索,坚持深耕可长成比OpenAI更大的公司
Z Potentials· 2025-07-03 03:13
初心与人才汇聚 - 创立OpenAI的最关键决策是"决定要做"这件事本身 2015年时AGI被视为天方夜谭 团队几乎靠掷硬币决定是否启动[3] - 早期AI领域氛围与现状截然不同 当时连有效语言模型都未出现 团队仅8-20人 目标仅是写出像样的研究论文[4] - 聚焦AGI方向成功吸引1%顶尖人才 因"全世界只有你在做"的独特性形成人才聚集效应[5] - 伟大公司都始于微小起点 零收入创业公司与未来千亿估值公司初期形态相似[6] 产品与技术的未来 - 当前AI领域存在"产品滞后"现象 模型能力远超现有产品形态 即使性能停滞 仅推理成本下降就能催生大量创新[7] - 记忆功能是重要突破方向 指向未来AI将成为了解用户、主动帮助的个人助手 而不仅是被动问答工具[8] - 技术组合将创造强大体验 包括新设备、新浏览器、记忆功能和持久化模型的结合[11] - 计算负载将采用混合模式 部分本地运行减轻云端压力 但主要计算仍依赖云端[12] 机器人与工业复兴 - 机器人发展策略是先解决认知问题再连接机械 预计几年内可胜任实际工作 未来需求将远超当前供应链产能[15] - AI和机器人技术为重建美国工业能力提供新路径 可能实现制造业回流和复杂工业体系重建[16] - 建议创业者避开OpenAI核心业务 专注空白领域 如应用商店、个性化模型集成等方向[17] 界面革命与创业黄金时代 - 未来人机交互将"融化"为无感状态 AI像优秀人类助手仅在必要时出现 改变当前信息过载的交互方式[21] - 计算机交互正经历第三次革命 前两次是键盘鼠标和触控屏 本次由AI驱动将产生全新交互范式[22] - SaaS未来可能演变为API+数据库+LLM界面 UI将由大模型即时生成 当前是创业最佳时机[23] 能源与未来愿景 - AI发展与能源紧密相关 能源限制决定可运行的智能规模 需解决算力与地球散热的平衡问题[29][30] - 人均能耗与生活质量强相关 技术乐观主义相信"激进富足" 通过AI和无限能源创造美好未来[30] - AI推动科学进步是长期增长核心 未来10-20年可能出现超级智能 大幅加速科学发现速度[27] 早期经历与对年轻创业者的建议 - 创业需要长期坚持信念和韧性 即使遭遇失败也要继续前行 首个项目失败是常见经历[32] - 招聘应关注"斜率高的人"而非"y轴截距高的人" 即选择成长速度快、有好奇心的人才[26] - CEO工作挑战在于同时处理大量不相关但重要的决策 远超常人承受范围[26]
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 12:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]
Lex Fridman 对谈谷歌 CEO:追上进度后,谷歌接下来打算做什么?
Founder Park· 2025-06-06 15:03
Google AI战略与产品进展 - Google通过整合Brain和DeepMind团队成立Google DeepMind 显著提升AI研发能力[5][6][9] - 公司TPU基础设施投资已持续十年 目前正扩大规模以支持大模型训练[6][8][12] - Gemini系列模型处理token量从12个月前的9 7万亿/月暴增至480万亿/月 增长50倍[27][28] - 推出Gemini 1 5 Pro、Flash等差异化产品线 Pro模型能力达Ultra的80%-90%但成本更低[30][31] 搜索业务AI化转型 - 搜索未来将部署多路径检索模型 整合网络信息并引导至有价值内容[4][14] - AI概览功能已嵌入广告 用户反馈积极并推动产品增长[15][16][18] - AI模式作为独立标签页测试 成熟后将逐步迁移至主搜索页面[18][21] - 非英语用户受益显著 Gemini多模态能力打破语言信息壁垒[15][22] 技术突破与行业影响 - 30%代码由AI辅助生成 整体工程效率提升10%[32][33] - 计算领域下一个交互范式是AR Project Astra项目将重塑Android XR生态[36][37][38] - 自动驾驶领域Waymo完成1000万次付费服务 最后20%技术攻坚比初期80%更耗时[39][40] - 当前处于AJI(非均衡AI)阶段 2030年前或难实现AGI但各维度将现飞跃[42][43][44] AI长期价值与产业变革 - AI独特之处在于递归式自我改进 将超越电力成为人类史上最重要技术[57][58] - 创造力门槛降低将释放全球80亿人认知潜力 内容创作群体或达十亿级[60][62][64] - 未来顶级内容体验仍依赖人类特质 AI生成与人类创作将长期共存[63][64][66] - 模型推理能力构建基于科学原理而非硬编码规则 尤其在数理领域[25][26][29]
中金 | AI进化论(11):GTC 2025,超摩尔定律延续,CPO正式亮相
中金点睛· 2025-03-27 23:33
文章核心观点 - NVIDIA GTC 2025大会上CEO从供需端分析AI硬件行业趋势,带来CPO通信技术更新,需求端缓解算力通缩担忧,供给端芯片、服务器和网络通信有新品发布及技术进展,CPO虽处产业化初期但长期有扩大应用机会 [1][3][4] 行业需求 - 投资者因LLM预训练成本收益比下降和开源模型降成本而担忧算力硬件市场增长,公司重申预训练后、后训练和长思维链推理等场景遵循Scaling Law,加速token消耗扩大算力需求,如强化学习和思维链推理,还预计2028年全球数据中心资本开支超1万亿美元 [7] - AI产业拐点至,推理任务占比在算力需求中增长,推理需求对Blackwell GPU订单量贡献上升,大会发布Dynamo推理软件优化推理任务,协调加速GPU间通信,采用Prefill/Decode分离模式 [9] 硬件更新之芯片&服务器 - 大会公布未来三年数据中心GPU及系统级产品,FP4稠密算力三年翻10x,公司将以GPU die数量命名系统及产品 [14] - Blackwell Ultra预计2H25交付,采用新设计,FP4精度算力较B200系列提升50%,内存配置升级至288GB HBM3E [14] - Vera Rubin自2H26起成主力产品,采用TSMC 3nm工艺,释放I/O die到独立小芯粒,系统级产品以NVL 144架构起步,CPU采用新架构,互联带宽提升;2H27有望推出Rubin Ultra,性能进一步跨越,推出NVL 576机柜产品 [15] - Feymann有望2028年推出,与Vera CPU搭配并迎来HBM升级 [16] 硬件更新之网络 C2C和B2B互联持续迭代 - Scale-up网络中,Vera Rubin NVL144机柜NVLink升级至6,连接总带宽达260TB/s,2027年下半年Rubin Ultra NVL576的NVLink迭代至7,聚合总带宽达1.5PB/s,提升GPU间通信效率 [21] - Scale-out网络中,Vera Rubin NVL144用Connect-X9智能网卡,总带宽28.8TB/s,Rubin Ultra NVL576总带宽提升至115.2TB/s,Rubin平台用Connect-X9和102T Spectrum6 CPO交换机,Feynman平台有望引入Connect-X10和204T Spectrum7 CPO交换机 [22] CPO交换机正式亮相 - CPO构建高密度光互连,缩短光信号电学互连长度,减少信号衰减和失真,未来走向晶圆级封装提升互连密度 [24] - GTC 2025发布三款CPO交换机,IB CPO交换机有望2H25量产交付,两款Spectrum CPO交换机有望2H26交付 [27] - 硅光调制采用微环调制器,尺寸小、功耗低,115.2T IB CPO交换机中每个硅光引擎用MRM调制,单通道速率200Gb/s,节省3.5倍功耗 [30] - CPO处于产业化初期,面临散热、维护和实际TCO高等挑战,本次发布产品基于液冷、可插拔光连接器方案给出解决思路,长期随着技术和生态问题解决,CPO有望扩大应用,光器件与先进封装成核心增量环节 [34][35]