Workflow
AlexNet
icon
搜索文档
AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢
36氪· 2025-12-21 23:25
文章核心观点 - AI领域两位关键人物Geoffrey Hinton与Jeff Dean在NeurIPS 2025的对话回顾了人工智能发展的关键历史节点、重要突破的幕后轶事以及行业未来的发展方向,揭示了从早期神经网络研究到当今大规模模型竞赛中,算力规模、关键算法创新以及公司战略决策所扮演的核心角色 [1][4][54] AI研究的关键突破与顿悟 - Geoffrey Hinton关于模型规模扩展重要性的顿悟源于2014年听取Ilya Sutskever的报告,此前在80年代末曾错过因并行计算硬件复杂而放弃扩大模型规模的早期信号 [13] - Jeff Dean在1990年的本科毕业论文中已探索用于训练神经网络的并行算法,使用了32个处理器的超立方体计算机,并发明了早期的“数据并行”和“模型并行”概念,但因仅拆分10个神经元的层而未同步扩大模型规模导致性能不佳 [7][11] - 2012年AlexNet的成功源于纠正权重衰减参数错误、使用ImageNet大型数据集以及学生Alex Krizhevsky在卧室用两块英伟达GTX 580 GPU完成训练,该8层神经网络此前曾被评审认为“不可能产生任何工业影响” [17][18][21][23] 谷歌大脑的诞生与早期验证 - 谷歌大脑的雏形源于Jeff Dean与Andrew Ng在茶水间的一次闲聊,Andrew Ng提到其学生用神经网络取得不错成果,促使Jeff Dean思考利用谷歌海量CPU训练超大神经网络 [25][26] - 谷歌大脑早期进行了一次著名实验:在1000万YouTube视频帧上无监督学习,让神经网络学会识别“猫”,该模型采用局部连接方式,参数达20亿,动用了16000个CPU核心 [28] - 在AlexNet出世前一年,谷歌大脑已通过实验观察到“更大的模型、更多的数据、更多的算力”带来更好效果,验证了后来的Scaling Laws [31] 关键人才与公司的战略决策 - 2012年,64岁的Geoffrey Hinton以“实习生”身份加入谷歌,成为Jeff Dean的实习生,起因是Andrew Ng转向Coursera并推荐Hinton接棒 [32][33] - AlexNet成功后,Hinton成立DNN Research公司并举办拍卖会,谷歌、微软、百度等公司参与争夺,地点设在南太浩湖赌场,每次加价至少100万美元,Hinton内心早已决定让谷歌获胜,部分原因源于其夏季的实习生经历 [35][36][38] - 2014年,Hinton参与的“模型蒸馏”论文被NeurIPS拒稿,审稿人不理解其想法,但该技术后来成为大语言模型的核心技术之一 [40] Transformer的诞生与行业影响 - Transformer的灵感来源于序列到序列的工作,旨在解决LSTM的顺序依赖和状态压缩瓶颈,其核心思想是保存所有状态并施加注意力机制,该机制早期由Bahdanau等人引入 [43] - Transformer被证明非常优雅,因为它可以并行计算所有状态,且用少10到100倍的算力即可达到同等甚至更好的效果,但谷歌内部最初并未将其视为“鹤立鸡群”的突破 [45] - 2023年ChatGPT的发布让谷歌内部拉响“红色警报”,Jeff Dean撰写备忘录承认“自己犯傻”,因为公司早已知道算力规模与模型质量强相关,但将研究想法、人力和算力切割得太碎,随后促成了Google Brain与DeepMind合并为Google DeepMind,直接催生了Gemini模型 [46][48] 公司的竞争优势与未来方向 - 谷歌强调硬件与模型的“协同设计”,研究人员与硬件团队紧密合作布局未来2-6年的趋势,甚至用强化学习优化芯片布局布线,提升了芯片质量并加速研发流程,其TPU硬件构成强大护城河 [48][50][51] - 对于AI未来,Jeff Dean兴奋的方向之一是扩展注意力机制的触达范围,从百万Token到数万亿,让模型直接访问所有科学论文和视频,而非将信息压缩进权重,这需要硬件创新及更节能、性价比更高的推理芯片 [52] - 未来将探索更动态、脑启发的架构以改进目前模型缺乏“持续学习”、训练后固定不变的现状,混合专家模型的结构被认为“不算太有意思” [54] - 预测未来20年,AI将导致许多工作消失,但不确定是否会创造足够的新工作替代,同时AI有望加速科学发现,连接不同领域并自动化发现闭环,医疗与教育领域将发生剧烈变革,大模型能压缩巨量知识并发现跨领域的远距离类比 [56]
为什么现代 AI 能做成?Hinton 对话 Jeff Dean
36氪· 2025-12-19 00:47
2025 年 12 月初,圣地亚哥 NeurIPS 大会。 Geoffrey Hinton(神经网络奠基人、2024年诺贝尔物理学奖得主)与Jeff Dean(Google首席科学家、 Gemini模型联合负责人、TPU架构师)的炉边对谈,成为这场大会的重要时刻。 对话聚焦一个关键问题: 现代 AI 为什么能从实验室走向数十亿用户? 从 AlexNet 在学生卧室的两块 GPU 上训练,到 Google 在餐巾纸上算出TPU需求;从学术圈的小众实 验,到支撑全球亿级应用的基础设施。 这是一次对 AI 工业化进程的系统性复盘。 他们给出的答案是:现代 AI 的突破从来不是单点奇迹,而是算法、硬件、工程同时成熟后的系统性涌 现。强算法必须与强基础设施结合,才能真正走向规模化。 看清这条路径,你就能理解AI为什么是今天这个样子。 第一节|AI的突破,起于一块GPU板 Geoffrey Hinton 说,现代 AI 真正的转折,不在某篇论文里,而是在他学生 Alex 的卧室里:两块 NVIDIA GPU 板,插在父母家电脑上,训练图像识别模型。电费,还是家里人掏的。 那是 2012年 ,ImageNet 比赛。 别人 ...
被拒≠失败!这些高影响力论文都被顶会拒收过
具身智能之心· 2025-12-12 01:22
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客,并重点介绍了Waymo使用的蒸馏方法,该方法与创建Gemini Flash模型的思路类似,旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史,许多支撑起万亿级产业的基石技术在最初问世时,都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人,但在面对过于超前或离经叛道的研究时,存在系统性认知滞后,包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明,同行评审善于识别错误,但往往拙于鉴别天才,真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下,其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次,并在2010年代随算力与数据爆发,于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅,不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表,统治计算机视觉领域长达15年,其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑,并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键,论文引用量超过60,231次,并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人(包括Jeff Dean)关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐,认为工作“不科学”、“定义模糊”,且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及,成为NLP领域基石,论文引用量超过50,855次,并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿,理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义,即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表,开启了模型压缩领域,目前引用量已超过28,600次,并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代,评审因其定位精度(mAP)不如当时最优方法而拒绝,忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架,其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限,只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线,论文引用量超过23,479次,揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足,且未能在所有任务上全面超越Transformer[37] - 尽管被拒,该架构在社区引发巨大反响,基于Mamba的变体大量涌现,成为2024年最具影响力的架构创新之一,论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见,尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明,一项研究的最终价值取决于其解决问题的能力及历史回响,而非短暂的评审决定[47] - 许多具有深远影响的研究者,包括图灵奖和诺贝尔奖得主,都曾经历过论文被拒[48]
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
机器之心· 2025-12-11 10:00
论文获奖与演讲背景 - 任少卿、何恺明、Ross Girshick和孙剑合著的论文《Faster R-CNN》在NeurIPS 2025会议上获得了“时间检验奖” [1] - 该论文自2015年发表以来,奠定了现代目标检测框架的核心范式,并深刻影响了随后十年的视觉模型发展方向 [1] - 何恺明在大会上发表了题为《视觉目标检测简史》的演讲,总结了30年来该领域的发展历程 [5][6] 早期目标检测:手工特征时代 - 在深度学习爆发前,计算机视觉依赖手工设计的特征和分类器,如SVM,这种方法速度慢且难以适应复杂场景 [12] - 关键里程碑包括:1996年基于神经网络的人脸检测、1997年SVM用于人脸检测、2001年Viola-Jones框架、1999年SIFT特征、2003年视觉词袋模型、2005年HOG特征与金字塔匹配核、2006年空间金字塔匹配、2008年可变形部件模型DPM [14] 深度学习破晓:从AlexNet到R-CNN - 2012年,AlexNet在ImageNet竞赛中以压倒性优势夺冠,证明了深层卷积神经网络提取特征的能力远超手工设计 [15] - 2014年,Girshick等人提出划时代的R-CNN,其思路是先用传统算法生成约2000个候选区域,再将每个区域送入CNN提取特征并用SVM分类 [17][19] - R-CNN的瓶颈在于每个候选框都需单独通过CNN,计算量巨大 [18] 速度进化:从Fast R-CNN到Faster R-CNN - 2014年,何恺明团队提出SPP-Net,引入空间金字塔池化层,允许网络处理任意大小图片并只计算一次全图特征,大大加速检测 [19] - 2015年,Girshick借鉴SPP-Net提出Fast R-CNN,引入RoI Pooling,将特征提取、分类和回归整合到一个可端到端训练的网络中 [19] - 2015年,何恺明团队最终提出Faster R-CNN,核心是引入了区域提议网络,从特征图上通过预设的Anchor直接预测物体位置,取代了传统的Selective Search算法,实现了真正的端到端实时检测 [25] 后Faster R-CNN时代:多样化发展与范式变迁 - 2016年,YOLO和SSD问世,采用单阶段检测范式,直接在全图上输出物体位置和类别,速度极快 [32] - 2017年,何恺明团队提出Focal Loss,解决了单阶段检测中正负样本不平衡的问题,并推出了RetinaNet [32] - 2017年,Mask R-CNN在Faster R-CNN基础上增加分割分支,实现实例分割,并引入了RoI Align解决像素对齐问题 [32] - 2020年,DETR将Transformer架构引入目标检测,完全抛弃了Anchor和非极大值抑制等后处理步骤 [32] - 2023年,SAM模型展示了视觉大模型的雏形,能够进行不限类别的通用分割 [32] 总结与启示 - 何恺明在演讲中以“驶入迷雾”比喻科学探索,强调没有预先画好的地图,甚至不知道终点是否存在 [34][36] - 从手工特征到CNN,再到Transformer,每一次飞跃都是对旧有瓶颈的突破,Faster R-CNN的核心启示在于:当旧的组件成为瓶颈时,用更强大的可学习模型去取代它 [35]
黄仁勋最新采访:依然害怕倒闭,非常焦虑
半导体芯闻· 2025-12-08 10:44
人工智能竞赛与国家安全 - 全球一直处于技术竞赛中,从工业革命、二战、曼哈顿计划到冷战,而当前的人工智能竞赛可能是最重要的一场,因为科技领导力能带来信息、能源和军事上的超能力 [12] - 确保关键技术在美国本土研发和制造关系到国家安全,重振美国制造业和工业能力对于投资、就业和解决国内问题至关重要 [7][8] - 前总统特朗普的促进增长的能源政策(如“钻井,宝贝,钻井”)被认为是拯救人工智能产业的关键,没有能源增长就无法建造人工智能工厂、芯片工厂和超级计算机工厂 [8] 人工智能发展现状与未来 - 人工智能能力在过去两年里可能增长了100倍,相当于两年前的汽车速度慢了100倍,计算能力的巨大提升被用于使技术更安全、更可靠 [14] - 人工智能性能未来一千倍的提升,其中很大一部分将用于更多的反思、研究和更深层次的思考,以确保答案的准确性和基于事实,类似于汽车技术将更多动力用于ABS和牵引力控制等安全功能 [14][16] - 预计未来两三年内,世界上90%的知识可能都将由人工智能产生,这与从人类编写的材料中学习区别不大,但仍需核实事实和基于基本原理 [41] 人工智能的风险、安全与控制 - 人工智能的风险被类比为左轮手枪里有10发子弹取出8发,仍存在不确定性,但人工智能的发展将是渐进的,而非一蹴而就 [13] - 人工智能的军事应用是必要的,需要让科技公司投身国防技术研发更容易被社会接受,拥有过剩的军事力量是避免战争的最好办法之一 [19][20] - 人工智能不会突然获得意识并统治人类,因为人类也在同步使用和进步,人工智能的威胁更类似于网络安全问题,可以通过协作防御来应对 [28][30] 人工智能对就业与经济的影响 - 以放射科医生为例,人工智能并未导致该职业消失,反而因为能更高效处理影像(如3D/4D形式),使医院能服务更多患者,从而增加了放射科医生的雇佣数量,工作的核心意义(如诊断疾病)并未改变 [46][47] - 自动化会取代部分任务型工作,但会催生全新的行业和岗位,例如机器人技术将带来机器人制造、维修、服装等以前不存在的完整产业链 [50] - 关于全民基本收入与普遍富裕的讨论存在悖论,未来可能处于两者之间,富有的定义可能从拥有金钱转变为拥有丰富的资源(如信息),而目前稀缺的资源未来可能因自动化而贬值 [51][52] 技术普及与能源挑战 - 人工智能有望大幅缩小技术鸿沟,因为它是世界上最易用的应用(如ChatGPT),用户可通过自然语言交互,无需学习编程语言,且未来手机将能完全自主运行强大的人工智能 [55][56] - 能源是当前人工智能发展的主要瓶颈,未来五到十年,许多公司可能会建造自有的大约几百兆瓦的小型核反应堆来为人工智能工厂供电,这也能减轻电网负担 [57][59][60] - 加速计算是驱动人工智能革命的关键,英伟达发明的这种全新计算方式在过去十年里将计算性能提高了10万倍,遵循“英伟达定律”,使得计算所需的能耗大幅降低,未来人工智能将因能耗极低而无处不在 [58][62] 英伟达的发展历程与技术创新 - 公司成立于1993年,最初旨在创造一种全新的计算架构,早期通过与世嘉等游戏公司合作,将用于飞行模拟器的3D图形技术应用于街机,从而进入了3D图形游戏领域 [79][80][81] - 2012年,多伦多大学Geoffrey Hinton实验室的研究人员利用两张NVIDIA GPU(GTX 580 SLI)训练出AlexNet模型,在计算机视觉上取得突破性飞跃,这被视为现代人工智能的“大爆炸”起点 [63][64][71][72] - 公司发明的CUDA平台和加速计算方式,利用并行处理能力,使得GPU成为可放在个人电脑中的超级计算机,这最初为计算机图形学和游戏开发,后来成为深度学习革命的基石 [64][66] - 2016年,公司将第一台价值30万美元、运算能力为1 petaflops的DGX-1超级计算机赠予Elon Musk,用于其非营利人工智能研究(即OpenAI),九年后,同等算力的DGX Spark体积大幅缩小,价格降至4000美元 [74][75][76]
黄仁勋最新采访:依然害怕倒闭,非常焦虑
半导体行业观察· 2025-12-06 03:06
人工智能技术发展与竞赛 - 人工智能技术在过去两年内能力提升了约100倍 [13] - 人工智能性能未来有提升一千倍的潜力 [15] - 技术竞赛自工业革命以来一直存在 当前的人工智能竞赛是最重要的一场 [10][11] - 科技领导力至关重要 赋予信息、能源和军事超能力 [11] 人工智能应用与安全 - 大量计算能力被用于提升人工智能的安全性、可靠性和真实性 例如通过反思和研究来减少幻觉 [13][14] - 人工智能能力提升很大一部分将用于更深入的思考、周密的计划和更多的选择 [15] - 网络安全防御依赖于整个行业社群的协同合作 共享漏洞信息和补丁程序已持续约15年 [20] - 人工智能技术正被应用于国防领域 认为拥有过剩的军事力量是避免战争的最好办法之一 [16][17] 人工智能对经济与就业的影响 - 以放射科医生为例 人工智能并未导致该职业消失 反而因为提升了诊断效率和医院经济状况而增加了岗位数量 [41][42] - 工作的核心意义可能不会因自动化而改变 例如律师的职责是帮助他人 而研究文件只是部分工作 [42][43] - 人工智能可能催生全新的行业和就业岗位 例如机器人制造、维修、服装设计等 [44] - 自动驾驶技术可能不会导致所有司机失业 部分司机会转型 技术的应用会创造新的工作类型 [42][44] 人工智能普及与能源瓶颈 - 人工智能是世界上最容易使用的应用 例如ChatGPT用户数量在短时间内增长到近十亿 这有助于缩小技术鸿沟 [47] - 未来几年内 手机将能够完全自主运行人工智能 使每个国家和社会都能受益 [48] - 能源是目前人工智能发展的主要瓶颈 [48][50] - 加速计算技术在过去十年将计算性能提高了10万倍 遵循“英伟达定律” [49][51] - 随着性能提升和能耗降低 未来人工智能所需的能源将微乎其微 从而无处不在 [50] 英伟达公司发展历程与技术 - 公司成立于1993年 旨在创造一种全新的计算架构 [64] - 早期与日本世嘉合作 涉足3D图形游戏领域 游戏产业成为关键驱动力 [64][65] - 公司的GPU最初为处理电脑游戏图形而设计 采用并行处理方式 成为面向消费者的超级计算机 [52][53] - 2012年 AlexNet在计算机视觉领域取得突破 该模型使用了两张NVIDIA显卡进行训练 [51][52] - 深度学习是一种通用函数逼近器 只要有输入和输出示例 就能推导出内部函数结构 可应用于几乎任何领域 [54][55] - 2016年 公司将第一台DGX-1超级计算机(售价30万美元)赠予埃隆·马斯克 用于其非营利人工智能研究(即OpenAI) [60][61] - 从DGX-1到DGX Spark 在保持1 petaflops计算能力的同时 价格从30万美元降至4000美元 体积也大幅缩小 [62]
算力悖论:理论对了所需算力是可控的,理论错了再多算力也白搭
36氪· 2025-12-01 00:25
文章核心观点 - 当前人工智能行业依赖堆算力、拼规模的Scaling发展模式已走到尽头,方向存在根本性错误 [1][3] - 行业竞争将回归“真正的研究”,理论突破比算力预算更重要,范式转变即将发生 [1][5][10] - 谷歌在大模型领域的进展印证了新理论,预示“软硬一体”公司竞争模型将成为人工智能公司的必由之路 [2] Scaling时代的终结 - Scaling战略的确定性吸引海量投资,但高质量训练数据已快见底,收益递减拐点已来临 [3] - 现有路径能再走一段但后劲不足,不会成为真正的智能,需要另一种方法 [3] - 理论正确时所需算力可控,理论错误时再多算力也无效,形成算力悖论 [5] 模型泛化能力的根本缺陷 - 当前模型在基准测试风光但真实场景频繁失败,暴露出泛化能力远逊人类的根本问题 [6] - 模型像偏执的专才,在狭窄领域过度优化却丧失广泛能力,与人类快速学习、广泛适应的智能模式不同 [7][8] - 理解可靠泛化机制是核心未解之谜,修复底层机制可解决许多表面问题包括AI对齐 [8] 研究优先的新算法与公司策略 - 前沿实验室开支被推理基础设施、产品工程等多方分散,真正留给研究的预算差距缩小 [9] - 历史范式突破如AlexNet、Transformer均不需要最大算力规模而依靠洞察力 [10] - SSI公司结构体现纯粹研究理念:无产品、无推理负载,30亿美元融资专注验证泛化理论 [10] 对AGI概念的重新思考与未来预测 - AGI概念被高估,人类本身也不是AGI,智能是通过经验学习具体技能而非一次性前置灌输 [12] - 具备类人泛化能力的学习系统将在5到20年内出现,行业行为将改变,安全合作与政府介入将加深 [13] - 对齐目标倾向关心所有感知生命,这比只关心人类更自然,基于大脑共情神经机制的效率原则 [13] 研究品味与行业范式回归 - 有希望的研究方向通常优美、简洁且从生物智能获得灵感,丑陋方法通常预示问题 [14] - 研究依赖对“某些路径必然有效”的强烈信念,这种信仰是任何规模算力都无法替代的 [14][15] - Scaling为研究信仰提供的替代品已消失,行业将回归由想法驱动、充满不确定性的研究本身 [15]
李飞飞站队LeCun,AGI全是炒作,80分钟重磅爆料出炉
36氪· 2025-11-17 09:52
AI发展历程与驱动力 - 21世纪初AI领域处于漫长寒冬,更常被称为机器学习,公众关注度低且资金投入少[10][14] - 2006-2007年启动ImageNet项目,从互联网搜集1500万张图像并打上22000个类别的精准标签,该项目开源并启动年度挑战赛[21][23] - 2012年多伦多大学研究团队使用2块英伟达GPU和ImageNet数据训练出AlexNet,标志着深度学习与现代AI起步的关键时刻[23][24] - 大数据、神经网络和GPU构成现代AI发展的黄金三件套[6][26] - 2015年中至2016年中,硅谷大厂刻意避谈AI一词,一年后AI拐点出现,众多公司开始将自己定位为AI公司[26] 世界模型与空间智能 - AI未来十年的下一个前沿是空间智能与世界模型,其核心在于将语言之外的智能、具身AI机器人和视觉智能串联起来[28][33] - 世界模型被定义为一个基础层,通过输入一张图或一句话即可生成一个可无限探索的3D世界,人们可在此基础上进行推理、交互和创造[37][38] - 人类作为具身智能体同样能从世界模型和空间智能中获益,例如科学家通过2D X射线衍射照片在脑海中构建3D模型从而发现DNA双螺旋结构[39] - 2024年通过TED演讲系统化阐述空间智能和世界模型理念,并创办World Labs公司以推动该领域发展[34][36] 技术应用与行业影响 - World Labs推出的Marble平台应用于电影虚拟制片、游戏互动内容及机器人模拟训练等领域[41] - 在电影拍摄中,Marble平台通过描述生成可导航的3D世界,使虚拟摄像机自由走位且场景可反复修改,艺术家团队称制作时间缩短40倍[43] - 游戏开发者可将Marble生成的世界导出至游戏引擎用作关卡原型,助力小团队打造大片级场景而不受美术资源限制[43] - 机器人领域面临数据困境,其输出为真实三维世界中的动作,训练数据极难获取,需通过遥操作、合成环境等方式收集[44][45] - 机器人是物理系统,更像自动驾驶汽车而非大语言模型,需同时解决算法模型、硬件本体和应用场景问题,发展路径漫长且挑战多维[45][46] 研究理念与未来方向 - 智能通过大数据学习获得,关键是为机器人提供足够多且多样的世界经验,Marble平台通过提示词生成各种场景供机器人在虚拟世界练习[46] - 在AI与AGI之间没有清晰科学界限,AGI更像营销用语而非严谨科学术语,其定义未统一[26] - 研究者应关注最令人兴奋且难以入眠的科学问题,而非仅聚焦盈利最多的领域,同时不过度放大失败可能性,并重视团队协作价值[47]
Meta裁员、OpenAI重组:万字复盘谷歌起笔的AI史诗,如何被「群雄」改写剧本?
机器之心· 2025-11-02 01:37
AI行业格局转变 - AI行业正从“无限淘金热”转向残酷的“阵地战”,资本开始重新评估价值,巨头们审视成本与效率 [1] - Meta FAIR部门遭裁员、OpenAI进行资本重组、AWS大裁员等一系列动荡表明行业进入新阶段 [1] 谷歌的AI基因与早期探索 - 人工智能是谷歌从诞生之初的核心理念,受创始人Larry Page父亲(早期机器学习教授)的影响 [5][9] - 2000年Larry Page断言人工智能将是谷歌的终极版本,终极搜索引擎就是人工智能 [9] - 谷歌起家的PageRank算法运用统计方法排序网页,带有早期AI思想印记 [10] - 2000年末工程师提出“压缩即理解”理论,探索语言模型和机器理解,这是现代LLM思想的早期体现 [12] - 研究成果直接应用于谷歌搜索的拼写纠错功能,并开发了消耗数据中心整体资源15%的语言模型PHIL [14][16] - PHIL在2003年被用于快速实现AdSense系统,为谷歌带来数十亿美元新收入 [15] 深度学习革命与谷歌的拥抱 - 2007年Geoff Hinton将深度学习火种带入谷歌,当时神经网络正被学术界边缘化 [20] - 谷歌的统计方法本身是对僵化专家系统的反叛,为结合深度学习奠定基础 [21] - 2011年吴恩达、Jeff Dean等发起Google Brain项目,目标构建大规模深度学习模型 [27] - Jeff Dean主导开发DistBelief分布式计算系统,采用有争议的异步更新参数方式但被证明高效 [28][29] - Google Brain的“猫论文”实验使用16000个CPU核心训练,神经网络自主学会识别猫脸 [30] - “猫论文”证明无监督学习能力,催生YouTube算法推荐时代,驱动数百亿乃至数千亿美元产业价值 [32][33][34] 关键突破与硬件变革 - 2012年AlexNet在ImageNet竞赛中将错误率从25%以上降至15.3%,提升超过40% [35][37] - AlexNet创造性使用NVIDIA GPU进行并行训练,确立GPU作为AI计算核心硬件的地位 [39] - 谷歌因应算力瓶颈,自研专门用于神经网络计算的TPU芯片,15个月内完成设计到部署 [62][63] - TPU针对矩阵运算优化并采用低精度计算,为谷歌提供成本优势和战略自主权 [63] 人才争夺与实验室建立 - 谷歌以约4400万美元收购AlexNet核心团队DNN Research,被认为是史上最划算交易之一 [41][42] - 2013年扎克伯格力邀Yann LeCun建立FAIR实验室,采用开放研究模式 [43][45][47] - FAIR为Meta提供核心技术、开源工具PyTorch以及Llama系列开源模型 [48] - 2014年谷歌以约5.5亿至6.5亿美元收购DeepMind,但其后与Google Brain存在内耗 [56][57] - DeepMind在AlphaGo项目中击败李世石,并将谷歌数据中心冷却能耗降低40% [58] OpenAI的崛起与转型 - 2015年因马斯克对谷歌垄断的担忧,联合Sam Altman创立OpenAI,获10亿美元初始承诺 [64][65][68] - Ilya Sutskever被使命吸引离开谷歌加入OpenAI,尽管Jeff Dean提供双倍薪酬反聘 [66] - 2018年OpenAI因资金压力重组,设立利润上限子公司并获得微软10亿美元投资 [86][87] - OpenAI转型开发GPT系列模型,GPT-3展现出惊人能力,GitHub Copilot成为首个大规模落地产品 [90][91] - 2021年Dario Amodei因安全与商业化分歧带领核心成员出走,创立Anthropic [92][95] Transformer架构与新时代 - 2017年谷歌发表《Attention Is All You Need》论文,提出Transformer架构 [74][76] - Transformer解决RNN/LSTM序列处理难题,具备高度并行化优势 [76] - 架构展现出“更多数据+更大模型+更多算力≈更好智能”的可扩展性 [80][81] - 谷歌允许论文公开发表,将“钥匙”交给全世界,包括潜在竞争对手 [84] - 论文八位作者后来相继离开谷歌 [84] ChatGPT冲击与谷歌反击 - 2022年11月ChatGPT发布,一周用户破百万,两个月破亿,成为史上增长最快消费应用 [97] - ChatGPT成功震醒谷歌,Sundar Pichai拉响“Code Red”红色警报 [99] - 微软迅速追加100亿美元投资OpenAI,并发布新版Bing搜索引擎直指谷歌核心业务 [99] - 谷歌仓促推出Bard但出现事实错误,促使公司进行大刀阔斧改革 [102][103] - 2023年谷歌合并Google Brain和DeepMind,组建统一Google DeepMind部门由Demis Hassabis领导 [105][106] - 谷歌All in Gemini项目,集中精英力量开发统一多模态旗舰模型系列 [105][106] - Gemini系列快速迭代,Gemini 2.5 Pro成为顶尖模型,并整合进搜索等产品 [107] - Google DeepMind在AI for science领域突破,AlphaFold 2解决蛋白质折叠问题,团队获2024年诺贝尔化学奖 [107][108] 当前竞争格局 - 谷歌一度受大公司体制束缚将王牌拱手让人,OpenAI成为最具实力玩家之一 [109] - Meta曾稳坐开源王座,如今在军备竞赛与成本效益平衡中艰难变革 [109] - 中国AI力量异军突起,DeepSeek、Qwen、Kimi等奋力追赶 [109] - 行业没有永远王者,巨头霸权可能被自身问题拖垮,后起之秀威胁迫近 [110]
全球首个「百万引用」学者诞生!Bengio封神,辛顿、何恺明紧跟
自动驾驶之心· 2025-10-25 16:03
AI领域学术影响力里程碑 - Yoshua Bengio成为全球首位论文引用量突破100万次的学者,标志着AI学术影响力达到新高峰[2][3] - Geoffrey Hinton以97万次引用紧随其后,有望成为全球第二位突破百万引用的学者[5] - 深度学习三巨头(Bengio、Hinton、Yann LeCun)共同获得2018年图灵奖,其中LeCun引用量超过43万次[6][7][13] 顶尖AI研究者学术成就 - Yoshua Bengio在全球计算机科学领域排名第一,总引用量987,920次,近五年引用量711,796次,占比72%[8] - Geoffrey Hinton全球排名第二,总引用量963,982次,近五年引用量588,843次,占比61.1%[8] - 何恺明论文总被引超过75万次,其2016年发表的深度残差网络(ResNets)论文被引298,327次,是二十一世纪被引用次数最多的论文[48][51] - Ilya Sutskever论文总被引超过70万次,作为OpenAI和ChatGPT缔造者,与Hinton存在师徒关系[53][18] AI论文引用爆发式增长原因 - 2012年AlexNet在ImageNet上的突破性表现被视为深度学习"引爆点"[20] - 2017年Transformer架构提出和2018年BERT模型出现,推动预训练/微调范式发展,带来AI论文二次爆发[24] - 2010-2022年全球AI论文总量从约8.8万篇增长至24万篇以上,实现近三倍增长[30] - AI论文占计算机科学论文比例从2013年的21.6%升至2023年的41.8%,几乎占据计算机科学领域一半论文[31][32] AI领域学术会议活跃度 - ICLR 2024接收论文2260篇,投稿量较2023年增加2324篇[36] - NeurIPS 2024总投稿17491篇(主会15671篇),接收4497篇[36] - CVPR 2024投稿11532篇,接收2719篇,录用率23.6%[36] 其他高影响力AI研究者 - GAN之父Ian Goodfellow引用量38万+[61] - 谷歌人工智能负责人Jeff Dean引用量37万+[61] - ImageNet创建者李飞飞引用量32万+[61] - LSTM之父Juergen Schmidhuber引用量29万+,其1997年LSTM论文被引136,740次[61][67] - Coursera创始人吴恩达引用量29万+[61] - Gemini技术负责人Noam Shazeer引用量28万+,其参与的"Attention is All You Need"论文被引209,694次[61][69]