Workflow
无监督学习
icon
搜索文档
LeCun离职前的吐槽太猛了
量子位· 2025-12-21 05:45
一水 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 好一个一吐为快! 年底就要正式离开Meta的LeCun,这下真是啥都不藏了。 不看好大语言模型能通往AGI,他就言辞犀利地指出: 通往超级智能之路——只需训练大语言模型,用更多合成数据训练,雇佣成千上万的人在后训练中"教育"你的系统,发明强化学习的新 花招—— 我认为这完全是胡说八道。这根本行不通 。 看不惯即将成为"前任"的Meta的封闭作风,他也直言不讳: Meta正在变得更加封闭……FAIR被推动去从事一些比传统上更偏向短期的项目。 而且还顺带剧透,自己将要创办的新公司仍会继续坚持开放。 以上内容来自LeCun最新参与的一档播客节目。在接近两小时的对谈中,他主要回答了: 总结起来就是,不管是在Meta接近12年的研究经历,还是接下来要创办的新公司,抑或是未来想要实现的AGI,通通都在这里了。 为什么硅谷对扩展语言模型的痴迷是一条死路? 为什么AI领域最难的问题是达到狗的智能水平,而非人类的智能水平? 为什么新公司选择构建在抽象表示空间中进行预测的世界模型,而非直接生成像素的模型? …… 人生下一程:创办新公司AMI 告别工作十二年的老东家,Le ...
倒计时3周离职,LeCun最后警告:硅谷已陷入集体幻觉
36氪· 2025-12-16 07:11
对当前主流AI发展路径的批判 - 核心观点认为大语言模型路线是死路,无法通往人类水平的人工智能,硅谷对不断“堆大”LLM的痴迷是一条死路 [1][3] - 指出当前基于LLM的AI智能体在可靠性、数据效率、多模态处理上远远不足 [12] - 批评行业存在危险的“羊群效应”,科技巨头几乎都在做同一件事即疯狂堆叠LLM,形成了“单一的文化” [26][28] - 明确表示所谓的ASI路线——不断训练LLM、用更多合成数据、雇几千人做后训练、折腾RL新技巧——完全是胡说八道且永远不可能成功 [1][28] 提出的替代技术路线:“世界模型” - 主张“世界模型”才是实现人类水平AI的“正确方法”,其能够预测动作后果并用于规划,是智能的重要组成部分 [12][14] - “世界模型”在抽象表征空间中进行预测,而非像素级输出,旨在处理高维、连续和嘈杂的模态数据,这是LLM完全做不到的 [3][14][23] - 其技术基础是联合嵌入预测架构,旨在学习一个抽象的表示空间以消除输入的不可预测细节 [16] - 近20年来一直确信构建智能系统的正确途径是通过某种形式的“无监督学习”,JEPA的发展克服了早期孪生网络的模型坍塌问题 [17] 关于数据与智能的对比 - 训练一个性能不错的LLM需要互联网上约30万亿Token的文本数据,这仅相当于约15,000小时的视频 [21][22] - 一个4岁孩子醒着时看到的视觉信息大约是16,000小时,现实世界数据的结构比文本丰富得多,仅靠文本训练永远无法达到人类水平的AI [22] - 合成数据有用,但LLM并不真正理解通过经验习得的基本概念,只是被微调出来给出正确答案,更像是“反刍”而非真懂 [25] 创业公司AMI的创立与目标 - 决定在Meta外部创办Advanced Machine Intelligence,专注于“世界模型”并计划延续开放研究的传统 [4][5] - 创办AMI的动因之一是为了摆脱硅谷的单一文化,该公司是全球性的,总部将设在巴黎,并在纽约等地设立办公室 [30] - AMI的目标不仅是研究,还会打造与世界模型、规划相关的实际产品,并成为智能系统的核心供应商 [9] - 认为投资者现在愿意为这类基础研究创业公司买单是一种新现象,这在以往是不可能的 [4] 对AI行业现状与Meta的评论 - 指出行业风向正在转变,越来越多实验室选择闭源,这种趋势不利于真正突破性的研究 [4] - 透露Meta AI重组后重心完全放在了LLM,FAIR正被推向“更短期的项目”,较少强调发表论文,更多专注于协助GenAI Lab进行LLM研究,这是其选择出来创业的部分原因 [39][41] - 认为即使在硅谷的各家公司内部,也有不少人心里很清楚LLM这条路走不通 [28] - 点评了一些大模型公司,例如指出Ilya创立的SSI甚至包括他们的投资人都不知道这家公司要做什么 [41] 对AGI概念与发展时间线的看法 - 认为“通用人工智能”这个概念完全没有意义,完全是胡扯,因为人类智能是超级专业化的 [31] - 乐观预测如果在JEPA、世界模型、规划等方向未来两年取得重大进展,可能在5-10年内看到接近人类或狗智能水平的AI,但这已是极度乐观 [33] - 更现实的预测是,由于历史上多次出现未预见的障碍,实现超越可能需要20年甚至更久 [33] - 认为最难的部分不是从狗到人类,而是达到狗的水平,从灵长类动物到人类主要缺的是“语言” [35][36] 对研究文化与人才培养的建议 - 强调真正的研究需要发表论文,没有别的办法,这是目前很多行业正在遗忘的事情 [11] - 建议年轻人学习“保质期长”的知识以及能“学会如何学习”的东西,因为技术演变太快 [43] - 具体建议深入学习数学、电气工程、机械工程、物理学等基础学科,计算机科学只需学到能熟练编程的程度,这些基础能让人在AI快速变化中站稳脚跟 [45][46] - 认为“世界模型”所在的地方类似于大脑的前额叶皮层,而LLM在语言编码/解码上表现不错,或许能充当大脑的韦尼克区和布罗卡区 [36][38]
黄仁勋最新采访:依然害怕倒闭,非常焦虑
半导体芯闻· 2025-12-08 10:44
人工智能竞赛与国家安全 - 全球一直处于技术竞赛中,从工业革命、二战、曼哈顿计划到冷战,而当前的人工智能竞赛可能是最重要的一场,因为科技领导力能带来信息、能源和军事上的超能力 [12] - 确保关键技术在美国本土研发和制造关系到国家安全,重振美国制造业和工业能力对于投资、就业和解决国内问题至关重要 [7][8] - 前总统特朗普的促进增长的能源政策(如“钻井,宝贝,钻井”)被认为是拯救人工智能产业的关键,没有能源增长就无法建造人工智能工厂、芯片工厂和超级计算机工厂 [8] 人工智能发展现状与未来 - 人工智能能力在过去两年里可能增长了100倍,相当于两年前的汽车速度慢了100倍,计算能力的巨大提升被用于使技术更安全、更可靠 [14] - 人工智能性能未来一千倍的提升,其中很大一部分将用于更多的反思、研究和更深层次的思考,以确保答案的准确性和基于事实,类似于汽车技术将更多动力用于ABS和牵引力控制等安全功能 [14][16] - 预计未来两三年内,世界上90%的知识可能都将由人工智能产生,这与从人类编写的材料中学习区别不大,但仍需核实事实和基于基本原理 [41] 人工智能的风险、安全与控制 - 人工智能的风险被类比为左轮手枪里有10发子弹取出8发,仍存在不确定性,但人工智能的发展将是渐进的,而非一蹴而就 [13] - 人工智能的军事应用是必要的,需要让科技公司投身国防技术研发更容易被社会接受,拥有过剩的军事力量是避免战争的最好办法之一 [19][20] - 人工智能不会突然获得意识并统治人类,因为人类也在同步使用和进步,人工智能的威胁更类似于网络安全问题,可以通过协作防御来应对 [28][30] 人工智能对就业与经济的影响 - 以放射科医生为例,人工智能并未导致该职业消失,反而因为能更高效处理影像(如3D/4D形式),使医院能服务更多患者,从而增加了放射科医生的雇佣数量,工作的核心意义(如诊断疾病)并未改变 [46][47] - 自动化会取代部分任务型工作,但会催生全新的行业和岗位,例如机器人技术将带来机器人制造、维修、服装等以前不存在的完整产业链 [50] - 关于全民基本收入与普遍富裕的讨论存在悖论,未来可能处于两者之间,富有的定义可能从拥有金钱转变为拥有丰富的资源(如信息),而目前稀缺的资源未来可能因自动化而贬值 [51][52] 技术普及与能源挑战 - 人工智能有望大幅缩小技术鸿沟,因为它是世界上最易用的应用(如ChatGPT),用户可通过自然语言交互,无需学习编程语言,且未来手机将能完全自主运行强大的人工智能 [55][56] - 能源是当前人工智能发展的主要瓶颈,未来五到十年,许多公司可能会建造自有的大约几百兆瓦的小型核反应堆来为人工智能工厂供电,这也能减轻电网负担 [57][59][60] - 加速计算是驱动人工智能革命的关键,英伟达发明的这种全新计算方式在过去十年里将计算性能提高了10万倍,遵循“英伟达定律”,使得计算所需的能耗大幅降低,未来人工智能将因能耗极低而无处不在 [58][62] 英伟达的发展历程与技术创新 - 公司成立于1993年,最初旨在创造一种全新的计算架构,早期通过与世嘉等游戏公司合作,将用于飞行模拟器的3D图形技术应用于街机,从而进入了3D图形游戏领域 [79][80][81] - 2012年,多伦多大学Geoffrey Hinton实验室的研究人员利用两张NVIDIA GPU(GTX 580 SLI)训练出AlexNet模型,在计算机视觉上取得突破性飞跃,这被视为现代人工智能的“大爆炸”起点 [63][64][71][72] - 公司发明的CUDA平台和加速计算方式,利用并行处理能力,使得GPU成为可放在个人电脑中的超级计算机,这最初为计算机图形学和游戏开发,后来成为深度学习革命的基石 [64][66] - 2016年,公司将第一台价值30万美元、运算能力为1 petaflops的DGX-1超级计算机赠予Elon Musk,用于其非营利人工智能研究(即OpenAI),九年后,同等算力的DGX Spark体积大幅缩小,价格降至4000美元 [74][75][76]
黄仁勋最新采访:依然害怕倒闭,非常焦虑
半导体行业观察· 2025-12-06 03:06
人工智能技术发展与竞赛 - 人工智能技术在过去两年内能力提升了约100倍 [13] - 人工智能性能未来有提升一千倍的潜力 [15] - 技术竞赛自工业革命以来一直存在 当前的人工智能竞赛是最重要的一场 [10][11] - 科技领导力至关重要 赋予信息、能源和军事超能力 [11] 人工智能应用与安全 - 大量计算能力被用于提升人工智能的安全性、可靠性和真实性 例如通过反思和研究来减少幻觉 [13][14] - 人工智能能力提升很大一部分将用于更深入的思考、周密的计划和更多的选择 [15] - 网络安全防御依赖于整个行业社群的协同合作 共享漏洞信息和补丁程序已持续约15年 [20] - 人工智能技术正被应用于国防领域 认为拥有过剩的军事力量是避免战争的最好办法之一 [16][17] 人工智能对经济与就业的影响 - 以放射科医生为例 人工智能并未导致该职业消失 反而因为提升了诊断效率和医院经济状况而增加了岗位数量 [41][42] - 工作的核心意义可能不会因自动化而改变 例如律师的职责是帮助他人 而研究文件只是部分工作 [42][43] - 人工智能可能催生全新的行业和就业岗位 例如机器人制造、维修、服装设计等 [44] - 自动驾驶技术可能不会导致所有司机失业 部分司机会转型 技术的应用会创造新的工作类型 [42][44] 人工智能普及与能源瓶颈 - 人工智能是世界上最容易使用的应用 例如ChatGPT用户数量在短时间内增长到近十亿 这有助于缩小技术鸿沟 [47] - 未来几年内 手机将能够完全自主运行人工智能 使每个国家和社会都能受益 [48] - 能源是目前人工智能发展的主要瓶颈 [48][50] - 加速计算技术在过去十年将计算性能提高了10万倍 遵循“英伟达定律” [49][51] - 随着性能提升和能耗降低 未来人工智能所需的能源将微乎其微 从而无处不在 [50] 英伟达公司发展历程与技术 - 公司成立于1993年 旨在创造一种全新的计算架构 [64] - 早期与日本世嘉合作 涉足3D图形游戏领域 游戏产业成为关键驱动力 [64][65] - 公司的GPU最初为处理电脑游戏图形而设计 采用并行处理方式 成为面向消费者的超级计算机 [52][53] - 2012年 AlexNet在计算机视觉领域取得突破 该模型使用了两张NVIDIA显卡进行训练 [51][52] - 深度学习是一种通用函数逼近器 只要有输入和输出示例 就能推导出内部函数结构 可应用于几乎任何领域 [54][55] - 2016年 公司将第一台DGX-1超级计算机(售价30万美元)赠予埃隆·马斯克 用于其非营利人工智能研究(即OpenAI) [60][61] - 从DGX-1到DGX Spark 在保持1 petaflops计算能力的同时 价格从30万美元降至4000美元 体积也大幅缩小 [62]
黄仁勋万字访谈:33年来每天都觉得公司要倒闭,AI竞赛无“终点线”,技术迭代才是关键
华尔街见闻· 2025-12-05 09:39
公司文化与战略 - 公司创始人及CEO黄仁勋保持着强烈的危机感,其经营哲学是公司“距离倒闭还有30天”,并将此心态持续了33年,认为对失败的恐惧是比贪婪更强的驱动力 [1][5] - 公司历史上多次濒临破产,包括1995年的技术路线错误,依靠世嘉500万美元投资和台积电的信任才得以生存,这些经历塑造了其对风险和战略的独特理解 [3] - 公司坚持长期主义与持续迭代,例如2005年推出CUDA时股价暴跌80%,但坚持投入最终成为AI革命的基础设施,认为真正的竞争力在于持续迭代能力,而非一次性突破 [2] - 公司在技术决策上敢于豪赌,例如在芯片流片环节采用直接投产的策略,尽管此前无人成功 [5] AI行业发展与竞争格局 - AI技术竞赛是持续且渐进的,不存在明确的“终点线”或一方突然获得压倒性优势的局面,所有参与者都将站在AI的肩膀上共同进化 [2] - 技术进步的大部分算力被用于提升AI的安全性与可靠性,例如让AI更谨慎地思考、检验答案,而非用于危险用途,过去10年AI算力提升了10万倍 [2] - 能源增长是AI及芯片制造业发展的关键瓶颈,公司认为如果没有促进经济增长的能源政策,就无法建设AI工厂、芯片工厂和超级计算机工厂 [5][20] - 摩尔定律及其迭代意味着计算任务所需能量持续减少,这是技术普及的基础,而公司发明的加速计算在过去10年将计算性能提高了10万倍 [110][111] AI技术对社会与就业的影响 - 判断AI是否会取代某项工作的关键在于区分“任务”和“目的”,AI会消灭那些把手段当成目的的工作,而作为实现更高目的手段的工作则会升级 [3] - 以放射科医生为例,AI虽然横扫了放射学领域,但放射科医生的数量反而增加,因为其核心目的是诊断疾病,而看影像只是辅助任务 [3][4][92][93] - AI有望缩小技术鸿沟,因为它是世界上最容易使用的应用程序,例如ChatGPT用户数量几乎一夜之间增长到近十亿,且能用任何语言交互 [105][106] - 未来世界上越来越多的知识将由AI产生,可能两三年后,世界上90%的知识都由AI合成,但这与学习人类编写的知识在本质上区别不大 [81][83] 英伟达的技术与业务里程碑 - 公司发明的CUDA并行计算架构和加速计算方式是AI革命的基础,其GPU最初用于计算机图形学和游戏,后来成为深度学习的关键硬件 [122][111] - 2012年,多伦多大学实验室利用英伟达的两块GTX 580显卡(SLI配置)训练AlexNet模型,取得了计算机视觉领域的突破性进展,这被视为现代AI的“大爆炸”时刻 [120][121][129][131] - 2016年,公司制造了第一台DGX1超级计算机,成本达数十亿美元,售价30万美元,最初仅OpenAI(当时为非营利机构)的埃隆·马斯克成为其第一个客户 [135][136][137] - 公司的技术演进迅速,2016年的DGX1运算能力为1 petaflop,而九年后同等运算能力的DGX Spark设备尺寸已大幅缩小 [138][139] AI安全与伦理观点 - AI的发展是渐进的,威胁并非凭空出现,其安全性可类比网络安全,防御技术与攻击技术协同进化,且整个社区在协同合作共享信息 [46][50][56] - AI获得意识的可能性极低,关键在于意识的定义涉及自我存在认知和“体验”,而当前AI的定义是拥有知识、智能及执行任务的能力,而非人工意识 [68][70][79] - 军事领域应用AI进行国防是必要且值得肯定的,避免冲突的最佳方法是拥有过剩的军事力量,这能促使各方坐下来谈判 [37][43][44] - 量子计算机可能使现有加密过时,但行业正在致力于后量子加密技术,历史表明防御手段总会随之发展 [53][55]
黄仁勋万字深度访谈:AI竞赛无“终点线”,技术迭代才是关键,33年来每天都觉得公司要倒闭
美股IPO· 2025-12-04 23:43
AI竞赛与技术进步的本质 - AI竞赛没有明确的终点线,技术进步是渐进式的,所有参与者将共同进化[2] - 真正的竞争力在于持续迭代能力,而非一次性突破[2] - 过去10年AI算力提升了10万倍,这些算力主要用于让AI更谨慎地思考、检验答案,而非用于危险的事情[1][2] - 迭代是基于第一性原理的持续修正,而非简单重复[2] 英伟达的创业历程与战略转折 - 1995年因技术路线选择错误而濒临破产,依靠世嘉500万美元的投资才得以生存[1][4] - 在开发Riva 128芯片时,公司资金即将耗尽,通过购买已倒闭公司的仿真器来测试设计,并说服台积电创始人张忠谋在不预先测试的情况下直接投产,最终获得成功[90][91][92] - 早期战略错误导致公司处于竞争劣势,通过解雇大部分员工、缩小规模,并让工程师从Silicon Graphics的教科书学习,以第一性原理重新发明了现代3D图形技术[79][82][83] - 公司将业务焦点从通用3D图形芯片缩小到专为视频游戏优化的芯片,并将技术业务转变为平台业务,从而创造了现代3D游戏市场[84][85][86] - 2005年推出CUDA时股价暴跌80%,但长期坚持投入最终奠定了今天AI革命的基础设施[2] AI对工作的影响与转型 - 判断AI是否会取代某项工作的关键,在于区分“任务”和“目的”[4] - 以放射科医生为例,AI横扫放射学领域后,医生数量反而增加,因为看影像只是“任务”,诊断疾病才是“目的”[4][5][50] - 如果工作内容本身就是任务(如切菜、数据录入),则可能被取代;如果任务只是实现更高目的的手段,工作将会升级[4][52] - AI将消灭那些把手段当成目的的工作,迫使每个人思考自己工作的真正目的[4] - AI的普及可能催生全新的行业,例如机器人制造、维护和个性化服装产业[52][54] AI的安全性、意识与未来发展 - AI不会凭空产生意识,其本质是模仿和学习人类生成的知识与模式,而非拥有经验或情感[4][33][39][42] - 过去两年AI能力提升了约100倍,而额外的计算能力被引导用于让AI进行更多反思、研究和事实核查,从而减少“幻觉”(编造事实),产生更安全、更真实的答案[17][18] - 网络安全领域为AI安全提供了模型,防御社区通过共享信息、最佳实践和补丁进行合作,AI防御技术也将以类似方式演进[21][24] - 对AI军事应用持支持态度,认为强大的防御力量是避免战争的必要条件之一[20] - 未来世界上90%的知识可能将由AI生成,但人类仍需核实事实并基于第一原理进行判断[43][44] 技术普及、能源与计算演进 - AI是世界上最容易使用的应用,有望缩小技术鸿沟,用户只需使用人类语言即可交互[57] - 摩尔定律的每一次迭代都意味着完成计算任务所需的能量减少,这是技术普及的基础[6][58] - 过去十年,通过加速计算将计算性能提高了10万倍,预计十年后对大多数人而言,运行AI所需的能源将微乎其微[6][59] - 能源增长是AI、芯片和超级计算机工厂建设的先决条件,未来可能看到许多公司自建数百兆瓦级别的小型核反应堆[6][11][61][62] 领导力与公司经营哲学 - 公司CEO保持了持续33年的危机感,每天醒来都觉得“距离倒闭还有30天”,这种对失败的恐惧是比追求成功更大的驱动力[1][6][97] - 成功源于艰难的工作、漫长的痛苦、孤独、不确定和恐惧,这部分常被外界忽略[6] - 领导者展现脆弱性与公司成功并不矛盾,这有助于团队及时纠正错误并调整战略[105] - 在快速变化的行业中,领导者需要像“冲浪”一样应对无法完全预测的技术浪潮,而非试图预测所有变量[106][107] - 公司文化的核心是吸引世界上最优秀的计算机科学家,让他们能够专注于创造下一代技术[113] 行业生态与关键合作 - 2012年,AlexNet的突破性成果是使用两张英伟达显卡训练实现的,这成为了现代AI的“大爆炸”时刻[64][68] - 2016年,公司发布了售价30万美元的DGX-1超级计算机,埃隆·马斯克是第一个客户,并将第一台设备交付给他当时支持的非营利AI公司,即后来的OpenAI[70][71][72] - 从DGX-1(1 petaflops,30万美元)到DGX-Spark(1 petaflops,4000美元),体现了九年内技术性能不变而成本与体积急剧下降的进步[74] - 公司与美国前总统特朗普的交流中,强调了本土制造、能源增长和再工业化对美国关键技术领域的重要性[9][11][12]
谷歌AI往事:隐秘的二十年,与狂奔的365天
36氪· 2025-11-27 12:13
公司近期业绩与产品表现 - Gemini应用月活跃用户从上一季度的4.5亿大幅提升至6.5亿[2] - Gemini 3在各类主流基准上展现统治级表现,Nano Banana Pro模型将AI生图精度与想象力提升到新高度[2][43] - 公司进入罕见的产品加速期,接连发布视频模型Veo 3、虚拟世界生成模型Genie 3等“王炸”产品[43][44] 公司AI技术发展历史与积淀 - 公司二十多年间的AI投资贯穿现代深度学习绝大部分关键节点,从拉里·佩奇对“终极搜索引擎”的想象,到“猫论文”、DeepMind、TPU[4][6] - 在Transformer论文发表前十年,世界上几乎所有知名AI人才都曾在公司工作过[5] - 公司首次语言模型实验始于2000年左右,开发出拼写纠错功能,并进化出内部昵称为PHIL的概率语言模型[10][11] 关键技术突破与商业影响 - 2012年“猫论文”使用16000个CPU核心训练九层神经网络,通过无监督学习识别YouTube视频中的猫,证明无监督学习可行性[14][15] - “猫论文”技术催生推荐系统机制,被应用于YouTube并奠定其全球最大视频平台基础,后续被Facebook、Instagram、字节跳动效仿,创造数千亿美元收入[15][17] - 公司开发出Transformer架构,其模型彻底碾压基于LSTM的谷歌翻译方案,证明模型规模越大效果越好[34] 重要收购与人才战略 - 2014年以5.5亿美元收购DeepMind,获得最豪华AI研究团队,但收购间接导致OpenAI、Anthropic、xAI等公司诞生[22][23][24] - 收购DeepMind后,公司向英伟达订购4万块GPU,订单价值1.3亿美元,后继续花费数亿美元购买GPU[25][27] - 为应对ChatGPT威胁,公司将Google Brain和DeepMind合并为Google DeepMind,并召回谢尔盖·布林等顶级人才参与Gemini项目[42] 自研芯片与基础设施 - 为解决GPU成本过高和算力不足问题,公司自研TPU芯片,专门针对神经网络矩阵乘法进行优化,效率远高于当时GPU[28][29][30] - TPU通过降低计算精度提高效率,避免公司向英伟达支付高额溢价(英伟达GPU系统毛利率高达75%至80%)[31] - 自研TPU使公司建立规模几乎与英伟达相当的芯片研发体系,服务于自身和谷歌云客户[30] 战略误判与危机应对 - 公司早期已开发出与ChatGPT接近的聊天机器人Mina,但因失控风险、收入模式冲突和法律风险未发布[36][37] - ChatGPT的出现使公司意识到AI从持续性创新转变为颠覆性创新,对构成生存威胁,内部发布红色警报[41][42] - 公司决定结束多模型并存局面,集中资源打造多模态旗舰模型Gemini,并于2023年5月宣布计划后,同年12月发布公共测试版本[42][43]
预测下一个像素还需要几年?谷歌:五年够了
机器之心· 2025-11-26 07:07
文章核心观点 - 研究重新审视了基于下一像素预测的生成式图像预训练范式,探讨其大规模扩展的可行性与规律 [2][4][6] - 研究发现,下一像素预测的扩展趋势与文本类似但效率低得多,需要比语言模型多10–20倍的token-per-parameter比例才能达到有效学习 [6][15][16] - 不同下游任务(如图像分类与生成)的最优扩展策略存在显著差异,且策略随图像分辨率提升而改变 [7][18][22][23] - 尽管当前计算成本高昂,但研究预测基于原始像素的建模在未来五年内将变得可行,主要瓶颈是计算量而非训练数据 [8][26] 研究方法与实验设置 - 研究从32×32分辨率的图像出发,在多种等算力配置下训练了一系列Transformer模型,最大计算量达到7e19 FLOPs [10] - 采用四种规模的Transformer架构,参数从2800万到4.49亿不等 [11] - 在包含3亿张图像的JFT-300M数据集上进行预训练,在32×32分辨率下完整遍历一遍相当于处理超过3000亿个像素 [12] - 通过下一像素预测目标、ImageNet分类准确率以及Fréchet Distance衡量生成质量这三个指标评估模型性能 [10][13] 关键研究发现 - 像素的语义信息极低,单个像素几乎不包含语义,其颜色值可能对应多种物体的一部分 [10][19] - 像素之间的空间关系非常复杂,不易用序列方式表示,且随着图像分辨率升高,下一像素预测的计算量会急剧增加 [10] - 在32×32分辨率下,图像生成任务需要比分类任务更大的token-parameter比例,其数据规模增长速度是分类任务的三到五倍 [7][18] - 随着图像分辨率从16×16提升至64×64,最优扩展策略明显偏向更大的模型而非更多的数据 [23][24] 未来展望与可行性分析 - 训练算力正以每年四到五倍的速度增长,为逐像素建模的未来可行性提供了基础 [8] - 研究预计在未来五年内,基于原始像素的学习将成为一条可行的发展方向,并能达到具有竞争力的性能 [26] - 像素级模型的主要瓶颈是计算量,而非训练数据的可获得性 [18][26]
当大脑独处时,它在思考什么?
虎嗅· 2025-10-08 01:33
学习方式的核心差异 - 有监督学习依赖外部明确指引,如通过带标签数据训练预测模型或外部奖惩引导神经连接强化 [2] - 无监督学习源于系统内部自主探索与规律发现,如从无标签数据挖掘规律或大脑自主提取环境特征 [2] - 核心差异在于是否依赖外部明确指引,传统观点认为学习需要奖励信号或明确反馈,但婴儿大脑能力促使该认知被重新审视 [2] 小鼠实验设计与发现 - 实验比较无监督学习组(预先无奖励自由探索视觉纹理)与任务学习组(直接进行奖励训练)小鼠的神经可塑性变化 [3][4] - 使用双光子介观显微镜长期成像并记录九万个神经元活动以追踪神经回路变化 [3] - 无监督学习组小鼠在2周训练后,其视觉关键脑区(内侧高级视觉区HVA)出现与任务组几乎完全一致的神经可塑性变化,表明变化不依赖任务反馈或监督 [4][5] 视觉与空间可塑性机制 - 为区分视觉可塑性(编码视觉特征)和空间可塑性(对刺激空间位置敏感),研究人员引入新的无奖励刺激,其视觉特征相似但空间配置不同 [7] - 实验结果支持视觉可塑性假说,小鼠视觉神经元能忽略纹理空间位置,仅对纹理类别(如树叶vs圆圈)产生响应 [8] - 这种"去空间化"学习规则与人类识别物体的能力一致,表明无监督学习更多受视觉特征相似性影响 [8] 无监督与有监督学习的协同作用 - 大脑学习存在分工:无监督暴露在内侧视觉区构建纯粹刺激表征,任务学习依赖前侧脑区的监督信号关联刺激与奖励 [6] - 行为研究显示,经过10天无奖励预训练的小鼠,在后续5天奖励任务训练的第一天就展现出明显区分能力,而未预训练小鼠处于随机反应状态 [10] - 学习加速效果依赖特定视觉特征,表明无监督预训练形成了"表征预优化",使后续监督学习只需细微调整 [10] 科学意义与跨学科启示 - 发现打破了"没有奖励就没有学习"的传统强化学习理论框架,证明视觉皮层特征提取可在无奖励情况下完成 [14] - 大脑无监督学习机制与人工智能领域的BERT模型通过无监督预训练取得的革命性进展形成呼应 [14] - 神经科学发现为AI无监督学习提供生物合理性验证,并启发设计更高效特征提取网络,如模仿内侧HVA的去空间化编码规则 [14] 潜在应用方向 - 在医学领域,基于无监督学习原理可设计特定视觉刺激方案,帮助存在视觉特征提取困难的患者(如自闭症)更好地理解复杂视觉信号 [15] - 在计算机领域,模仿"无监督预习+监督微调"模式可降低AI对标注数据的依赖,例如让自动驾驶系统先在虚拟环境中无监督学习,再通过少量标注数据优化决策 [15] - 这种双轨制学习模式可能是在复杂多变环境中快速适应的核心密码 [12] 有待解决的科学谜题 - 无监督学习背后的具体神经环路机制尚不清楚,包括哪些突触可塑性规则主导以及是否依赖特定神经调质(如乙酰胆碱、多巴胺) [16][17] - 研究发现主要聚焦小鼠部分脑区,其视觉优先编码规则在灵长类或高阶认知(如抽象概念学习、工作记忆)中的普适性有待验证 [17] - 无监督学习能力是否存在年龄相关的关键期或随年龄增长而衰退,以及如何延缓这种衰退,是未来重要研究方向 [18]
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
机器之心· 2025-09-03 04:33
语音分离技术综述 - 清华大学、青海大学、南京大学、南方科技大学、中国科学院大学、字节跳动的研究者全面调研了语音分离领域 对200余篇代表性论文进行了系统归纳和分析 涵盖深度学习方法、模型架构、研究主题、评测指标、数据集、工具平台、模型效果比较和未来挑战等多个维度[2] 问题定义 - 语音分离任务根据混合说话人数量是否已知分为已知人数分离和未知人数分离两类 已知人数分离可通过深度聚类或排列不变训练等策略解决输出顺序不确定的排列歧义问题 未知人数分离需要模型动态决定输出通道数并判断终止时机 面临说话人排列组合随人数增加呈指数扩展的挑战[6] 学习范式 - 有监督学习利用配对的混合音频及纯净源音频进行训练 采用深度聚类方法将时频单元映射到高维嵌入空间再聚类生成声源掩膜 或使用排列不变训练方法对输出标签进行动态匹配只保留误差最小的排列来更新模型[10] - 无监督学习不依赖配对的干净源参考 探索利用未标注的混合语音直接训练分离模型 MixIT方法通过将两段混合语音再混合作为输入 让模型输出更多分量并设计仅依赖输入混合物的损失函数[12] 模型架构 - 典型架构包含编码器、分离网络和解码器 基于RNN的模型利用循环神经网络捕获语音信号中的长时依赖关系 Dual-Path RNN通过划分长序列为短块并在块内和块间双路径循环处理高效建模长序列[17] - 基于CNN的模型利用卷积神经网络强大的局部特征提取能力 Conv-TasNet等时域卷积模型通过空洞卷积技术兼顾短时细节和长程依赖 基于自注意力的模型引入全局序列建模能力 SepFormer等Transformer架构进一步刷新了分离性能[17] - 音频重构策略包括掩膜估计和直接映射两类 掩膜方法输出每个源的时间频率掩膜乘以混合后重建源信号 直接映射方法直接输出各源的波形或特征表示避免误差传播[18] 评测指标 - 主观评价指标包括MOS(评分范围1-5) 直观贴近人耳体验但难以大规模获取[20] - 客观评价指标包括SDR(单位dB)、SIR(单位dB)、SAR(单位dB)、SISDR(单位dB)、PESQ(窄带和宽带范围-0.5~4.5)、STOI(范围0~1)、ESTOI(范围0~1)、DNSMOS(范围1~5)和SIGMOS(范围1~5)等 各自侧重不同方面需要结合使用[20] 数据集 - 单通道数据集包括WSJ0-2mix(2016年)、WSJ0-3mix(2016年)、WHAM!(2019年)、WHAMR!(2020年)、LibriMix(2020年)、DNS Challenge(2021年)、REAL-M(2022年)、Lombard-GRID(2024年)、LibriheavyMix(2024年)、LRS2-2Mix(2024年)和SonicSet(2024年)等[23] - 多通道数据集包括SMS-WSJ(2019年)、LibriCSS(2020年)、Kinect-WSJ(2021年)和AISHELL-4(2021年)等[23] 模型性能 - 在WSJ0-2mix数据集上 早期模型如DPCL和uPIT-BLSTM达到约10 dB的SDR Conv-TasNet等端到端模型将性能推升到12 dB以上 最近两三年SepFormer、DPRNN系列和双路Transformer等先进架构将SDR提升到20 dB左右[24] - 在含噪声混响的WHAM!和WHAMR!数据集上 模型性能相对无噪条件下降明显 说明噪声鲁棒性仍是挑战[25] 工具平台 - 开源工具包括nussl(2018年 Python语言 PyTorch后端 MIT许可证)、ONSSEN(2019年 Python语言 PyTorch后端 GPL-3.0许可证)、ESPNet-SE(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、Asteroid(2020年 Python语言 PyTorch后端 MIT许可证)、SpeechBrain(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、ClearerVoice-Studio(2024年 Python语言 PyTorch后端 Apache-2.0许可证)和WeSep(2024年 Python/C++语言 PyTorch后端 Apache-2.0许可证)等[29] 未来挑战 - 长时段音频处理需要在保证分离连续性的同时控制模型复杂度和内存开销 移动端和嵌入式应用要求模型具备较小参数量和计算量[32] - 因果语音分离要求算法只能利用当前及过去帧的信息不能窥视未来 对模型延时和缓存机制提出严格要求[32] - 生成式方法包括生成对抗网络和扩散模型开始用于语音分离 在弱监督或无监督场景下展示出潜力[32] - 预训练技术如大规模自监督预训练wav2vec 2.0等可提供强大通用特征 在低资源分离任务上显著提升性能[32] - 目标说话人提取利用已知的目标说话人特征从混合中提取该说话人语音 需要高效利用说话人嵌入并与分离网络融合[33] - 语音分离正日益与语音识别、说话人识别/分离、语音增强等任务结合 形成端到端的联合优化框架[33]