模型压缩
搜索文档
被拒≠失败!这些高影响力论文都被顶会拒收过
机器之心· 2025-12-11 02:47
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,详细阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上重点介绍了Waymo使用的知识蒸馏方法,该方法借鉴了创建Gemini Flash模型的经验,旨在基于更大模型创建可机载运行的高计算效率模型[1] - 知识蒸馏技术由Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2014年提出,其论文虽被NeurIPS 2014以“不太可能产生重大影响”为由拒稿,但如今已成为模型压缩和大模型落地的标配方法,论文引用量超过28,000次[3][4][29] 被顶级会议拒稿但影响深远的AI技术 - **LSTM**:由Sepp Hochreiter和Jürgen Schmidhuber提出,在1996年被NIPS拒稿,拒稿理由包括参数过多、过于复杂且缺乏生物学合理性,如今引用量达139,707次,并在2010年代后于语音识别和机器翻译中展现出统治级表现[8][13] - **SIFT算法**:由David Lowe提出,在1997年和1998年先后被ICCV和CVPR拒稿,理由是被认为“过于繁琐”、“不够优雅”,最终以Poster形式发表,曾统治计算机视觉领域长达15年,如今引用量达27,389次[11][14] - **Dropout**:由Geoffrey Hinton团队提出,在2012年投稿NIPS时被拒,评审认为其核心思想过于激进且缺乏数理逻辑,但该技术迅速成为AlexNet夺冠ImageNet的关键,如今引用量达60,231次[17] - **Word2Vec**:由Tomas Mikolov等人提出,在首届ICLR会议上收到“Strong Reject”评价,评审认为其“比较不科学”、“定义模糊”,但通过开源代码迅速成为NLP领域基石,并于2023年获NeurIPS“时间检验奖”,如今引用量达50,855次[19][20] - **YOLO**:由Joseph Redmon等人提出,在2015年被ICCV拒稿,评审因其定位精度不如R-CNN系列而拒绝,但忽视了其实现45 FPS实时检测的速度优势,如今YOLO系列已迭代至v13,成为工业界最受欢迎的检测框架,引用量达69,782次[27][28][30] - **RoBERTa**:由Meta AI研究人员提出,在投稿ICLR 2020时被拒,评审认为其新颖性和技术贡献有限,只是“仔细调参”和“使用更多数据”,但该模型超越了原始BERT,成为后续NLP研究的标准基线,如今引用量达23,479次[32] - **Mamba**:由Albert Gu和Tri Dao提出,在ICLR 2024评审中折戟,评审理由包括与其前作S4相比增量不足、未全面超越Transformer等,但该架构在社区引发热烈讨论,基于其的变体大量涌现,成为2024年最具影响力的架构创新之一,如今引用量达6,799次[35][36][37] 科研评价体系的局限与反思 - 顶会评审系统在面对颠覆性创新时存在系统性认知滞后,表现为“简单性陷阱”,即倾向于将数学复杂性等同于研究贡献,从而质疑如Dropout或Word2Vec等简单有效的方法[40] - 评审作为旧范式的维护者,存在“范式惯性”,当YOLO或Deep Image Prior等新思想出现时,旧范式的标准会成为阻碍新思想的壁垒[40] - 在深度学习领域,过度要求理论证明的“严谨性的暴政”可能会扼杀具有巨大实用价值的工程突破,例如Adam优化器初期面临的收敛性质疑[40] - 同行评审虽然是科学共同体的基石,但难以摆脱人类认知的局限性,它善于识别错误,却往往拙于鉴别天才,真正决定研究生命力的是其是否解决问题以及在时间长河中的回响[41][45]
联想申请数据处理方法、模型压缩方法及装置专利,公开一种数据处理方法、模型压缩方法及装置
金融界· 2025-05-31 00:32
公司专利技术 - 联想(北京)有限公司申请了一项名为"数据处理方法、模型压缩方法及装置"的专利,公开号CN120068971A,申请日期为2025年02月 [1] - 专利涉及数据处理方法,适用于图像、文本、语音和视频数据中的至少一种 [1] - 专利技术可根据任务类型(第一类型或第二类型)选择不同的参数集合处理数据,其中基础参数部分相同,私有参数部分包含相同部分参数 [1] 公司背景信息 - 联想(北京)有限公司成立于1992年,位于北京市,主要从事计算机、通信和其他电子设备制造业 [2] - 公司注册资本为565000万港元 [2] - 公司对外投资了102家企业,参与招投标项目5000次 [2] - 公司拥有商标信息1730条,专利信息5000条,行政许可237个 [2]
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 01:07
模型压缩技术突破 - 提出新型数据集蒸馏方法NFCM,在CVPR 2025获满分评价,显存占用仅为前SOTA的1/300且速度提升20倍,仅需2080Ti显卡即可实现CIFAR数据集无损蒸馏 [2][6] - 通过引入NCFD分布差异度量,将数据集蒸馏转化为minmax优化问题,在连续学习和神经架构搜索任务中展现优异性能 [6] - 数据压缩与参数压缩结合成为新趋势,通过高质量数据合成降低训练成本,内部验证节省成本/挑选成本>1的可行性 [7][8][9] 多模态模型加速实践 - 在扩散语言模型中实现最高9倍加速且无性能损失,多模态大模型可删除80%-90% token仍保持高精度 [10][11] - 提出Token-wise Caching(Toca)方法,首次在图像/视频生成中实现无需训练即2倍加速,解决Diffusion Transformer计算瓶颈 [13][14] - TaylorSeer技术将特征缓存从复用转向预测,在DiT等模型实现5倍加速,八卡GPU推理使视频生成速度逼近实时播放 [20][22][24][25] 知识蒸馏演进路径 - 自蒸馏框架通过模型深层蒸馏浅层,ICCV2019论文被引1100+,推动无教师蒸馏发展 [32][33][34] - 知识蒸馏三阶段演进:从强模型教弱模型→自蒸馏→弱模型教强模型,第三阶段具AI进化潜力 [35][36] - 大模型时代强化压缩需求,需平衡结构效率与知识保留,数据视角压缩可避免重训练的高成本 [38][44][46] 行业技术趋势 - 模型压缩从传统剪枝/量化转向数据视角创新,DeepSeek等推动高效低成本范式受关注 [4][26] - 视频生成领域成为技术验证重点,目标实现生成速度超过播放速度的实时效果 [25][27] - 跨专业协作现象显著,非计算机背景人员可参与研究,仅需动机和基础编程能力 [55]