ResNet
搜索文档
对话任少卿:2025 NeurIPS 时间检验奖背后,我的学术与产业观
雷峰网· 2025-12-05 10:24
文章核心观点 文章通过报道任少卿及其团队获得NeurIPS时间检验奖,回顾了其奠基性工作Faster R-CNN的深远影响,并深入探讨了任少卿加入蔚来后,在自动驾驶全栈自研、芯片定义、数据闭环体系构建以及技术路线(如世界模型)探索等方面的实践与思考,展现了蔚来在智能驾驶领域从零开始构建核心能力的过程与战略布局 [1][2][11][13][27] 根据相关目录分别进行总结 Faster R-CNN的成就与影响 - 任少卿、何恺明、孙剑与Ross Girshick共同发表的Faster R-CNN荣获2025年NeurIPS时间检验奖,该奖项表彰经过十年检验、对学科发展产生深远影响的奠基性工作 [1] - Faster R-CNN发表于2015年,将物体检测效率提升10倍以上,开创了端到端实时精准目标检测模式,其论文已被引用超9.8万次,是AI检测领域全球最高被引论文 [2] - 该模型的核心思想已深度融入人工智能基础技术,成为驱动自动驾驶、医疗影像、安防监控、工业检测、卫星遥感等关键领域的核心技术 [2] 研究理念与团队合作 - 孙剑坚持“simple but work”的研究理念,认为做核心工作需要远见、品位和坚持 [4][6] - 任少卿与何恺明的合作紧密且高效,日常节奏包括多次集中讨论与实验推进,何恺明几乎投入100%的精力,专注于研究问题、寻找方向与突破 [6][7][8] - 团队选择深度学习方向基于几个关键判断:方法有创新性、已有初步结果和进展、结果具备泛化能力而非技巧性(trick),验证了方向的可扩展性 [10] 加入蔚来与全栈自研启动 - 任少卿于2020年8月加入蔚来,首要任务是搭建团队并启动全栈自研L2产品,支持L3和L4,同时进行芯片选型 [13] - 蔚来第二代车是全球首个量产英伟达Orin芯片(使用4颗芯片)及高线束激光雷达的车型,于2022年3月在中国量产,半年后在欧洲量产 [14] - 团队在极短时间内(从拿到芯片到量产仅6-7个月)克服了Orin芯片作为新硬件在算力(比上一代增大8倍多)、架构、散热、功耗及工具链等方面的挑战,完成了复杂的自动驾驶域控制器(ADC)架构量产 [14][15] 自研芯片的定义与考量 - 作为需求方,团队参与了自研芯片的定义,基于对技术发展的判断,早在2021年就预见到Transformer将更广泛应用,这对芯片内存带宽提出了更高要求 [16] - 蔚来自研芯片具备行业最高的带宽,以支持Transformer等模型,并为支持更高级别自动驾驶(L3/L4)预埋了热备能力,可在百毫秒内实现芯片切换且用户无感 [17] 数据闭环与高效迭代体系 - 蔚来自2020年起重点建设数据能力,认为数据的价值在于针对特定模型筛选出的“corner case”,而非简单的数据拷贝,数据筛选过程消耗大量算力 [19][20] - 公司构建了灵活调度云端和车端算力的系统,并在此基础上建立了类似互联网行业的“AB test”系统,允许在量产车上并行测试下一代算法 [21] - 通过“AB test”系统,蔚来将主动安全功能的迭代效率大幅提升,即使面对高达200万公里一次误报(FP)的严格标准,也能实现三天迭代一次的速度 [22] - 针对超80万辆量产车的智驾接管数据,建立了自动化分析系统,能过滤掉99%以上的无效信息,仅返回0.1%-0.5%的有效数据供进一步分析,极大提升研发效率 [22] 对端到端与世界模型的技术思考 - Faster R-CNN本质是解决了物体检测任务的端到端问题,将检测速度提升至实时(10Hz、20Hz、30Hz),为视频处理和应用落地带来突破 [11] - 任少卿认为,端到端是自动驾驶技术演进的一个阶段,但并未解决所有问题,例如语言模型无法解决真实世界所需的时空认知问题 [24][25][26] - 世界模型旨在建立时空认知能力,学习物理规律和时空理解,以解决长时序决策问题,这是语言模型无法做到的 [26][27] - 蔚来于2023年决定All in世界模型,并于2024年7月首次公开发布,成为行业内率先拥抱此路线的公司之一,世界模型能支持长达10秒、1分钟甚至更长的时序推演,替代传统的规则代码(if else)处理长时序场景 [27][28][29][30]
何恺明MIT两名新弟子曝光:首次有女生入组,另一位是FNO发明者,均为华人
量子位· 2025-11-06 04:04
何恺明MIT团队新成员概况 - AI大牛何恺明在MIT的主页更新了两名新弟子的信息:博士生胡珂雅和博士后李宗宜 [1] - 何恺明任教MIT以来招募的6位学生中,5名都是中国面孔 [4] 胡珂雅背景与研究经历 - 胡珂雅本科毕业于上海交通大学ACM班,高中就读于福建师范大学附属中学 [5] - 大三期间在上海交通大学脑机接口实验室研究AI与脑科学结合,以第一作者完成论文并被国际生物医学计算机顶会EMBC接收 [7][8] - 作为共同作者参与的论文被顶会Cognitive Science 2025收录,并在康奈尔大学实习期间参与的项目成果被NeurIPS 2024接收,担任第二作者 [10][11] - 主导研发关键方法参与ARC Prize 2024竞赛,该竞赛总奖金超过100万美元,吸引全球1430支队伍参赛,其团队成果达到SOTA水平并斩获最佳论文奖 [12][13][15][17] - 以共同第一作者身份将ARC竞赛研究成果整理成文,成功发表于顶级机器学习会议ICLR 2025 [18] - 本科阶段共完成四篇高含金量论文,一半为第一作者,获得MIT、普林斯顿、卡内基梅隆等多所名校博士offer,最终选择MIT直博 [21][22] - 目前是MIT电子工程与计算机科学系一年级博士生,由何恺明和Jacob Andreas共同指导,专注于语言与视觉的交叉研究 [23][24] 李宗宜背景与研究贡献 - 李宗宜在2021年以第一作者身份发表重量级论文,提出傅里叶神经算子(FNO),首次实现神经算子的规模化应用 [27][29] - 神经算子是一种能学会解物理方程的神经网络,可在几毫秒内完成传统超级计算机需数小时的计算任务,在天气预报、碳封存等领域有重要应用 [30][32][34] - FNO通过傅里叶变换处理数据,让神经算子运行速度成倍提升,被视为AI for Science领域的里程碑模型,李宗宜谷歌学术引用次数超过1.2万 [35][36] - 目前担任MIT博士后研究员,由何恺明指导,已获得纽约大学助理教授职位,将于明年秋季入职 [38][39] - 本科在圣路易斯华盛顿大学修读计算机科学与数学双学位,博士就读于加州理工学院,师从Anima Anandkumar和Andrew Stuart,博士期间连续三个暑期在英伟达实习 [41][42][44] 何恺明研究方向与团队建设 - 何恺明在2023年MIT求职演讲中明确指出AI for Science是其未来几年重点深耕的方向 [46] - 新成员胡珂雅和李宗宜的研究背景与AI for Science方向高度契合,加上此前成员,团队已集齐六位学生 [47][48][49] - 何恺明自2024年离职Meta加入MIT学术界,致力于推进AI基础研究和前沿突破 [52]
LSTM之父向何恺明开炮:我学生才是残差学习奠基人
量子位· 2025-10-19 06:10
残差学习技术发展脉络 - 残差学习思想最早可追溯至1991年,Sepp Hochreiter在其博士论文中首次系统性分析RNN梯度消失问题并提出循环残差连接解决方案[12][13] - 循环残差连接核心机制是使用权重严格为1.0的恒等激活单元,使误差信号在反向传播中保持恒定,避免梯度消失或爆炸[13][14] 权重接近1.0(如0.99)会导致误差信号在100个时间步后衰减至37%,而0.9权重会使信号衰减至0.0027%[15] - 1997年LSTM论文提出恒定误差轮盘(CECs)机制,通过权重为1.0的循环残差连接使误差在数百至数千时间步内不衰减,该论文成为20世纪引用最多的人工智能论文[18][19] 残差网络架构演进 - Highway网络于2015年5月首次实现上百层深度前馈网络训练,较传统20-30层网络深度提升10倍以上,其核心将LSTM门控残差思想引入前馈网络[23] - ResNet于2015年12月在ImageNet竞赛成功应用残差连接,其设计与展开的LSTM及初始化Highway网络高度相似,若将Highway网络门恒定设置为1.0即可得到纯残差网络ResNet[24] - LSTM与Highway网络分别奠定循环和前馈网络的深度训练基础,ResNet实质是1997年LSTM前馈变体的延续应用[26] 学术贡献归属争议 - Jürgen Schmidhuber认为残差学习成果完全归因于何恺明团队有失偏颇,强调其学生Sepp Hochreiter在1991年已提出核心思想[3][10] - 深度学习三巨头(Bengio、Hinton、LeCun)在Nature综述论文中大量引用自身成果却未提及Jürgen等人,引发长期学术争论[7][8] - Jürgen声称LSTM、ResNet、AlexNet、VGG Net、GAN及Transformer均受其实验室成果启发,但除LSTM外其他成果未获普遍认可[28][31]
任少卿加入中科大......
自动驾驶之心· 2025-09-20 05:35
任少卿职业动态 - AI领域专家任少卿开始在母校中国科学技术大学开班招生 [1] - 任少卿曾任Momenta联合创始人、蔚来汽车副总裁 [4] 任少卿学术背景 - 任少卿为07级中科大本硕博(微软亚洲研究院联合培养) [4] - 任少卿是ResNet和Faster R-CNN作者 [4] - 学术高被引超44万,是全球中国籍学者高被引第一 [4] - ResNet是21世纪全球最高被引论文 [4] - 曾获未来科学大奖-数学与计算机科学奖 [4] 招生信息 - 招生方向为AGI、世界模型、具身智能、AI4S等 [6] - 硕士、博士生都在招 [6] - 有推免资格的学生将于下周一(22日)开启紧急面试 [6]
任少卿在中科大招生了!硕博都可,推免学生下周一紧急面试
量子位· 2025-09-20 05:12
任少卿学术与职业背景 - 任少卿是计算机视觉与自动驾驶领域专家,为ResNet和Faster R-CNN的核心作者之一 [1][4][7][9] - ResNet是深度学习里程碑工作,解决了深度神经网络训练中的梯度消失难题,获得CVPR 2016最佳论文奖,被引用次数超过29万次 [7][8] - 其学术高被引超过44万,是全球中国籍学者高被引第一,ResNet是21世纪全球最高被引论文,2022年入选AI 2000榜单排名第十,2023年获未来科学大奖 [1][6] 在蔚来汽车的职业经历与技术贡献 - 任少卿于2020年加入蔚来汽车,担任智能驾驶研发副总裁,向CEO李斌直接汇报,后职权扩大至直接管理新设技术委员会并领导大模型部 [13][14] - 在蔚来期间主要负责城区领航辅助NOA的规模铺开和全域领航辅助NOP+功能的发布与迭代,主导推动"群体智能"数据驱动范式 [14] - 领导团队开发了NIO世界模型,该模型具备想象重建与想象推演能力,可生成高保真平行世界场景并进行长时序推演超过2分钟 [14][15] 中国科学技术大学招生信息 - 任少卿目前在中国科学技术大学招收硕士与博士生,招生方向为AGI、世界模型、具身智能、AI4S等 [1][2][3] - 具有推免资格的学生可参与紧急面试,有兴趣的学生可发送简历至指定邮箱进行咨询 [3][16]
科学界论文高引第一人易主,Hinton、何恺明进总榜前五!
机器人圈· 2025-08-27 09:41
学术引用排名分析 - Yoshua Bengio总被引用量达973,655次 近五年引用量698,008次 位列全球科学家首位[1] - 其2014年发表的生成对抗网络论文引用量突破100,904次 2015年深度学习论文引用量达100,061次[1][2] - Geoffrey Hinton总被引用量超95万次 近五年引用量57万次 排名第二[3] - Hinton参与的AlexNet论文引用量达181,968次 为计算机视觉领域突破性研究[3][5] 跨学科引用表现 - 医学领域研究者Ahmedin Jemal总引用量924,788次 近五年引用量520,211次 排名第三[7] - 数学与生物学交叉领域研究者Eric Lander总引用量737,656次 近五年引用量247,907次 排名第四[7] - 何恺明总引用量735,881次 其2016年ResNet论文引用量达290,239次 排名第五[9] - ResNet被Nature评为21世纪被引量最多论文 引用范围在103,756-254,074次之间[9][10] 高影响力论文特征 - AlexNet论文引用量181,968次 推动深度学习在计算机视觉应用[3][5] - 生成对抗网络与深度学习论文引用量均超10万次 形成持续学术影响[1][2] - 全球科学家排名涵盖2,626,749名研究者 涉及221个学科领域[1] - Ilya Sutskever总引用量超67万次 单篇最高引用18万次 排名第七[10]
超97万:Yoshua Bengio成历史被引用最高学者,何恺明进总榜前五
机器之心· 2025-08-25 06:08
全球顶尖科学家学术影响力排名 - Yoshua Bengio成为全球被引用次数最多的科学家 总被引用量达973,655次 近五年引用量698,008次[1][3] - 排名基于AD Scientific Index平台 涵盖全球2,626,749名科学家 涉及221个国家地区24,576家机构[3] - Bengio的生成对抗网络论文引用量突破100,904次 深度学习论文引用量达100,061次[3] 人工智能领域核心研究者表现 - Geoffrey Hinton排名第二 总被引量952,643次 近五年引用577,970次 占比60.7%[4][6] - Hinton参与的AlexNet论文引用量高达182,853次 标志着深度学习在计算机视觉领域的突破[4][5] - 何恺明排名第五 总被引量735,881次 近五年引用619,578次 ResNet论文引用量达290,239次[8][10] - ResNet被Nature评为21世纪被引量最多论文 引用范围在103,756-254,074次之间[10][11] 跨学科高影响力研究者 - 医学领域Ahmedin Jemal排名第三 总被引量924,788次 近五年引用520,211次 占比56.3%[8] - 数学与生物学交叉领域Eric Lander排名第四 总被引量737,656次 近五年引用247,907次 占比33.6%[8] - Ilya Sutskever排名第七 总被引量671,834次 近五年引用504,890次 ImageNet论文引用量182,853次[11][14][15] 高影响力论文特征分析 - 顶级论文持续产生深远影响 如AlexNet(2012年)和ResNet(2016年)至今仍被广泛引用[5][10] - 计算机视觉领域论文占据主导地位 前10名中包括多篇图像识别和神经网络相关研究[10][11] - 生成对抗网络和注意力机制等基础架构论文引用量显著 如Attention Is All You Need引用范围56,201-150,832次[11][15]
性能暴涨4%!CBDES MoE:MoE焕发BEV第二春,性能直接SOTA(清华&帝国理工)
自动驾驶之心· 2025-08-18 23:32
核心观点 - 提出CBDES MoE框架 在功能模块层面实现分层解耦的专家混合结构 集成四种异构视觉backbone 通过自注意力路由器实现动态专家选择 提升自动驾驶BEV感知性能[2][5][12] - 在nuScenes 3D目标检测任务中 mAP提升1.6个百分点至65.6% NDS提升4.1个百分点至69.8% 超越所有单专家基线模型[3][37] - 采用稀疏激活推理机制 仅激活top-1专家 显著降低计算成本 支持实时应用[25][26] 技术架构 - 集成四种结构异构专家网络:Swin Transformer(擅长全局空间结构) ResNet(强于局部结构编码) ConvNeXt(平衡局部性与可扩展性) PVT(多尺度目标建模)[17][18] - 设计自注意力路由器SAR 包含分层特征提取 自注意力编码和MLP专家评分三阶段 生成图像级路由概率[19][20][21] - 采用软加权特征融合机制 根据路由概率动态加权专家输出 保持训练稳定性[24] - 引入负载均衡正则化 防止专家坍塌 使mAP从63.4%提升至65.6% NDS从65.8%提升至69.8%[42][43][46] 性能表现 - 在nuScenes数据集上全面超越单专家基线:BEVFusion-Swin Transformer(mAP 64.0% NDS 65.6%) BEVFusion-ResNet(mAP 63.3% NDS 65.2%) BEVFusion-ConvNeXt(mAP 61.6% NDS 65.2%) BEVFusion-PVT(mAP 62.4% NDS 65.7%)[37] - 在恶劣条件(雨雾 夜间)下保持检测鲁棒性 显著减少误检和漏检[40] - 训练过程收敛更快 损失更低 显示优化稳定性和学习效率优势[39] 应用前景 - 可无缝集成至BEVFusion等标准框架 保持相机到BEV投影逻辑和下游任务头兼容性[29][30] - 当前支持图像级路由 未来可扩展至图像块级或区域感知路由 实现更细粒度适应[48] - 潜在扩展方向包括多任务学习(分割 跟踪) 跨模态路由(激光雷达信号) 以及自动化架构搜索[48]
刚刚,何恺明官宣新动向~
自动驾驶之心· 2025-06-26 10:41
何恺明职业动态 - AI领域顶尖学者何恺明正式入职谷歌DeepMind担任杰出科学家,同时保留MIT终身副教授身份[1][3][4] - 此次跨界标志着何恺明实现"学界+业界"双轨并行发展模式[5][12] - DeepMind联合创始人Demis Hassabis曾预测AGI将在5-10年内实现,何恺明的加入将加速该目标[7][8] 学术成就与技术贡献 - 提出深度残差网络(ResNet)成为现代AI模型基石,相关论文在2016-2021年连续三年位居谷歌学术全领域被引榜首[18][19] - 开发的Faster R-CNN和Mask R-CNN是物体检测领域被引量最高的论文之一,分别被引用91993次和45582次[19][21][24] - 论文总被引量达713370次,h-index指数71,近五年被引量597873次[18][19] 近期研究成果 - 2024年与Yann LeCun合作提出无归一化层Transformer,仅用9行代码实现,成果被CVPR 2025收录[33][34] - 2024年2月提出分形生成模型,将像素级图像生成计算效率提升4000倍[36][37] - 2024年5月联合CMU团队开发MeanFlow框架,实现无需预训练的一步生成建模[38][39] 职业经历与教育背景 - 曾任职微软亚洲研究院(2011-2016)和Meta FAIR实验室(2016-2023)[12][32] - 2007年获清华大学学士学位,2011年获香港中文大学博士学位[29][30] - 2009年成为首位获得CVPR最佳论文奖的中国学者,累计获得4次国际顶会最佳论文奖[24][27]
刚刚,何恺明官宣入职谷歌DeepMind!
猿大侠· 2025-06-26 03:20
何恺明职业动态 - AI领域顶尖专家何恺明正式加入谷歌DeepMind担任杰出科学家,同时保留MIT终身副教授职位[2][3][4][5] - 此次跨界加盟将显著增强DeepMind在AGI领域的技术实力,其学术影响力(论文总引用71万次)与业界经验(Meta/微软亚研院)形成双重优势[5][7][11][17] - DeepMind CEO Demis Hassabis曾预测AGI将在5-10年内实现,何恺明的加入将加速这一进程[8][9] 技术成就与行业影响 - 提出的ResNet成为深度学习基石,相关论文在2016-2021年连续位居谷歌学术全领域引用榜首(28万次)[5][18][20] - 开发的Faster R-CNN(引用9.2万次)和Mask R-CNN(引用4.6万次)持续引领计算机视觉发展[18][20][23] - 2024年最新研究成果包括:无归一化Transformer(9行代码实现)、分形生成模型(计算效率提升4000倍)、MeanFlow一步生图框架[31][34][35][36] 学术地位与职业轨迹 - 首位获得CVPR最佳论文奖的中国学者,累计斩获4项国际顶会最佳论文荣誉[23][26] - 职业经历覆盖微软亚研院(2011-2016)、Meta FAIR(2016-2023)、MIT(2023至今)三大顶尖机构[11][30][5] - 保持高频科研产出,2024年已有3篇突破性论文被CVPR/ICCV等顶会收录[32][34][36]