深度学习

搜索文档
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
量子位· 2025-07-15 08:31
Batch Normalization论文获奖及影响 - 2015年发表的Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习里程碑式突破[1][2][4] - 该技术让深度学习从小规模实验走向大规模实用化,是深层神经网络训练和应用的关键推动力[3] BatchNorm技术原理与创新 - 提出"内部协变量偏移"概念,指训练中网络内部节点数据分布变化导致训练不稳定[8][11] - 创新性对隐藏层数据做标准化处理,引入可学习参数γ和β保持网络表达能力[12] - 实验显示使用BN后训练步数仅需原来1/14即可达到相同精度,并在ImageNet分类任务超越人类准确率[13] BatchNorm的实际应用效果 - 具有正则化效果,可替代Dropout提升模型泛化能力[15] - 使训练超深度网络成为可能,如何恺明ResNet结合BN实现上百层网络训练[16][17] - 被几乎所有主流卷积神经网络(ResNet/DenseNet/Inception)广泛采用[18] 后续研究与理论修正 - 2018年MIT研究挑战BN核心理论,发现其实际作用是使Optimization Landscape更平滑[22][24] - 2022年研究从几何视角提供新见解,认为BN是一种无监督学习技术[29] 作者现状 - 两位作者Sergey Ioffe和Christian Szegedy曾在谷歌工作十余年[30] - Christian Szegedy先后加入马斯克xAI和Morph Labs,目标实现"可验证的超级智能"[32][33][34] - Sergey Ioffe也加入xAI,可能参与Grok 4开发[32]
Cell:先导编辑+AI,全面解析ATM基因所有点突变的功能
生物世界· 2025-07-15 03:31
ATM基因研究背景 - ATM基因是调控DNA损伤应答的关键基因,其纯合功能缺失突变导致共济失调毛细血管扩张综合征,杂合功能缺失突变增加乳腺癌等多种癌症风险[5] - ATM基因包含63个外显子,突变数量随基因大小增加而显著增加,临床解读存在挑战性[2][5] - 临床遗传学面临意义未明突变(VUS)数量激增的挑战,大基因如ATM/BRCA1/2的全面功能评估尤为困难[2][6] 研究方法与技术突破 - 研究团队利用先导编辑技术对ATM基因全部27513种单核苷酸突变(SNV)进行功能评估,实验检测23092个SNV对细胞适应性的影响[7][8] - 结合PPAR抑制剂奥拉帕利处理条件,鉴定出激酶结构域中关键氨基酸残基[8] - 开发深度学习模型DeepATM,以前所未有精度预测剩余4421个SNV的功能效应[3][9] 临床价值与应用前景 - 在英国生物样本库中鉴定382个与癌症高风险相关的ATM SNV,突变功能评估可预测癌症预后[9][10] - 建立突变功能评估框架,为乳腺癌/结直肠癌/胰腺癌/前列腺癌的风险预测和精准治疗提供依据[5][10] - 研究成果为解决其他基因的VUS分类问题提供标准化技术路线[12] 数据亮点 - 全面覆盖ATM基因所有可能27513种编码SNV的功能注释[10] - 实验验证23092个SNV(占比84%)的生物学功能,深度学习预测4421个SNV(占比16%)[7][9] - 激酶结构域关键残基的发现为靶向药物开发提供新靶点[8][10]
公私募量化基金全解析
招商证券· 2025-07-13 14:35
报告行业投资评级 未提及 报告的核心观点 报告围绕公私募量化基金展开,阐述量化策略特点、国内发展历程、行业现状、运作特征与绩效表现,对比公私募差异并给出产品选择建议,助投资者了解量化基金并筛选产品[1][5][6] 根据相关目录分别进行总结 量化策略基本特点 - 量化策略基于大量历史数据,运用数据挖掘等方法发现价格规律,多因子模型是常用选股模型,因子包括基本面、量价和另类因子,近年引入机器学习因子,决策模型综合构建投资组合[10] - 量化策略严格执行模型结果,系统化挖掘投资机会,策略纪律性强,风控体系内嵌,避免主观影响,与主观投资相比,更聚焦策略广度[11][12] 国内量化投资发展历程 公募基金量化投资发展历程 - 萌芽期(2004 - 2014 年):从“主观 + 量化”探索到多因子模型初步应用,2002 年首只指数增强基金成立,2004 年首只主动量化选股公募基金成立,2006 - 2007 年牛市带动主动量化基金规模增长,此后多因子选股模型深化应用[12][15] - 加速成长期(2015 - 2021 年):多因子模型普及,量化基金规模快速扩张,指数增强策略规模增长斜率高,对冲型策略 2020 年规模达高点后萎缩[16] - 稳步发展期(2022 年至今):策略多元化,各产品线互补共进,规模增长放缓,部分管理人引入人工智能算法迭代策略,不同策略规模交替变化[19] 私募基金量化投资发展历程 - 2014 - 2015 年和 2016 - 2017 年初受益于 A 股行情增长,2019 年后在多因素作用下,2021 年新发产品数量和规模快速提升,年底备案规模达 1.08 万亿元,占比 17.1%[22][25] - 2021 - 2023 年稳步发展,2024 年面临微盘股、市场震荡、风格变化挑战,监管趋严,募资困难,2025 年备案回暖,量化私募受关注[25][26] 公私募量化基金行业发展现状 公募基金量化策略及格局分布 - 策略分类包括主动量化、指数增强、量化对冲三大权益策略,部分含权债基权益部分采用量化管理为量化固收 + 策略,但暂未纳入总体规模计算[31] - 截至 2025Q1,公募量化权益类基金数量 654 只,规模 3025.88 亿元,主动量化基金数量占比近半,规模占 28%,指数增强产品规模占比最高,对冲型基金规模最低,规模前十基金以指数增强为主,前十大管理人管理规模占比 49.6%,易方达、富国和华夏管理规模居前[32][35][37] 私募基金量化策略及管理人情况 - 量化私募参与细分策略包括量化多头、股票中性、转债策略、CTA 策略等,宏观策略部分采用主观和量化结合方法[38] - 截至 2025 年 6 月末,百亿私募量化投资基金管理人为 39 家,占比接近半数,部分成立时间早的以股票量化投资为主,博润银泰产品线多元[44] 公私募股票量化基金运作特征及绩效表现 运作特征 - 换手率高:量化基金换手率相对较高,能捕捉短期交易机会,公募量化基金年度双边换手率集中在 2 - 20 倍,高于主观股混基金,私募量化基金年双边换手 30 倍以上,高换手有佣金支出问题,技术迭代和模型更新更重要[47][48] - 持股数量多:量化基金持股数量多,分散化程度高,公募量化基金持股集中在 50 - 600 只,部分超 2000 只,高于主观基金,量化对冲型基金持股相对更多,私募量化基金持股数量往往高于公募[53][54] 绩效表现 - 指数增强产品:各年度业绩差异大,与市场情况相关,超额收益多为正值,超额获取能力中证 1000 指增 > 中证 500 指增 > 沪深 300 指增,2018 - 2023 年私募指增超额水平整体优于公募,但私募分化大[57][58] - 主动量化产品:公私募分年度收益表现差异大,2019 - 2020 年公募业绩优,2018 年、2021 - 2023 年私募业绩优,私募回撤控制整体优于公募,但业绩和回撤分化大[66] - 量化对冲产品:公募业绩波动大,2019 - 2020 年收益优,2021 年后下滑,私募收益显著跑赢公募,业绩分化大于公募,2019 - 2021 年私募回撤控制弱于公募,2022 和 2023 年相对更优[70] 公募量化与私募量化的投资运作差异 - 法规监管与合同:公募受《证券投资基金法》约束,公开募集,监管强度高,信息透明度高,合同标准化,风险等级低;私募受《私募投资基金监督管理条例》约束,非公开募集,合同定制化,风险等级高[6][79] - 管理人行为:公募依托建制化团队和标准化 IT 设施,侧重风控合规,策略统一;私募采用精英化架构,硬件投入和激励强度高,产品策略可能分化[6][81] - 投资策略与限制:公募投资范围和跟踪误差约束严格,追求稳健,换手率低;私募机制灵活,对冲工具丰富,敞口容忍度高,超额收益弹性大,近年公募引入高频量价因子,私募引入基本面因子[6][84] - 费率条款:私募费率条款复杂,采用“管理费 + 业绩报酬”,业绩报酬计提方式多元,公募条款相对简化,仅收管理费和托管费,建议关注费后收益[6][87] 量化产品如何选择 量化策略的影响机制:环境约束与收益解构 - 收益归因视角:量化策略绩效由 Alpha - Beta - 成本三角模型驱动,Beta 管理关注风格暴露度和行业偏离度,Alpha 生成靠因子挖掘,空头成本影响量化对冲产品收益,股指期货贴水率高会侵蚀收益[91][94] - 市场环境影响视角:市场走势影响量化策略系统性收益和风险敞口,市场流动性影响交易摩擦成本和定价偏差,市场分化度是 Alpha 源泉和风险温床,头部机构会动态调节策略[95][96][100] 策略定位的动态适配:风险预算与场景映射 - 投资者应结合风险偏好、投资期限、资金性质选择量化策略,锚定型产品适合跟踪指数或作底仓,进取型产品适合高风险偏好者,避险型产品适合低风险偏好者[101][102][104] 定量筛选:核心业绩指标验证 - 筛选量化产品应注意绩效与风控平衡、关注长期可持续性、注重策略适配性,可参考绝对收益/超额收益、信息比率、Calmar 比率等指标[105][107] 定性深度评判:护城河构建要素 - 选择量化产品需定性评估,考察投研团队背景、策略逻辑可解释性、策略迭代能力、策略拥挤度、软硬件投入和策略容量等因素,避免选择存在问题的产品[108][110][111]
DLC中国深度学习年会正式发布!AI与PBL引领课堂创新
南方都市报· 2025-07-12 05:41
会议概况 - 2025年中国深度学习年会暨第三期优联论坛线上发布会于7月10日举行,聚焦"AI与PBL引领课堂创新"主题,探讨人工智能与项目式学习如何推动教育变革[1] - 会议由DLC深度学习中心主办,广州优联学校协办[1] - 2025年中国深度学习年会将于11月正式举行[5] 行业趋势与教育理念 - AI技术快速发展正在重塑教育生态,未来社会对人才需求结构发生根本性转变[3] - 教育核心任务从让学生"知道更多"转变为帮助他们"成为更完整的人"[3] - "深度学习"理念由美国教育基金会提出,强调以学生为中心、融合批判性思维与真实任务的课程体系[6] 项目式学习(PBL)实践 - 高质量PBL具备三大特征:真实问题驱动、协作与探究过程导向、成果公开呈现[3] - 广州优联学校将PBL系统性融入课程体系,设置G9-G10必修课并创建CTB全球青年创新项目社团[5] - 学生通过解决真实问题(如设计环保方案、分析社区经济问题)培养跨学科能力[5] 机构与项目介绍 - DLC中国深度学习中心成立于2019年,是推动深度学习教育理念在中国落地的公益性教育创新平台[6] - "深潜工作坊"提供沉浸式学习体验,内容包括AI辅助设计、跨学科项目实践等[5] - 已确认工作坊包括"HTH研究生院的AI辅助项目设计""Spark Curiosity GPT教练""定制化聊天机器人"等[5]
Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文
机器之心· 2025-07-10 10:49
核心观点 - 苹果基础模型团队负责人庞若鸣即将加入Meta,Meta开出2亿美金天价邀请其加入[2] - 庞若鸣在离职前完成苹果基础模型AXLearn的研究,该系统具有高度模块化和异构硬件支持特性[4][6] - AXLearn在代码复杂度、训练性能和推理性能上均显著优于主流系统[7][24][33] 技术架构 - AXLearn由组合器和执行框架构成,支持JAX程序生成与分布式硬件调度[16][17][19] - 系统通过严格封装实现模块化,集成RoPE和MoE功能仅需10行代码,其他系统需数百行[14][24] - 支持GPU/TPU/Trainium等异构硬件,自动优化分片策略和XLA编译选项[12][18][27] 性能表现 - 代码复杂度恒定为O(1),其他系统达O(NM)线性增长,RoPE集成代码量对比:AXLearn(0行) vs Megatron-LM(400行)[24] - 训练性能:Llama2-7B在TPU-v5p-512上MFU达66.2%,超MaxText(61.6%);70B模型在TPU-v5p-1024上吞吐量360K tokens/s[29] - 推理性能:AXLearn在70B模型上TTFT延迟仅150.5ms,较vLLM(80213.6ms)提速500倍;吞吐量超vLLM 1.6倍[33][34] 应用规模 - 支持超10,000个并行实验,部署于数十种硬件集群,训练模型参数规模达万亿级[35][36] - 已应用于智能助手、多模态生成等十亿级用户产品[37]
浙江大学最新Cell论文:AI基因组模型——女娲CE,破译脊椎动物基因组调控语言
生物世界· 2025-07-09 00:09
基因组学与深度学习 - 多细胞生物中不同细胞类型拥有相同基因组但通过基因表达差异调控实现功能特化 调控序列通过细胞类型特异性方式招募转录因子决定基因表达模式 [2] - 染色质可及性是调控DNA的通用标志 可通过DNase-seq和ATAC-seq测量 但大多数物种仍缺乏全面的细胞类型解析调控序列图谱 [2] - 深度学习模型可直接从DNA序列预测调控和表达信号 郭国骥团队开发的Nvwa模型实现单细胞分辨率基因表达预测 Huatuo模型可解码疾病相关调控序列 [3] - 当前细胞图谱数据在灵敏度或通量方面存在局限 阻碍高精度预测模型生成 [3] 技术突破与研究成果 - 郭国骥团队开发超高通量超灵敏单核ATAC测序技术UUATAC-seq 一天内可完成物种染色质可及性图谱构建 [5][8] - 在五大脊椎动物(小鼠/鸡/守宫/蝾螈/斑马鱼)中绘制候选顺式调控元件(cCRE)图谱 发现基因组大小差异影响cCRE数量但不影响其大小 [9][10] - 开发多任务深度学习模型NvwaCE 实现从基因组序列到单细胞水平调控元件图谱的直接预测 在多项指标上超越现有基因组AI模型 [5][11] 模型性能与应用验证 - NvwaCE证明调控"语法"保守性强于核苷酸序列 并将cCRE组织成不同功能模块 揭示细胞类型特异性基因表达的序列基础 [6][11] - 模型精准预测合成突变对谱系特异性cCRE功能的影响 与QTL和基因编辑结果一致 [13] - 首次预测出镰状细胞病治愈性突变位点(HBG1-68:A>G) 基因编辑验证显示胎儿血红蛋白表达量显著提升 证明AI模型预测功能性位点的性能 [13][14] 研究意义与行业影响 - UUATAC-seq技术高效构建染色质可及性图谱 NvwaCE模型为破译脊椎动物基因组调控语言提供资源 [15] - 研究成果为全面解读基因组语言和建立数字生命模型奠定基础 [6]
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 01:42
语义压缩研究 - 人类具备将不同事物归类到高级概念(如"水果")的语义压缩能力,即使面对新词汇也能通过语义线索快速分类 [1][2][3] - 图灵奖得主LeCun团队提出信息论框架,对比人类与LLM在语义压缩中的策略差异:LLM偏向统计压缩,人类更注重细节与语境 [4][5][17] 研究框架设计 - 构建包含1049个项目、34个语义类别的人类概念分类基准,整合认知科学经典研究数据,包含典型性评分以反映人类概念结构 [5][6][7] - 选取30+种LLM(参数规模3亿至720亿),包括BERT、LlamA、Gemma等,从嵌入层提取静态词元表示以确保与人类分类实验基准一致 [8] - 引入信息论框架,结合速率失真理论和信息瓶颈原理分析压缩效率与语义保真度的权衡 [9][12] 核心研究发现 - LLM概念分类与人类语义分类的对齐度显著高于随机水平,验证其基本语义组织能力 [10][11] - LLM难以处理细粒度语义差异,其内部概念结构与人类直觉不符,典型性判断与余弦相似度的相关系数较弱且大多不显著 [14][16] - 关键差异:LLM追求最小化冗余信息的统计压缩,人类则保持适应性与上下文完整性 [17] 研究团队背景 - 由斯坦福大学与纽约大学联合开展,第一作者为斯坦福博士后Chen Shani,Yann LeCun作为合著者参与 [19][20][22] - LeCun是Meta首席AI科学家、CNN架构先驱,与Hinton、Bengio共获2018图灵奖,推动深度学习工业应用与自监督学习发展 [24][25][26][27][28] 补充信息 - 论文发布于arXiv(编号2505.17117),研究引发AI社区广泛讨论 [29]
你被哪个后来知道很致命的BUG困扰过一周以上吗?
自动驾驶之心· 2025-07-03 12:41
强化学习应用案例 - 机器人跑步项目中,模型通过调整奖励函数逐步优化行为:从跳远摔倒→扎马步→反关节行走→双腿蹦跳→来回过线,反映奖励函数设计对行为模式的直接影响[1] - 绘画AI项目中出现两个重大实现错误:卷积网络参数未更新导致随机特征提取持续数月,画笔接口参数冲突导致红色异常,但模型仍能产出可用结果[1] - 语言大模型训练中,奖励机制设计缺陷导致模型生成谄媚语句、重复字符或高级车轱辘话等异常输出[2] 技术实现痛点 - 数值计算效率问题:numpy的np.round比原生round慢十几倍,跨平台数据转换(numpy/torch/GPU)易引发性能瓶颈[2] - 强化学习系统鲁棒性表现:神经网络能承受代码bug持续迭代,合作开发中隐藏的环境bug可能成为后期性能突增的"训练技巧"[2] 自动驾驶技术生态 - 社区规模达4000人,涵盖300+企业与科研机构,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等核心领域[3] - 课程体系包含端到端自动驾驶、VLA、NeRF等前沿方向,配套C++部署、TensorRT优化等工程化内容[5] 技术商业化路径 - 知识星球提供从技术方案到行业动态的全链条服务,包含感知-定位-规划全栈技术路线与就业资源对接[3] - 专业课程覆盖感知算法(Occupancy检测)、决策规划(轨迹预测)、系统工程(CUDA部署)等产业化关键技术节点[5]
中美AI差距有多大,AI竞争焦点在哪?《全球人工智能科研态势报告》全球首发
钛媒体APP· 2025-07-03 10:36
全球AI科研态势 - 报告基于2015-2024年96961篇AI领域文献分析,由联合国工业发展组织与东壁科技数据联合发布,采用东壁指数评价体系 [2] - 全球AI科研演进分为四个阶段:初始起步期(2015-2016年论文量4421→3628篇)、快速发展期(2017-2019年突破万篇)、成熟高峰期(2020-2023年达17074篇)、波动调整期(2024年回落至14786篇) [5][6] - 技术路径从传统机器学习(2015-2017)→深度学习/计算机视觉(2018-2020)→大语言模型/生成式AI(2021-2023)→可解释性AI/多智能体系统(2024-) [6] 中美AI人才对比 - 全球AI人才57.7%集中在中美两国,美国6.3万人领先,中国5.2万人以28.7%年复合增速追赶 [7][8] - 美国形成"人才旋转门"机制(高校企业流动率37%),中国互通率不足15% [10] - 华人学者在美表现突出:全球百人榜中20位在美学者里华人占10位,女性榜11位在美学者含3位华人女性 [3] 机构与企业表现 - 顶尖机构榜:中国占38席(中科院2386人才/4639篇论文),美国35席(总论文35117篇/被引228万次) [7] - 美国企业学术产出优势显著:谷歌(2895篇)+微软(1582篇)+Meta(1419篇)总量是中国TOP3企业(腾讯1354+阿里1034+华为885)的1.8倍 [9][10] - 中国企业应用导向突出:计算机视觉论文比美国高40.8%,知识图谱高50.1%,在自动驾驶/移动支付等场景落地强劲 [11] 技术发展趋势 - 深度学习关键词频率十年增长84倍,2018-2023年均增速217%,2024年进入平台期(增速30%) [14] - 计算机视觉形成"目标检测(78%热词)-语义分割-视觉应用"闭环,语义理解类关键词2022年后年均增45% [14] - Transformers技术2022年后崛起,工程化关键词如特征提取/优化持续升温 [15] 区域与性别特征 - 亚太创新中心崛起:北京/上海/深圳/新加坡/首尔进入全球20大人才聚集区,微软在华部署714人占其全球AI人才29% [13] - 中国AI女性人才占比仅9.3%(美国20.1%),头部企业女性占比6.1%远低于谷歌/微软的18.7% [12][13]
李飞飞最新YC现场访谈:从ImageNet到空间智能,追逐AI的北极星
创业邦· 2025-07-02 09:49
ImageNet与深度学习革命 - ImageNet通过提供大规模高质量标记数据集(80000+次引用)为神经网络成功奠定基础 开创数据驱动范式转变[8][9] - 项目历时18年孵化 初期算法错误率达30% 直到2012年AlexNet结合GPU算力实现突破性进展[11][14][16] - 采用开源策略和挑战赛形式推动社区共建 加速计算机视觉从物体识别向场景描述演进[12][17][19] 空间智能与World Labs布局 - 三维世界理解被定义为AI下一前沿 进化史长达5.4亿年 远超语言进化维度[24][25] - World Labs聚焦构建3D世界模型 团队集结NERF作者等顶尖人才 解决组合复杂度更高的空间智能问题[25][27][28] - 应用场景覆盖元宇宙内容生成 机器人学习 工业设计等 需突破硬件与内容创作双重瓶颈[30][32] 人工智能发展路径 - 视觉智能发展轨迹清晰:物体识别→场景叙事→空间智能 每阶段需5-10年技术积累[17][19][22] - 语言模型与视觉模型存在本质差异 前者依赖序列数据 后者需处理不适定的3D→2D投影问题[27][28] - AGI定义存在争议 但空间智能被视为实现通用智能不可或缺的组成部分[23][44] 创新方法论 - "智识上的无畏"被反复强调为突破性创新的核心特质 贯穿从学术研究到创业全过程[6][37][42] - 数据质量优先于数据规模 需采用混合方法获取高质量3D空间数据[47][48] - 跨学科研究与小数据理论被视为学术界可突破的潜在方向[41][42] 行业生态观察 - 开源策略应根据商业模型差异化选择 Meta等平台型企业更倾向全面开源[46] - 学术机构在计算资源劣势下 需聚焦工业界尚未关注的底层理论问题[41][42] - 硬件迭代与生成模型结合将推动元宇宙等场景落地[30][32]