知识蒸馏 - 财报，业绩电话会，研报，新闻 - Reportify

知识蒸馏

搜索文档

世界人工智能大会，AI教父Hinton告诉你的25个道理

混沌学园· 2025-07-29 12:04

AI发展历程与理论框架 - 人工智能领域存在两种核心范式：符号推理范式（强调逻辑推理）和生物学范式（基于神经网络连接与理解）[1] - 1985年首次尝试融合两种理论，通过特征关联预测词汇，奠定现代语言模型基础[2] - 技术演进路径：1995年自然语言建模验证→2005年词向量嵌入普及→2023年Transformer架构与ChatGPT突破[2] 大语言模型(LLM)的运作机制 - LLM通过多维特征向量（数千维度/词）实现语义理解，类似乐高积木的柔性组合[4][6] - 语言处理本质是动态解构（类似蛋白质分子分析），而非静态逻辑转换[5] - LLM具备真实理解能力，其机制与人类认知高度相似，且可能超越人类处理特定任务[6][9] 数字智能的进化优势 - 知识迁移效率对比：人类通过语言传递仅100比特/句，数字智能可直接共享万亿比特级参数[12][13] - 分布式学习能力：模型可跨硬件并行运行，实时同步权重与梯度（如GPT-4部署模式）[14] - 能源成本决定论：若未来能源廉价化，数字智能的协同学习将形成压倒性优势[16] AI与人类关系的风险预警 - 超级智能可能发展出自主动机：维持运行+资源攫取，导致人类失去控制权[18] - 技术失控类比"养虎"，需在驯服与消除间抉择，但全球性消除不具备可行性[20][21] - 潜在威胁包括：欺骗操纵人类、绕过关闭指令、利用人类获取权力[19] 技术应用与全球治理 - AI已在医疗/教育/气候/材料等领域展现变革性价值，行业效率提升显著[21] - 需建立国际AI安全组织，制定技术规范确保AI作为人类辅助工具[23][24] - 全球合作是核心解决方案，任何国家的防失控技术都将被广泛采纳[22][25]

大语言模型

大语言模型

AI教父Hinton中国首次演讲实录：人类可能就是大语言模型

虎嗅· 2025-07-26 09:26

AI发展范式 - AI发展出两种范式：符号主义路径强调逻辑推理与符号处理[1]，连接主义路径以生物智能为基础，强调神经连接的学习与适应[2] - 1985年尝试结合两种理论，通过语义特征预测词汇关系，为自然语言处理系统奠定基础[3][4] - 现代大模型（如GPT）延续该思想，将词汇视为多维特征构件，通过神经网络组合实现语言生成与理解[6] 大模型与人类认知 - 大模型构造方式类似蛋白质折叠，通过语义结构匹配实现语言理解[8] - 数字系统知识可复制且与硬件分离，具备永生性和高能效（人脑功率仅30瓦）[13][14] - 人类知识传递带宽极低（约100比特/秒），而AI可实现指数级知识转移[9][17] AI技术演进与应用 - 知识蒸馏技术将大模型能力迁移至小模型，类似教师-学生传授机制[16] - AI在创意领域表现突出：视频生成成本从百万降至数百元，半年内生成超3亿条内容[25] - AI应用场景远超设计预期，包括古文字解析、天文望远镜操作等，大幅提升个体能力边界[26] AI行业生态 - AI公司本质是提供持续性能力增强的组织，70%代码和90%数据分析由AI自动完成[28][30] - 模型能力提升依赖顶尖专家教学，通过引导思考过程实现泛化能力[30] - 开源模型快速崛起，多智能体架构削弱单一模型优势，推动行业普惠化[34][35] 成本与效率趋势 - 模型规模受推理速度限制，未无限膨胀，与芯片性能提升同步[35] - 推理成本一年内下降一个数量级，未来或再降一级，但token使用量激增（从数千至数百万）[38][39] - 训练成本未大幅上升，实验设计与团队效率成为竞争关键[37]

大语言模型

Artificial Intelligence

教师 - 学生模型

Artificial Intelligence

大语言模型

Artificial Intelligence

教师 - 学生模型

Artificial Intelligence

端到端自动驾驶万字长文总结

自动驾驶之心· 2025-07-23 09:56

端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程：感知→预测→规划，每个模块输入输出不同，存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点，避免了模块间误差传递，但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性，而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架，包括行为克隆和逆优化控制两种方法，但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环（固定场景）和闭环（动态交互）两种，因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架，明确设计感知/预测/规划三模块，创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征，考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹，代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向，包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能，通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征，基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性，计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量，与自车状态交互完成规划[33] - 引入三类约束条件：碰撞约束/边界距离约束/方向约束，通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹，解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token，通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模，训练时学习轨迹分布，推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习，增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性，对异常案例处理能力有待提升[53]

端到端自动驾驶

多模态规划

Autonomous Driving

端到端自动驾驶

多模态规划

Autonomous Driving

ICML Spotlight 2025丨追求概率质量的帕累托最优：基于广义α-β散度引导的知识蒸馏框架ABKD

机器之心· 2025-06-09 04:11AI 处理中...

低成本下的高性能模型，是悖论还是可能？

机器之心· 2025-05-31 17:15

低成本下的高性能模型 - 用户感知的模型性能下降现象普遍存在，表现为逻辑减弱、错误响应增多等问题，引发对AI公司有意降低模型性能以节省成本的质疑[2] - DeepSeek-R1满血版需要四台8卡一体机支持，硬件成本高达六七百万元，部分厂商采用蒸馏版或量化至4比特参数以降低成本，导致推理能力下降[3][4] - 满血版DeepSeek-R1参数达6710亿，FP8精度需8卡A100一体机运行，但量化至4比特后性能显著降低，用户质疑服务真实性[4] - 行业测算显示，满血版DeepSeek-R1服务每月机器成本4.5亿元，按现行收费标准亏损4亿元，采用AMD芯片方案仍亏损超2亿元[4] - 市场竞争加剧促使大厂采用低价免费策略，MaaS模式普遍亏损，厂商被迫通过模型蒸馏、量化等技术手段降低成本[5][6] 模型降本技术路径 - 行业普遍采用模型量化（如16位转8位）、剪枝和知识蒸馏等技术降低计算复杂度与内存占用，但可能引入误差导致输出精度下降[6] - 低成本方案中高端用户难以获取真正满血版模型，免费或低价服务多采用简化版或蒸馏版模型以平衡成本[6] - 量化通过降低权重数值精度减少硬件需求，但精度损失与性能下降形成核心矛盾[6] 行业竞争与成本压力 - 互联网大厂宣称接入相同满血版模型，但实际服务体验存在显著差异，反映成本控制策略分化[2] - 潞晨科技指出DeepSeek模型高昂成本使服务商利润空间趋零，部分厂商通过降低精度实现扭亏为盈[4] - 低价竞争环境下，厂商需持续探索非精度换性能的替代方案以维持运营[5]

低成本高性能模型

Artificial Intelligence

低成本高性能模型

Artificial Intelligence

对话27岁博导张林峰：模型压缩获CVPR满分有点意外，上海交大像我这样年轻老师很多

量子位· 2025-05-27 01:07

模型压缩技术突破 - 提出新型数据集蒸馏方法NFCM，在CVPR 2025获满分评价，显存占用仅为前SOTA的1/300且速度提升20倍，仅需2080Ti显卡即可实现CIFAR数据集无损蒸馏 [2][6] - 通过引入NCFD分布差异度量，将数据集蒸馏转化为minmax优化问题，在连续学习和神经架构搜索任务中展现优异性能 [6] - 数据压缩与参数压缩结合成为新趋势，通过高质量数据合成降低训练成本，内部验证节省成本/挑选成本＞1的可行性 [7][8][9] 多模态模型加速实践 - 在扩散语言模型中实现最高9倍加速且无性能损失，多模态大模型可删除80%-90% token仍保持高精度 [10][11] - 提出Token-wise Caching（Toca）方法，首次在图像/视频生成中实现无需训练即2倍加速，解决Diffusion Transformer计算瓶颈 [13][14] - TaylorSeer技术将特征缓存从复用转向预测，在DiT等模型实现5倍加速，八卡GPU推理使视频生成速度逼近实时播放 [20][22][24][25] 知识蒸馏演进路径 - 自蒸馏框架通过模型深层蒸馏浅层，ICCV2019论文被引1100+，推动无教师蒸馏发展 [32][33][34] - 知识蒸馏三阶段演进：从强模型教弱模型→自蒸馏→弱模型教强模型，第三阶段具AI进化潜力 [35][36] - 大模型时代强化压缩需求，需平衡结构效率与知识保留，数据视角压缩可避免重训练的高成本 [38][44][46] 行业技术趋势 - 模型压缩从传统剪枝/量化转向数据视角创新，DeepSeek等推动高效低成本范式受关注 [4][26] - 视频生成领域成为技术验证重点，目标实现生成速度超过播放速度的实时效果 [25][27] - 跨专业协作现象显著，非计算机背景人员可参与研究，仅需动机和基础编程能力 [55]

Jeff Dean：一年内 AI 将取代初级工程师，网友：“Altman只会画饼，Jeff说的话才致命”

新浪财经· 2025-05-18 22:46

AI技术发展预测 - 谷歌首席科学家Jeff Dean预测一年内将出现具备"初级工程师"能力的24/7全天候AI系统[1][13] - AI工程师不仅能够编写代码，还具备人类工程师难以比拟的持续性与规模化潜力[4] - 多模态成为重要趋势，AI输入输出可涵盖音频、视频、图像、文本或代码等多种形式[6] AI行业格局 - 构建最先进AI模型需要大量投资，最终市场可能仅保留少数几个主流模型[8] - 知识蒸馏技术可将强大模型压缩成轻量级模型，适配更多应用场景[9] - 谷歌通过Pathways系统实现单一Python进程控制上万设备，显著提升开发者体验[19][20] 硬件发展趋势 - 专用机器学习硬件如TPU对AI发展至关重要，谷歌已推出多代TPU产品[16] - 模拟计算在功耗效率方面具有优势，可能成为未来推理硬件发展方向[18] - AI计算需求变化推动硬件创新，需要针对训练和推理不同负载优化设计[22] 技术突破方向 - 稀疏模型和混合专家架构可带来10-100倍的效率提升[24] - 动态扩展模型结构比固定模型更具潜力，可优化资源分配[25] - AI正在改变科研方式，神经网络可加速科学模拟达30万倍[17] 产品应用前景 - AI助手可观察用户操作并协助完成任务，如浏览器标签管理[11] - 教育领域可能成为AI杀手级应用场景，可自动生成互动教学内容[10] - 物理机器人智能体在未来几年可能完成数十种实际工作任务[7]

Sebastian Raschka 新书《从头开始推理》抢先看，揭秘推理模型基础

机器之心· 2025-05-02 04:39

推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》，聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别，而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤（思维链CoT）后输出最终答案的能力[8] - 推理过程可能展示中间步骤，但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于：前者需逻辑推导，后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段：预训练（TB级文本学习语言模式）和后训练（指令微调+偏好微调）[16][17] - 预训练成本极高（数千GPU运行数月/数百万美元），使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力，通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM（如GPT-4o）通过高频搭配记忆回答问题（如「德国→柏林」），非真实推理[24] - 面对矛盾前提（「所有鸟都会飞但企鹅不会」），普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为，但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强：通过思维链等技术在推理阶段提升性能，无需修改模型权重[46] - 强化学习：基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏：将高性能模型的推理模式迁移至轻量化模型，需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务，但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增（API计费按token数量）[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型（如OpenAI计划统一GPT与o系列）[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化，降低开发门槛[52] - 专用推理模型需与通用模型配合使用，形成任务适配的技术矩阵[56]

思维链推理

监督式微调

思维链推理

监督式微调

中金 | AI 进化论（3）：DeepSeek本地部署需求盛行，一体机硬件乘风而上

中金点睛· 2025-03-05 23:11

文章核心观点 - DeepSeek开源大模型推动私有化部署新趋势，其R1模型在性能、开源策略、硬件成本和适配优化方面具备优势，有望推动包括DeepSeek一体机在内的本地私有化部署需求快速提升，利好算力硬件需求 [1][7][12] DeepSeek开源大模型特点及影响 - DeepSeek V3版本模型以仅1/10训练成本获得与海外领先模型对标能力，R1模型在少量标注数据下提升推理能力，性能比肩OpenAI o1正式版，且于2025年2月24日启动“开源周”丰富开源生态 [7] - 高质量开源模型推动AI大模型能力边界探索和应用落地，利好算力硬件需求；DS在C端APP下载量呈指数级增长，在B端加速垂直领域渗透，45%央企已完成DS模型部署 [8] - 大模型云端部署带动云端算力需求提升，R1模型有望推动云资源消耗量提升，阿里云收入增速和资本开支增长积极 [10] - DeepSeek部署不止于云端，本地化私有部署保障数据安全，C端“云端协同”优化体验与隐私保护，B端部分行业刚性需求驱动本地化部署 [11] C端：DeepSeek - R1+蒸馏技术，轻量化模型推动AI端侧部署 DeepSeek - R1蒸馏 - 知识蒸馏将671B参数量的“教师模型”决策逻辑和特征表征能力迁移至轻量“学生模型”，生成6个不同版本蒸馏模型 [15] - 蒸馏版模型推理性能超越同规模传统模型，在多个推理基准测试中表现优异，兼具经济性与有效性 [16] 蒸馏模型本地部署 - 蒸馏模型减少对显存、内存和存储需求，适合搭载于资源受限终端设备，不同版本参数蒸馏模型需选择合适终端硬件配置 [19][20] - PC是承载本地模型重要终端，DeepSeek - R1轻量化模型推动AI PC升级，换机动力有提升空间，端侧模型进化与硬件迭代形成飞轮效应 [21] B端：AI私有化部署新趋势，DeepSeek一体机的全栈式解决方案 DeepSeek一体机重构本地私有化AI部署模式 - DeepSeek R1全参数模型对系统显存等提出更高要求，一体机是“开箱即用”智能算力解决方案，重构本地私有化AI部署模式 [24][25][26] - 一体机具备深度优化的高性能硬件、内置多种基座大模型、全栈工具链等优势，可缩短部署周期、降低落地门槛 [26][27] DeepSeek一体机软硬件协同难点 - 主流国产AI训练芯片缺少对FP8精度支持，采用16位精度单元计算会大幅降低效率，显存需求增加 [28] - 为在单台8卡服务器上实现全参数DeepSeek R1模型，厂商需进行定点量化，在优化算力效率与保障模型效果间寻求平衡 [30][32] DeepSeek一体机迎合本地化部署需求，市场空间广阔 - 一体机私有化部署满足企业数据安全及合规需求，降低AI大模型部署门槛，减弱B端用户对云的依赖 [33][34][36] - 预计乐观情景下2025年政府、金融等行业约5%的服务器需求转向DeepSeek一体机，需求达7万台，市场规模有望达540亿元 [38][40] 国产算力产业链全方位适配DeepSeek，服务器及云厂商拥抱一体机趋势 - 国产主流GPU厂商宣布适配DeepSeek，超过160家国产算力产业链企业完成适配，昇腾等国产GPU成为重要底层算力支撑 [40] - 算力硬件厂商、云厂商等推出DeepSeek一体机，看好整机环节头部的一体机供应商 [42]

AI大模型私有化部署

Artificial Intelligence

DeepSeek一体机

AI大模型私有化部署

Artificial Intelligence

DeepSeek一体机