Workflow
知识蒸馏
icon
搜索文档
世界人工智能大会,AI教父Hinton告诉你的25个道理
混沌学园· 2025-07-29 12:04
AI发展历程与理论框架 - 人工智能领域存在两种核心范式:符号推理范式(强调逻辑推理)和生物学范式(基于神经网络连接与理解)[1] - 1985年首次尝试融合两种理论,通过特征关联预测词汇,奠定现代语言模型基础[2] - 技术演进路径:1995年自然语言建模验证→2005年词向量嵌入普及→2023年Transformer架构与ChatGPT突破[2] 大语言模型(LLM)的运作机制 - LLM通过多维特征向量(数千维度/词)实现语义理解,类似乐高积木的柔性组合[4][6] - 语言处理本质是动态解构(类似蛋白质分子分析),而非静态逻辑转换[5] - LLM具备真实理解能力,其机制与人类认知高度相似,且可能超越人类处理特定任务[6][9] 数字智能的进化优势 - 知识迁移效率对比:人类通过语言传递仅100比特/句,数字智能可直接共享万亿比特级参数[12][13] - 分布式学习能力:模型可跨硬件并行运行,实时同步权重与梯度(如GPT-4部署模式)[14] - 能源成本决定论:若未来能源廉价化,数字智能的协同学习将形成压倒性优势[16] AI与人类关系的风险预警 - 超级智能可能发展出自主动机:维持运行+资源攫取,导致人类失去控制权[18] - 技术失控类比"养虎",需在驯服与消除间抉择,但全球性消除不具备可行性[20][21] - 潜在威胁包括:欺骗操纵人类、绕过关闭指令、利用人类获取权力[19] 技术应用与全球治理 - AI已在医疗/教育/气候/材料等领域展现变革性价值,行业效率提升显著[21] - 需建立国际AI安全组织,制定技术规范确保AI作为人类辅助工具[23][24] - 全球合作是核心解决方案,任何国家的防失控技术都将被广泛采纳[22][25]
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
虎嗅· 2025-07-26 09:26
AI发展范式 - AI发展出两种范式:符号主义路径强调逻辑推理与符号处理[1],连接主义路径以生物智能为基础,强调神经连接的学习与适应[2] - 1985年尝试结合两种理论,通过语义特征预测词汇关系,为自然语言处理系统奠定基础[3][4] - 现代大模型(如GPT)延续该思想,将词汇视为多维特征构件,通过神经网络组合实现语言生成与理解[6] 大模型与人类认知 - 大模型构造方式类似蛋白质折叠,通过语义结构匹配实现语言理解[8] - 数字系统知识可复制且与硬件分离,具备永生性和高能效(人脑功率仅30瓦)[13][14] - 人类知识传递带宽极低(约100比特/秒),而AI可实现指数级知识转移[9][17] AI技术演进与应用 - 知识蒸馏技术将大模型能力迁移至小模型,类似教师-学生传授机制[16] - AI在创意领域表现突出:视频生成成本从百万降至数百元,半年内生成超3亿条内容[25] - AI应用场景远超设计预期,包括古文字解析、天文望远镜操作等,大幅提升个体能力边界[26] AI行业生态 - AI公司本质是提供持续性能力增强的组织,70%代码和90%数据分析由AI自动完成[28][30] - 模型能力提升依赖顶尖专家教学,通过引导思考过程实现泛化能力[30] - 开源模型快速崛起,多智能体架构削弱单一模型优势,推动行业普惠化[34][35] 成本与效率趋势 - 模型规模受推理速度限制,未无限膨胀,与芯片性能提升同步[35] - 推理成本一年内下降一个数量级,未来或再降一级,但token使用量激增(从数千至数百万)[38][39] - 训练成本未大幅上升,实验设计与团队效率成为竞争关键[37]
端到端自动驾驶万字长文总结
自动驾驶之心· 2025-07-23 09:56
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知→预测→规划,每个模块输入输出不同,存在误差累积问题且感知信息存在损失[3][5] - 端到端算法直接输入原始传感器数据并输出路径点,避免了模块间误差传递,但面临可解释性差和优化困难等挑战[3][7] - 传统算法优势在于调试便捷和可解释性,而端到端方法在信息完整性方面表现更优[3] 端到端算法技术范式与挑战 - 当前主流采用模仿学习框架,包括行为克隆和逆优化控制两种方法,但难以处理corner case且真值数据存在噪声[7][8] - 评估方法分为开环(固定场景)和闭环(动态交互)两种,因果混淆现象是典型挑战[8] - 技术难点还包括输入模态多样性、多任务学习、知识蒸馏及安全保证等问题[8] ST-P3算法实现细节 - 采用时空学习框架,明确设计感知/预测/规划三模块,创新点包括自车中心累积对齐和双路预测机制[10][11] - 感知模块通过LSS范式生成BEV空间表征,考虑RO/PG角不为零的情况并进行时序融合[13] - 规划阶段引入红绿灯编码优化轨迹,代价函数综合距离/加速度/终点偏差等指标[14][15][16] UniAD系统架构 - 全Transformer框架以规划为导向,包含MapFormer/MotionFormer/OccFormer/Planner等模块[23] - 创新性引入五个代理任务提升性能,通过TrackFormer实现动态Agent跟踪[25][26] - 规划模块整合转向灯信号和自车特征,基于碰撞优化输出最终轨迹[31] 矢量化方法VAD - 将栅格表征转为矢量形式保持几何特性,计算速度优势明显[32] - 通过Map Query/Agent Query分别预测地图矢量和运动矢量,与自车状态交互完成规划[33] - 引入三类约束条件:碰撞约束/边界距离约束/方向约束,通过成本抑制机制优化[38][39][40] 概率化表征方法 - 采用概率分布替代确定性轨迹,解决多模态场景下的折中轨迹问题[42] - 离散化动作空间为4096种规划token,通过场景交互选择最优概率轨迹[43] - GenAD工作采用VAE式生成建模,训练时学习轨迹分布,推理时采样生成[44][46] 多模态规划进展 - 英伟达研究结合多模态规划与多模型学习,增加基于规则的教师模型蒸馏损失[49][52] - 监督信号涵盖无责任碰撞/可行驶区域合规/驾驶舒适性等指标[52] - 当前技术仍受限于数据驱动特性,对异常案例处理能力有待提升[53]
低成本下的高性能模型,是悖论还是可能?
机器之心· 2025-05-31 17:15
低成本下的高性能模型 - 用户感知的模型性能下降现象普遍存在,表现为逻辑减弱、错误响应增多等问题,引发对AI公司有意降低模型性能以节省成本的质疑[2] - DeepSeek-R1满血版需要四台8卡一体机支持,硬件成本高达六七百万元,部分厂商采用蒸馏版或量化至4比特参数以降低成本,导致推理能力下降[3][4] - 满血版DeepSeek-R1参数达6710亿,FP8精度需8卡A100一体机运行,但量化至4比特后性能显著降低,用户质疑服务真实性[4] - 行业测算显示,满血版DeepSeek-R1服务每月机器成本4.5亿元,按现行收费标准亏损4亿元,采用AMD芯片方案仍亏损超2亿元[4] - 市场竞争加剧促使大厂采用低价免费策略,MaaS模式普遍亏损,厂商被迫通过模型蒸馏、量化等技术手段降低成本[5][6] 模型降本技术路径 - 行业普遍采用模型量化(如16位转8位)、剪枝和知识蒸馏等技术降低计算复杂度与内存占用,但可能引入误差导致输出精度下降[6] - 低成本方案中高端用户难以获取真正满血版模型,免费或低价服务多采用简化版或蒸馏版模型以平衡成本[6] - 量化通过降低权重数值精度减少硬件需求,但精度损失与性能下降形成核心矛盾[6] 行业竞争与成本压力 - 互联网大厂宣称接入相同满血版模型,但实际服务体验存在显著差异,反映成本控制策略分化[2] - 潞晨科技指出DeepSeek模型高昂成本使服务商利润空间趋零,部分厂商通过降低精度实现扭亏为盈[4] - 低价竞争环境下,厂商需持续探索非精度换性能的替代方案以维持运营[5]
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 01:07
模型压缩技术突破 - 提出新型数据集蒸馏方法NFCM,在CVPR 2025获满分评价,显存占用仅为前SOTA的1/300且速度提升20倍,仅需2080Ti显卡即可实现CIFAR数据集无损蒸馏 [2][6] - 通过引入NCFD分布差异度量,将数据集蒸馏转化为minmax优化问题,在连续学习和神经架构搜索任务中展现优异性能 [6] - 数据压缩与参数压缩结合成为新趋势,通过高质量数据合成降低训练成本,内部验证节省成本/挑选成本>1的可行性 [7][8][9] 多模态模型加速实践 - 在扩散语言模型中实现最高9倍加速且无性能损失,多模态大模型可删除80%-90% token仍保持高精度 [10][11] - 提出Token-wise Caching(Toca)方法,首次在图像/视频生成中实现无需训练即2倍加速,解决Diffusion Transformer计算瓶颈 [13][14] - TaylorSeer技术将特征缓存从复用转向预测,在DiT等模型实现5倍加速,八卡GPU推理使视频生成速度逼近实时播放 [20][22][24][25] 知识蒸馏演进路径 - 自蒸馏框架通过模型深层蒸馏浅层,ICCV2019论文被引1100+,推动无教师蒸馏发展 [32][33][34] - 知识蒸馏三阶段演进:从强模型教弱模型→自蒸馏→弱模型教强模型,第三阶段具AI进化潜力 [35][36] - 大模型时代强化压缩需求,需平衡结构效率与知识保留,数据视角压缩可避免重训练的高成本 [38][44][46] 行业技术趋势 - 模型压缩从传统剪枝/量化转向数据视角创新,DeepSeek等推动高效低成本范式受关注 [4][26] - 视频生成领域成为技术验证重点,目标实现生成速度超过播放速度的实时效果 [25][27] - 跨专业协作现象显著,非计算机背景人员可参与研究,仅需动机和基础编程能力 [55]
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
新浪财经· 2025-05-18 22:46
AI技术发展预测 - 谷歌首席科学家Jeff Dean预测一年内将出现具备"初级工程师"能力的24/7全天候AI系统[1][13] - AI工程师不仅能够编写代码,还具备人类工程师难以比拟的持续性与规模化潜力[4] - 多模态成为重要趋势,AI输入输出可涵盖音频、视频、图像、文本或代码等多种形式[6] AI行业格局 - 构建最先进AI模型需要大量投资,最终市场可能仅保留少数几个主流模型[8] - 知识蒸馏技术可将强大模型压缩成轻量级模型,适配更多应用场景[9] - 谷歌通过Pathways系统实现单一Python进程控制上万设备,显著提升开发者体验[19][20] 硬件发展趋势 - 专用机器学习硬件如TPU对AI发展至关重要,谷歌已推出多代TPU产品[16] - 模拟计算在功耗效率方面具有优势,可能成为未来推理硬件发展方向[18] - AI计算需求变化推动硬件创新,需要针对训练和推理不同负载优化设计[22] 技术突破方向 - 稀疏模型和混合专家架构可带来10-100倍的效率提升[24] - 动态扩展模型结构比固定模型更具潜力,可优化资源分配[25] - AI正在改变科研方式,神经网络可加速科学模拟达30万倍[17] 产品应用前景 - AI助手可观察用户操作并协助完成任务,如浏览器标签管理[11] - 教育领域可能成为AI杀手级应用场景,可自动生成互动教学内容[10] - 物理机器人智能体在未来几年可能完成数十种实际工作任务[7]
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]
中金 | AI 进化论(3):DeepSeek本地部署需求盛行,一体机硬件乘风而上
中金点睛· 2025-03-05 23:11
文章核心观点 - DeepSeek开源大模型推动私有化部署新趋势,其R1模型在性能、开源策略、硬件成本和适配优化方面具备优势,有望推动包括DeepSeek一体机在内的本地私有化部署需求快速提升,利好算力硬件需求 [1][7][12] DeepSeek开源大模型特点及影响 - DeepSeek V3版本模型以仅1/10训练成本获得与海外领先模型对标能力,R1模型在少量标注数据下提升推理能力,性能比肩OpenAI o1正式版,且于2025年2月24日启动“开源周”丰富开源生态 [7] - 高质量开源模型推动AI大模型能力边界探索和应用落地,利好算力硬件需求;DS在C端APP下载量呈指数级增长,在B端加速垂直领域渗透,45%央企已完成DS模型部署 [8] - 大模型云端部署带动云端算力需求提升,R1模型有望推动云资源消耗量提升,阿里云收入增速和资本开支增长积极 [10] - DeepSeek部署不止于云端,本地化私有部署保障数据安全,C端“云端协同”优化体验与隐私保护,B端部分行业刚性需求驱动本地化部署 [11] C端:DeepSeek - R1+蒸馏技术,轻量化模型推动AI端侧部署 DeepSeek - R1蒸馏 - 知识蒸馏将671B参数量的“教师模型”决策逻辑和特征表征能力迁移至轻量“学生模型”,生成6个不同版本蒸馏模型 [15] - 蒸馏版模型推理性能超越同规模传统模型,在多个推理基准测试中表现优异,兼具经济性与有效性 [16] 蒸馏模型本地部署 - 蒸馏模型减少对显存、内存和存储需求,适合搭载于资源受限终端设备,不同版本参数蒸馏模型需选择合适终端硬件配置 [19][20] - PC是承载本地模型重要终端,DeepSeek - R1轻量化模型推动AI PC升级,换机动力有提升空间,端侧模型进化与硬件迭代形成飞轮效应 [21] B端:AI私有化部署新趋势,DeepSeek一体机的全栈式解决方案 DeepSeek一体机重构本地私有化AI部署模式 - DeepSeek R1全参数模型对系统显存等提出更高要求,一体机是“开箱即用”智能算力解决方案,重构本地私有化AI部署模式 [24][25][26] - 一体机具备深度优化的高性能硬件、内置多种基座大模型、全栈工具链等优势,可缩短部署周期、降低落地门槛 [26][27] DeepSeek一体机软硬件协同难点 - 主流国产AI训练芯片缺少对FP8精度支持,采用16位精度单元计算会大幅降低效率,显存需求增加 [28] - 为在单台8卡服务器上实现全参数DeepSeek R1模型,厂商需进行定点量化,在优化算力效率与保障模型效果间寻求平衡 [30][32] DeepSeek一体机迎合本地化部署需求,市场空间广阔 - 一体机私有化部署满足企业数据安全及合规需求,降低AI大模型部署门槛,减弱B端用户对云的依赖 [33][34][36] - 预计乐观情景下2025年政府、金融等行业约5%的服务器需求转向DeepSeek一体机,需求达7万台,市场规模有望达540亿元 [38][40] 国产算力产业链全方位适配DeepSeek,服务器及云厂商拥抱一体机趋势 - 国产主流GPU厂商宣布适配DeepSeek,超过160家国产算力产业链企业完成适配,昇腾等国产GPU成为重要底层算力支撑 [40] - 算力硬件厂商、云厂商等推出DeepSeek一体机,看好整机环节头部的一体机供应商 [42]