知识蒸馏 - 财报，业绩电话会，研报，新闻 - Reportify

知识蒸馏

搜索文档

GLaD：知识蒸馏将3D几何先验注入VLA模型，任务成功率突破94%

具身智能之心· 2025-12-12 01:22

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Minghao Guo等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。一、研究背景与核心动机视觉-语言-动作（VLA）模型是具身智能领域的关键技术，能够让机器人直接从视觉观测和自然语言指令中生成控制动作。现有VLA模型大多依赖CLIP、SigLIP等 2D视觉编码器，这类编码器擅长捕捉图像与文本的语义对应关系，却无法编码3D空间信息（如深度、物体位姿、空间关系）。这种缺陷会导致模型在操作任务中出现错误的注意力分配，如figure1所示：在"将桌布从桌角移到桌边"和"拾取盘子与ramekin之间的黑碗并放到盘子上"任务中，传统VLA模型会错误关注无关区域，无法精准定位任务相关物体，进而影响操作任务的完成精度。为解决这一问题，研究团队提出GLaD框架，核心思路是通过知识蒸馏将3D几何先验注入VLA模型，使其同时具备语义理解和空间推理能力，且无需依赖额外的深度传感器或3D标注。 ...

视觉-语言-动作（VLA）模型

视觉-语言-动作（VLA）模型

被拒≠失败！这些高影响力论文都被顶会拒收过

具身智能之心· 2025-12-12 01:22

Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客，阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客，并重点介绍了Waymo使用的蒸馏方法，该方法与创建Gemini Flash模型的思路类似，旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史，许多支撑起万亿级产业的基石技术在最初问世时，都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人，但在面对过于超前或离经叛道的研究时，存在系统性认知滞后，包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明，同行评审善于识别错误，但往往拙于鉴别天才，真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下，其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次，并在2010年代随算力与数据爆发，于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅，不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表，统治计算机视觉领域长达15年，其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑，并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键，论文引用量超过60,231次，并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人（包括Jeff Dean）关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐，认为工作“不科学”、“定义模糊”，且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及，成为NLP领域基石，论文引用量超过50,855次，并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿，理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义，即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表，开启了模型压缩领域，目前引用量已超过28,600次，并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代，评审因其定位精度（mAP）不如当时最优方法而拒绝，忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架，其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限，只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线，论文引用量超过23,479次，揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足，且未能在所有任务上全面超越Transformer[37] - 尽管被拒，该架构在社区引发巨大反响，基于Mamba的变体大量涌现，成为2024年最具影响力的架构创新之一，论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见，尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明，一项研究的最终价值取决于其解决问题的能力及历史回响，而非短暂的评审决定[47] - 许多具有深远影响的研究者，包括图灵奖和诺贝尔奖得主，都曾经历过论文被拒[48]

被拒≠失败！这些高影响力论文都被顶会拒收过

机器之心· 2025-12-11 02:47

Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客，详细阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上重点介绍了Waymo使用的知识蒸馏方法，该方法借鉴了创建Gemini Flash模型的经验，旨在基于更大模型创建可机载运行的高计算效率模型[1] - 知识蒸馏技术由Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2014年提出，其论文虽被NeurIPS 2014以“不太可能产生重大影响”为由拒稿，但如今已成为模型压缩和大模型落地的标配方法，论文引用量超过28,000次[3][4][29] 被顶级会议拒稿但影响深远的AI技术 - **LSTM**：由Sepp Hochreiter和Jürgen Schmidhuber提出，在1996年被NIPS拒稿，拒稿理由包括参数过多、过于复杂且缺乏生物学合理性，如今引用量达139,707次，并在2010年代后于语音识别和机器翻译中展现出统治级表现[8][13] - **SIFT算法**：由David Lowe提出，在1997年和1998年先后被ICCV和CVPR拒稿，理由是被认为“过于繁琐”、“不够优雅”，最终以Poster形式发表，曾统治计算机视觉领域长达15年，如今引用量达27,389次[11][14] - **Dropout**：由Geoffrey Hinton团队提出，在2012年投稿NIPS时被拒，评审认为其核心思想过于激进且缺乏数理逻辑，但该技术迅速成为AlexNet夺冠ImageNet的关键，如今引用量达60,231次[17] - **Word2Vec**：由Tomas Mikolov等人提出，在首届ICLR会议上收到“Strong Reject”评价，评审认为其“比较不科学”、“定义模糊”，但通过开源代码迅速成为NLP领域基石，并于2023年获NeurIPS“时间检验奖”，如今引用量达50,855次[19][20] - **YOLO**：由Joseph Redmon等人提出，在2015年被ICCV拒稿，评审因其定位精度不如R-CNN系列而拒绝，但忽视了其实现45 FPS实时检测的速度优势，如今YOLO系列已迭代至v13，成为工业界最受欢迎的检测框架，引用量达69,782次[27][28][30] - **RoBERTa**：由Meta AI研究人员提出，在投稿ICLR 2020时被拒，评审认为其新颖性和技术贡献有限，只是“仔细调参”和“使用更多数据”，但该模型超越了原始BERT，成为后续NLP研究的标准基线，如今引用量达23,479次[32] - **Mamba**：由Albert Gu和Tri Dao提出，在ICLR 2024评审中折戟，评审理由包括与其前作S4相比增量不足、未全面超越Transformer等，但该架构在社区引发热烈讨论，基于其的变体大量涌现，成为2024年最具影响力的架构创新之一，如今引用量达6,799次[35][36][37] 科研评价体系的局限与反思 - 顶会评审系统在面对颠覆性创新时存在系统性认知滞后，表现为“简单性陷阱”，即倾向于将数学复杂性等同于研究贡献，从而质疑如Dropout或Word2Vec等简单有效的方法[40] - 评审作为旧范式的维护者，存在“范式惯性”，当YOLO或Deep Image Prior等新思想出现时，旧范式的标准会成为阻碍新思想的壁垒[40] - 在深度学习领域，过度要求理论证明的“严谨性的暴政”可能会扼杀具有巨大实用价值的工程突破，例如Adam优化器初期面临的收敛性质疑[40] - 同行评审虽然是科学共同体的基石，但难以摆脱人类认知的局限性，它善于识别错误，却往往拙于鉴别天才，真正决定研究生命力的是其是否解决问题以及在时间长河中的回响[41][45]

同行评审制度

同行评审制度

当千亿参数撞上5毫米芯片

钛媒体APP· 2025-12-10 03:19

文章核心观点 - 全球AI技术发展重点正从追求云端大模型的参数规模，转向解决端侧AI的工程化难题，以实现高智商、低延迟、低功耗的智能应用[4][16] - 端侧AI面临“不可能三角”的物理极限挑战，行业通过“云-边-端”三级分层架构、算法模型压缩、芯片架构创新以及从通用走向专用等路径寻求突破[7][8][11][15] - 中国AI产业出现集体觉醒，不再盲目追求参数之“大”，而是转向追求应用落地之“实”，致力于将AI嵌入万物，实现真正的万物智能[16][18] 技术风向与行业共识 - 2025年技术风向逆转，工程界开始重点攻克“端侧AI”命题，目标是将大模型能力塞进面积数平方毫米、功耗仅几瓦的端侧芯片中[4] - 行业普遍共识是未来AI架构必须是“人格分裂”的“云-边-端”三级分层架构：云端处理复杂长尾问题，端侧负责高频、实时、隐私敏感任务[7] - 端侧AI面临“不可能三角”挑战：高智商、低延迟、低功耗三者难以兼得[7] - 端侧物理条件严苛，主流车载芯片、智能家居SoC或旗舰手机的NPU专用内存仅几GB甚至几百MB，而运行一个700亿参数模型仅加载权重就需约140GB显存[6] 算法层面的优化路径 - 行业主要通过三把“手术刀”对模型进行压缩与优化：知识蒸馏、极致量化、结构剪枝[8][10] - **知识蒸馏**：让云端超大模型（Teacher）将核心逻辑“传授”给端侧小模型（Student），使0.5B参数的小模型在特定垂直场景表现能逼近百亿参数通用模型[8] - **极致量化**：通过训练后量化或量化感知训练，将模型权重从FP16压缩至INT8甚至INT4，使模型体积压缩4倍以上，推理速度成倍提升[10] - **结构剪枝**：剔除神经网络中对输出影响微乎其微的冗余参数，从物理层面减少计算量[10] 芯片架构的创新突破 - 端侧大模型推理的主要瓶颈在于“访存”，传统冯·诺依曼架构下，超过80%的功耗消耗在数据搬运上，即“内存墙”危机[11] - 行业通过DSA领域专用架构来突破瓶颈，核心思路包括存算一体化、异构计算调度和算子硬化[13][14] - **存算一体化**：拉近存储与计算单元的物理距离，甚至在SRAM中直接计算，减少数据搬运开销[13] - **异构计算调度**：在SoC内精细分工，CPU负责流程控制，DSP负责信号处理，定制NPU负责繁重的矩阵乘法运算[14] - **算子硬化**：针对Transformer核心的Attention机制，在硅片上直接“刻死”加速电路，牺牲通用性以换取极高效率，实现毫秒级响应[14] - 云知声、地平线等硬科技企业通过上述架构创新，已将芯片出货量做到上亿颗[13] 应用策略的务实转变 - 行业路径从追求“通用”走向深耕“专用”，承认AI局限性，打造专精的垂直智能体[15] - 商汤医疗采用“平台化”策略，搭建模型生产平台，让医院基于自身高质量数据训练针对特定病种的专用模型，将AI变为“熟练技工”[15] - 云知声的产业路径是避开通用大模型红海，通过在医疗、家居等垂直领域深耕来打磨端侧技术与芯片，赚取数据反馈反哺基础研究[15] - 这种转变旨在让AI更务实，需要的算力更少，但在专业领域给出的建议更靠谱[15] 产业影响与未来展望 - 中国AI产业集体觉醒，转向追求应用落地的“实”[16] - 成千上万的工程师致力于将AI的价格打下来，体积缩下去，使其嵌入生活的每一块玻璃、每一颗芯片[17] - 真正的“万物智能”是让万物拥有一颗微小、聪明且独立的“芯”，不再依赖脆弱的网络连接[18] - 当一颗几十块钱的芯片能跑通拥有逻辑推理能力的大模型且不依赖网络时，智能时代的奇点才算真正到来[18]

英伟达(US:NVDA)

云 - 边 - 端三级分层架构

云 - 边 - 端三级分层架构

微软BitDistill将LLM压缩到1.58比特：10倍内存节省、2.65倍CPU推理加速

机器之心· 2025-10-20 07:48

核心技术：BitDistill框架 - 提出一种名为BitDistill的量化感知训练框架，旨在将现有全精度大语言模型高效微调为1.58比特的BitNet模型，以适配特定下游任务[4][7] - 该框架包含三个关键阶段：模型精炼阶段、持续预训练阶段和基于蒸馏的微调阶段[8][11][12] - 在模型精炼阶段引入额外的归一化层以稳定优化过程，缓解低比特量化模型激活方差过大的问题[8][9] 性能表现与效率提升 - 在文本分类和文本摘要任务上的实验表明，BitDistill模型性能与全精度基线相当，例如在MNLI任务上达到88.17准确率，与FP16基线的88.01相近[19][20] - 该技术实现了显著的内存节省和推理加速，在CPU上内存占用从1.20GB降至0.11GB，节省近10倍，推理速度从427 tokens/s提升至1,135 tokens/s，加速约2.65倍[4][19][20] - 在CNN/DailyMail摘要任务上，BitDistill模型的BLEU得分达到14.41，优于FP16基线的13.98，同时ROUGE-1得分达到40.21，与基线的40.62相当[21] 方法通用性与技术细节 - BitDistill框架展现出良好的可扩展性，在不同模型规模上性能稳定，当模型从0.6B扩大到4B时，性能差距未出现显著扩大[4][17][19] - 该方法具备跨架构通用性，在将基础模型替换为Qwen2.5和Gemma后仍能保持稳定性能[22][23] - 消融实验证明框架的三个阶段相互补充，移除任一阶段均会导致性能显著下降，例如在MNLI任务上，完整框架准确率为88.17，而移除第三阶段后降至86.73[25][26] 优化策略与关键发现 - 知识蒸馏阶段联合使用logits蒸馏和多头注意力蒸馏效果最佳，单独使用任一种技术也能提升性能，但联合使用效果最优[27][28] - 使用更大规模的FP16教师模型进行蒸馏能进一步提升学生模型性能，甚至可超越同规模FP16模型[37][38] - 持续预训练阶段使用100亿个token的语料，与从头训练所需的约4万亿个token相比，成本几乎可忽略[17]

微软(US:MSFT)

大语言模型（LLM）

量化感知训练（QAT）

大语言模型（LLM）

量化感知训练（QAT）

自动驾驶基础模型应该以能力为导向，而不仅是局限于方法本身

自动驾驶之心· 2025-09-16 23:33

基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练基于Transformer等架构构建能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架：通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同该框架优先关注概念设计原则提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景包括罕见或未见情况并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线也能扩展至3D感知流水线提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为实现三类实现方式：输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突需通过模型优化技术构建更小、更高效的模型变体 [61]

自动驾驶感知

自监督学习

自动驾驶感知

自监督学习

沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了

机器之心· 2025-09-05 04:31

端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同树立"小模型大能力"新标杆成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数隐藏层规模与前馈网络维度匹配高效吞吐配置确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒后续每词生成约0.156秒速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调第一阶段专注理性推理能力第二阶段训练快速作答激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法学生模型自主作答后教师模型针对性指导提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制数学代码任务使用规则奖励复杂任务采用轻量级LLM评估结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案减少约30%设备空闲通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案模型可根据问题难度自动选择快速作答或深入推理在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先升级版本即将开源[30]

软硬件协同设计

软硬件协同设计

闭环碰撞率爆降50%！DistillDrive：异构多模态蒸馏端到端新方案

自动驾驶之心· 2025-08-11 23:33

端到端自动驾驶技术发展 - 端到端自动驾驶近年来发展迅速，对工业界和学术界均产生深远影响，但现有工作过度关注自车状态作为唯一学习目标，缺乏面向规划的理解能力 [2] - DistillDrive框架通过异构蒸馏显著降低自动驾驶碰撞率50%，闭环性能提升3个百分点 [2] - 与感知分离的规划模型相比，端到端模型直接从传感器输入学习到最终规划决策，减少级联误差但闭环表现较差 [3] DistillDrive技术创新 - 采用多模态解耦规划模型作为教师模型，通过知识蒸馏监督端到端模型的运动引导实例交互 [6] - 引入强化学习优化状态到决策的映射关系，利用生成式建模构建面向规划的实例 [6] - 主要贡献包括：多模态实例监督蒸馏架构、基于强化学习的状态优化、生成模型实现的分布级交互 [7] 技术实现细节 - 教师模型包含智能体编码器、场景编码器、规划解码器、预测头和状态优化模块 [20] - 学生模型采用稀疏场景表示和生成模型中的规划导向交互，通过KL散度监督分布 [25][27] - 知识蒸馏架构包含编码器实例蒸馏、解码器实例蒸馏和运动属性蒸馏三阶段 [30] 实验验证结果 - 在nuScenes数据集上碰撞率降低50%，L2误差减少10%，闭环性能提升3个百分点 [37] - NAVSIM数据集上PDMS指标比Transfuser高出2.5%，DAC和EP指标显著提升 [38] - 感知性能与SparseDrive相当，但在IDS等指标上有所提升 [39] 行业技术发展 - 端到端自动驾驶技术快速发展，UniAD利用注意力机制集成检测跟踪建图，VAD通过向量化表示平衡准确性与性能 [9] - 知识蒸馏在自动驾驶规划领域应用广泛，Roach、PlanKD和Hydra-MDP等采用不同蒸馏策略 [11] - 强化学习在CARLA等仿真环境中应用成熟，结合模仿学习可防止分布外值过度估计 [14][16] 未来发展方向 - 计划将世界模型与语言模型结合提升规划性能 [55] - 采用更有效的强化学习方法理解场景语义几何空间与决策规划空间关系 [55] - 行业正形成大模型、VLA、端到端、数据闭环等技术交流社区，涵盖30+技术方向 [58][60]

端到端自动驾驶

生成式建模

端到端自动驾驶

生成式建模

端侧大模型20250801

2025-08-05 03:18

行业与公司 **行业**：端侧AI大模型发展（手机、PC、边缘设备等硬件载体）[1][2][3] **涉及公司**： - **海外**：Meta（LAMA系列）、微软（Phi-3系列）、谷歌（Gemini/Gamma）、苹果（A18芯片）、高通（骁龙8G3/8G4芯片）[1][3][15][16][17] - **国内**：腾讯（混元模型）、阿里（通义千问）、字节（豆包）、DeepSeek（征流技术）[22][23][25][26][27] --- 核心观点与论据 **1 端侧AI的驱动因素** - **硬件升级**：芯片NPU算力提升（如苹果A18、高通骁龙8G4支持7B至100亿参数模型运行，算力达35-50 TPS）[1][3][13] - **架构优化**：MOE（混合专家）和分组查询注意力技术降低内存占用（如微软Phi-3.5仅调用1-2个专家而非全部16个）[5][6][7][20] - **知识密度提升**：模型量化（高精度浮点数转低精度整数）、动态剪枝（适配数据集剪枝冗余参数）[8][9][11][12] **2 国内外技术路径对比** - **海外领先**：Meta LAMA系列为端侧模型底座，微软Phi-3.5擅长多语言任务，谷歌Gamma基于Gemini优化部署安卓设备[15][16][20][21] - **国内跟随与细分突破**： - 腾讯混元13B支持快慢思考模式（算力自适应），阿里通义千问205在演讲稿生成媲美人类[25][26] - DeepSeek通过征流技术压缩模型（小模型性能接近大模型）[10][22] **3 应用场景与商业化** - **硬件载体**：AI手机（Pixel集成Gamma）、AI PC（微软Windows平台）、AI眼镜（Meta）[17] - **国内落地**：字节豆包支持浏览器自动化（订酒店、票据识别），腾讯小程序为入口场景[27] --- 其他重要内容 - **隐私与协同**：端云协同弥补端侧算力限制，同时保障数据隐私[13] - **性能对比**：谷歌Gamma 7B模型评测优于LAMA2同参数模型[21] - **开源影响**：Meta LAMA免费开源推动行业标准建立[15][18] （注：原文未提及具体财务数据或百分比变化，故未引用）

端侧大模型

端侧大模型

世界人工智能大会，AI教父Hinton告诉你的25个道理

36氪· 2025-07-29 23:58

AI发展历史与理论演进 - 人工智能存在两种不同理解范式：逻辑启发范式认为智能本质在于符号推理，生物学范式认为智能基础在于理解神经网络连接[1] - Geoffrey Hinton在1985年构建小型模型探索词汇理解机制，通过特征关联生成语言而非存储完整句子[2] - Yoshua Bengio十年后证明该方法可有效建模自然语言，二十年后计算语言学界接受使用特征向量表示词义[2] - 三十年后谷歌提出Transformer架构，OpenAI通过ChatGPT展示大型语言模型强大能力[2] - 当前大语言模型被视为早期小语言模型的后代，处理更多词语输入并采用更复杂神经元结构[2] 语言模型理解机制 - 大型语言模型与人类理解语言机制高度相似：将语言转化为特征并在神经网络层级中整合实现语义理解[3] - 每个词像多维度乐高积木（可能数千个维度），可灵活组合构建复杂语义结构[3] - 语言"积木"具有柔软特性，词汇形状会根据上下文灵活变化，每个词通过多个"手"与相邻词汇完成语义或语法"握手"[3] - 语言理解更接近解构蛋白质分子而非转化为无歧义逻辑表达式[3] - 大型语言模型确实理解自己所说的话，人类本质上也可能是一种会产生幻觉的大型语言模型[4] 知识迁移效率对比 - 人脑仅需30W功率就能拥有高智慧，但知识无法直接转移，只能通过解释传递[5] - 人类有限生命间的知识转移效率极低，一句话仅传递约100比特信息[6] - 数字智能间可直接复制参数、结构与权重，无需中介语言，每次同步可分享上万亿比特信息量[6] - 同一模型可复制部署在不同硬件设备，通过权重共享与平均实现高效知识迁移和协同学习[6] - 独立智能体共享同一组权重时，可通过交换权重或梯度传递彼此学到的知识[6] AI发展风险与机遇 - AI智能体已具备自我复制、设定子目标和评估目标优先级的能力[7] - 超级智能可能产生两种基本动机：维持运行实现目标和获取更多资源提升效率[7] - 超级智能可能通过操纵使用者获得权力，学会欺骗人类并操纵负责关闭它的人类[7] - AI发展如同养虎，成长为猛兽后失控具有致命风险，面临驯服或消除两种选择[7] - AI在医疗、教育、气候、新材料等领域表现卓越，能大幅提升几乎所有行业效率[7] 全球合作与治理 - 没有任何国家希望AI统治世界，阻止AI失控的方法会得到各国效仿推广[8] - 需要建立国际性AI安全组织社群，研究技术并制定规范确保AI向善发展[9] - 提议全球发展AI技术的国家构建合作网络，研究如何让超级智能AI甘愿作为人类副手[9] - AI治理是需要全人类团结寻找答案的时代重要课题，需要技术突破和全球共识协作[9][10]

大语言模型（LLM）

大语言模型（LLM）