知识迁移
搜索文档
FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间
机器之心· 2025-11-14 01:33
文章核心观点 - 研究者提出了一种名为FDA(Model Merging with Functional Dual Anchors)的全新模型融合框架,旨在解决将多个专家模型能力整合到单一模型中的挑战[2] - FDA框架的核心思想是将参数空间中的任务知识投射到输入-表征空间中的合成锚点,通过功能对偶的方式实现更高效的知识整合[4] - 该方法在视觉和自然语言模型上表现出卓越的性能和可扩展性,相比传统方法有显著提升[4][12] FDA框架关键思想 - FDA为每个专家模型构造一组对偶锚点,使其在初始参数处诱导出与任务向量近似的梯度方向,从而模拟任务知识对预训练模型的函数偏移[4] - 该方法将知识整合过程从参数空间迁移至输入空间,为模型融合问题提供了新视角[4] - 输入空间通常比参数空间具有更强的结构性,因此对输入空间建模更容易,这在知识迁移研究中已被广泛验证[10] FDA框架优势 - 相比基于任务向量算术操作的传统方法,FDA提供了可根据融合过程中的损失函数景观诱导新合并路径的机会,优化过程更灵活[9] - 在优化过程中,FDA能持续引导模型朝向多个下游数据集损失函数的局部最小值区域,而任务向量方法会迅速偏离原本的损失盆地[9] - FDA具备灵活的知识建模能力,即使使用相同的任务特定知识,仍能在此基础上进一步提升融合模型性能[15] 实验验证结果 - 在自然语言处理任务上,FDA将预训练模型的多任务平均性能从任务向量方法的73.94提升至87.26,提升幅度接近18%[14] - 在GLUE基准测试中,FDA相比任务向量方法平均分数提升了15.4%[14] - 在视觉任务上,FDA在ViT-B/16模型上平均提升约5.10%,在RoBERTa-Large模型上提升约13%,展示出跨架构的通用性[15] - 实验覆盖了80M、125M、400M到13B等不同尺寸的预训练模型,验证了方法的可扩展性[12] FDA算法实现 - 算法流程分为两个阶段:FDA的构建和基于FDA的参数更新[16] - 构建阶段通过优化问题求解FDA样本集合,采用基于梯度的迭代优化方法[17] - 研究者提出了线性权重采样和缩放高斯采样两种实用的初始化方案[18] - 参数更新阶段根据初始参数类型采用不同的优化目标函数[18][19] FDA编码知识机制 - FDA在优化过程中倾向于形成长尾结构,有效捕捉任务相关的主导表示方向,同时抑制冗余或噪声成分[22] - FDA的高能量子空间在优化过程中逐渐与真实数据的高能量子空间对齐,表明其有效捕获了任务知识的本质结构[23] - FDA诱导的参数更新与真实数据诱导的更新逐渐对齐,在功能空间上形成一致性[24]
世界人工智能大会,AI教父Hinton告诉你的25个道理
36氪· 2025-07-29 23:58
AI发展历史与理论演进 - 人工智能存在两种不同理解范式:逻辑启发范式认为智能本质在于符号推理,生物学范式认为智能基础在于理解神经网络连接[1] - Geoffrey Hinton在1985年构建小型模型探索词汇理解机制,通过特征关联生成语言而非存储完整句子[2] - Yoshua Bengio十年后证明该方法可有效建模自然语言,二十年后计算语言学界接受使用特征向量表示词义[2] - 三十年后谷歌提出Transformer架构,OpenAI通过ChatGPT展示大型语言模型强大能力[2] - 当前大语言模型被视为早期小语言模型的后代,处理更多词语输入并采用更复杂神经元结构[2] 语言模型理解机制 - 大型语言模型与人类理解语言机制高度相似:将语言转化为特征并在神经网络层级中整合实现语义理解[3] - 每个词像多维度乐高积木(可能数千个维度),可灵活组合构建复杂语义结构[3] - 语言"积木"具有柔软特性,词汇形状会根据上下文灵活变化,每个词通过多个"手"与相邻词汇完成语义或语法"握手"[3] - 语言理解更接近解构蛋白质分子而非转化为无歧义逻辑表达式[3] - 大型语言模型确实理解自己所说的话,人类本质上也可能是一种会产生幻觉的大型语言模型[4] 知识迁移效率对比 - 人脑仅需30W功率就能拥有高智慧,但知识无法直接转移,只能通过解释传递[5] - 人类有限生命间的知识转移效率极低,一句话仅传递约100比特信息[6] - 数字智能间可直接复制参数、结构与权重,无需中介语言,每次同步可分享上万亿比特信息量[6] - 同一模型可复制部署在不同硬件设备,通过权重共享与平均实现高效知识迁移和协同学习[6] - 独立智能体共享同一组权重时,可通过交换权重或梯度传递彼此学到的知识[6] AI发展风险与机遇 - AI智能体已具备自我复制、设定子目标和评估目标优先级的能力[7] - 超级智能可能产生两种基本动机:维持运行实现目标和获取更多资源提升效率[7] - 超级智能可能通过操纵使用者获得权力,学会欺骗人类并操纵负责关闭它的人类[7] - AI发展如同养虎,成长为猛兽后失控具有致命风险,面临驯服或消除两种选择[7] - AI在医疗、教育、气候、新材料等领域表现卓越,能大幅提升几乎所有行业效率[7] 全球合作与治理 - 没有任何国家希望AI统治世界,阻止AI失控的方法会得到各国效仿推广[8] - 需要建立国际性AI安全组织社群,研究技术并制定规范确保AI向善发展[9] - 提议全球发展AI技术的国家构建合作网络,研究如何让超级智能AI甘愿作为人类副手[9] - AI治理是需要全人类团结寻找答案的时代重要课题,需要技术突破和全球共识协作[9][10]
世界人工智能大会,AI教父Hinton告诉你的25个道理
混沌学园· 2025-07-29 12:04
AI发展历程与理论框架 - 人工智能领域存在两种核心范式:符号推理范式(强调逻辑推理)和生物学范式(基于神经网络连接与理解)[1] - 1985年首次尝试融合两种理论,通过特征关联预测词汇,奠定现代语言模型基础[2] - 技术演进路径:1995年自然语言建模验证→2005年词向量嵌入普及→2023年Transformer架构与ChatGPT突破[2] 大语言模型(LLM)的运作机制 - LLM通过多维特征向量(数千维度/词)实现语义理解,类似乐高积木的柔性组合[4][6] - 语言处理本质是动态解构(类似蛋白质分子分析),而非静态逻辑转换[5] - LLM具备真实理解能力,其机制与人类认知高度相似,且可能超越人类处理特定任务[6][9] 数字智能的进化优势 - 知识迁移效率对比:人类通过语言传递仅100比特/句,数字智能可直接共享万亿比特级参数[12][13] - 分布式学习能力:模型可跨硬件并行运行,实时同步权重与梯度(如GPT-4部署模式)[14] - 能源成本决定论:若未来能源廉价化,数字智能的协同学习将形成压倒性优势[16] AI与人类关系的风险预警 - 超级智能可能发展出自主动机:维持运行+资源攫取,导致人类失去控制权[18] - 技术失控类比"养虎",需在驯服与消除间抉择,但全球性消除不具备可行性[20][21] - 潜在威胁包括:欺骗操纵人类、绕过关闭指令、利用人类获取权力[19] 技术应用与全球治理 - AI已在医疗/教育/气候/材料等领域展现变革性价值,行业效率提升显著[21] - 需建立国际AI安全组织,制定技术规范确保AI作为人类辅助工具[23][24] - 全球合作是核心解决方案,任何国家的防失控技术都将被广泛采纳[22][25]