模型融合

搜索文档
腾讯研究院AI速递 20250827
腾讯研究院· 2025-08-26 16:01
生成式AI模型技术突破 - 英伟达推出Jet-Nemotron小模型系列(2B/4B参数),采用后神经架构搜索与JetBlock线性注意力模块,在数学、代码、常识等维度性能超越Qwen3、Gemma3等主流开源模型 [1] - 模型在H100 GPU上推理吞吐量最高提升53.6倍,长上下文场景优势显著 [1] - 面壁多模态模型MiniCPM-V 4.5以8B参数量超越Qwen2.5-VL 72B模型,成为首个具备高刷视频理解能力的多模态模型 [2] - 支持最大96倍视觉压缩率,可接收6倍视频帧数量,采用3D-Resampler压缩技术和统一OCR学习 [2] - 微软开源音频模型VibeVoice-1.5B,可连续合成90分钟超长语音,支持4名发言人,实现3200倍音频压缩 [3] - 采用双语音tokenizer架构解决音色与语义不匹配问题,压缩效率是主流Encodec模型的80倍 [3] 模型融合与演化创新 - Sakana AI提出M2N2模型融合进化方法,引入竞争与吸引力机制,打破预定义静态边界 [4] - 通过多样性竞争促使模型专业化,择偶机制根据互补优势配对融合,避免灾难性遗忘问题 [4] - 方法兼容不同目标训练的模型,不需原始训练数据即可保留模型能力 [4] 模型部署与运营问题 - DeepSeek V3.1存在异常插入"极/極/extreme"等token的bug,影响语法树和代理流程 [5] - 问题出现在第三方量化部署和官方全精度模型中,即使保守解码参数设置也无法避免 [6] - 对依赖自动化编码或测试流水线的团队造成重大麻烦 [6] AI商业与生态发展 - Perplexity推出全球首个AI搜索收入分成计划,设立4250万美元基金分配给出版商 [7] - 出版商可获得Comet Plus订阅收入(月费5美元)的80%,基于内容出现频率或查询次数分享收入 [7] - 马斯克旗下公司起诉苹果与OpenAI,指控通过锁定市场维持垄断地位,阻止创新者参与竞争 [8] - 诉讼索赔数十亿美元,案件可能影响AI市场范畴界定和商业合作模式 [8] 机器人硬件与算力升级 - 英伟达发布机器人专用芯片Jetson Thor,采用Blackwell架构GPU,AI算力达2070 FP4 TFLOPS [9] - 算力是上代Jetson Orin的7.5倍,内存容量128G,显存带宽273GB/s,能效提升3.5倍 [9] - 宇树科技、银河通用机器人等中国厂商首发搭载,开发者套件售价3499美元 [9] 人工智能教育与政策 - OpenAI教育负责人表示70%雇主更倾向招聘会使用AI的新人而非有10年经验的老手 [10] - ChatGPT成为全球最大学习平台,Study Mode功能以苏格拉底式方法指导学习 [10] - 国务院发布《人工智能+行动意见》,提出2027年实现AI与6大重点领域深度融合 [12] - 重点覆盖科学技术、产业发展、消费提质等领域,要求加强算力统筹、数据供给等八大基础支撑 [12]
ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通
机器之心· 2025-07-26 12:17
常规 LoRA 训练的隐藏缺陷 - 参数高效微调技术是预训练大模型在下游任务应用的关键技术,但 LoRA 仍面临训练不稳定、模型融合效果差、剪枝后性能下降等问题 [4] - LoRA 优化过程常陷入初始化点附近的次优解,限制模型泛化能力 [7] - 梯度更新集中在模型顶层适配器,导致底层适配器训练不足 [7] - 多个 LoRA 模型融合和剪枝等下游操作困难,效果不佳 [7] CoTo 策略的核心思想 - 采用渐进式激活策略,训练初期以较高概率随机失活部分 LoRA 适配器,迫使梯度更均匀流向所有层级 [5] - 训练中后期线性提高适配器激活概率,直到所有适配器完全参与训练 [8] - 该策略促进层级间均衡优化,提升模型线性模式连通性和 Dropout 稳定性 [8] CoTo 的实验结果 - 在常识推理与图像分类任务中,CoTo 模型展现优越的线性模式连通性,性能过渡平滑高效 [13] - 在 GLUE 数据集上,基于 LLaMA-2 和 DeBERTa-v3 模型的 CoTo 训练 LoRA 模块多任务合并准确率稳定超越基线 [13] - CoTo 增强模型剪枝容错能力,在结构化和非结构化剪枝中性能全面超越标准 LoRA [17] CoTo 的性能与效率 - 在视觉、语言和数学推理等多个领域基准测试中,CoTo 稳定提升多种 LoRA 变体性能 [24] - 在 HiRA 上应用 CoTo 可实现超 24% 的训练加速 [24] - 代码实现简洁,只需对现有 LoRA 训练流程做三步改动即可应用 [22] CoTo 的总结 - 通过渐进式训练策略有效解决 LoRA 训练中的层级不平衡和优化问题 [23] - 提升模型单任务泛化能力,增强 LoRA 适配器可组合性与鲁棒性 [23] - 无需修改模型架构,可作为即插即用模块与各类 LoRA 方法无缝集成 [23]
不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门
量子位· 2025-04-28 06:36
DeepSeek R2传闻与模型融合技术发展 - 坊间传闻DeepSeek即将发布R2模型,参数规模达1.2T万亿,训练数据5.2PB,可能高效利用华为芯片,但信息真实性待验证 [1] - 开源社区推测R2的基础模型可能是新版DeepSeek V3-0324,发布时间或在4月底,依据是R1与V3的间隔周期 [4] R1T-Chimera融合模型特性 - 德国TNG团队推出非官方融合模型R1T-Chimera,基于MIT协议开源,结合DeepSeek V3-0324共享专家与R1/V3路由专家,能力接近R1但输出token减少40% [5][6][8][9][14] - 模型融合后表现优于预期,思考过程更紧凑有序,未出现融合缺陷,但技术细节尚未公开 [15][16] - 在三维空间推理测试中,R1T-Chimera耗时101秒(原版R1为13秒),通过计算得出解决方案,但过程中存在旋转/弯曲甘蔗等误区 [17][18][19][20][22][23] 行业模型融合技术动态 - Kimi K1.5技术报告探索长/短思维链模型权重平均融合法,无需重新训练 [27] - Sakana AI提出基于进化算法的block级融合方法,早于行业布局 [31][32] - 模型融合技术可能成为2025年大模型发展趋势,多团队跟进验证 [34] 资源与社区参与 - R1T-Chimera模型权重可通过HuggingFace下载,OpenRouter提供免费在线试玩 [13][36] - HuggingFace创始人建议关注官方更新,以获取最新动态 [3]