Workflow
机器之心
icon
搜索文档
LUMA AI完成由HUMAIN领投的9亿美元C轮融资,并将在沙特阿拉伯合作建设2吉瓦AI超级集群
机器之心· 2025-11-24 09:30
融资与合作核心信息 - Luma AI完成9亿美元C轮融资,由PIF旗下的HUMAIN领投,AMD Ventures深度参与,过往投资者Andreessen Horowitz、Amplify Partners和Matrix Partners也参与其中 [1] - 融资在华盛顿特区举行的美沙投资论坛上宣布,正值沙特王储访问之际 [4] - 本轮融资是公司构建多模态通用智能使命中的一个里程碑 [3] 战略项目“光环计划”(Project Halo) - HUMAIN将建设名为“光环项目”的AI超级计算集群,位于沙特阿拉伯,容量为2吉瓦,旨在成为世界上最大的AI计算集群之一 [1][3] - 该集群将为下一代“世界模型”提供算力支撑,加速迈向多模态通用人工智能的进程 [3] - 该集群代表了多模态AI基础设施的一次巨大飞跃,旨在训练比当前前沿大语言模型多1,000到10,000倍信息量的拍字节级多模态数据 [5] 技术愿景与应用前景 - Luma AI致力于构建多模态AGI,即能够在物理世界中生成、理解和操作的AI,其系统需要从相当于人类集体数字记忆的千万亿个信息标记中学习 [1][5] - 世界模型是继大语言模型之后的下一个AI阶段,蕴含跨越娱乐、营销/品牌、教育、世界理解和机器人行业的潜在万亿美元机遇 [1] - 技术将应用于机器人、娱乐、广告、游戏和个性化教育等领域 [4] 合作伙伴关系与市场拓展 - 合作伙伴关系包括HUMAIN Create计划,旨在构建基于阿拉伯语和区域数据训练的AI模型,帮助中东和北非地区的企业和政府采用符合文化背景的AI [1] - Luma AI是首批在HUMAIN Create中推出的模型集,这些模型将理解文化语境、视觉细微差别和语言多样性 [7] - Luma AI计划将其在娱乐和广告领域的领导地位扩展到模拟、设计和机器人领域 [7] 公司产品与能力 - Luma AI的旗舰模型Ray3是世界上第一个推理视频模型,能够创建物理上准确的视频、动画和视觉效果,已被顶级娱乐工作室、广告代理商和技术领导者使用 [8] - 旗舰平台Dream Machine使创意人员能够生成专业级的视频和图像 [8] - 公司展示了将基础研究转化为可扩展商业产品的能力,其模型被嵌入Adobe的全球产品和解决方案中 [7]
NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!
机器之心· 2025-11-24 09:30
研究背景与现有方案的局限性 - 重光照技术旨在编辑图像或视频中的光照效果,在电影、游戏、虚拟现实和增强现实等领域具有重要应用价值[11] - 当前基于扩散模型的方法存在物理一致性缺失的问题,常导致阴影错位、高光过曝和遮挡关系错误等不合理现象[11][15] - 现有评估体系不完善,通用图像评价指标无法针对性衡量光照属性的准确性,制约了模型在光照可控性方面的优化[12] UniLumos框架的核心创新 - 引入来自RGB空间的几何反馈机制,采用深度图与表面法线图作为监督信号,强制模型学习光影与三维场景结构的对齐关系,显著提升物理一致性[22] - 采用路径一致性学习,在少步训练条件下保持有效监督,使推理速度较现有SOTA方法提升达20倍[3][22][33] - 构建了细粒度光影评估基准LumosBench,基于视觉语言模型实现自动化、可解释的评估,覆盖方向、光源类型、强度等六个光照维度[4][22] 高质量训练数据构建 - 构建了高质量光影训练数据集LumosData,包含11万视频样本与120万图像样本的大规模高质量光影数据对[23] - 数据构建流程包含四个阶段,用于从真实场景数据生成多样化的重光照样本对,并引入结构化的六维光照标注协议[20][21][22] 模型架构与训练策略 - 模型基于视频生成模型Wan 2.1构建,将对齐后的视频输入经由Wan-VAE编码器处理得到语义潜表示[24] - 训练目标融合了流匹配损失、路径一致性损失和物理引导损失三种互补的损失函数,以权衡外观保真度、几何一致性与推理速度[24] - 采用选择性优化策略,在每轮训练迭代中按80/20比例划分批次,平衡物理监督与训练效率[24] 实验结果与性能表现 - 在定量结果中,UniLumos在所有关键指标上均取得最优性能,PSNR达26.719(图像)和25.031(视频),SSIM达0.913(图像)和0.891(视频)[27][28] - 在LumosBench细粒度可控性评估中,UniLumos平均可控性得分达0.773,显著高于其他专有重光照模型和通用视频生成模型[29][30] - 在生成49帧480p视频的任务中,UniLumos仅需12秒,而IC-Light需277秒,Light-A-Video需756秒,实现了显著的推理效率提升[33] 消融实验与模块分析 - 物理引导反馈模块对性能至关重要,移除深度与法向反馈会导致图像质量与物理一致性显著下降,其中法向监督的作用尤为关键[35] - 路径一致性模块在几乎不牺牲生成性能的前提下,为少步生成场景带来了可观的效率优势[35] - 统一训练方法在图像和视频两类输入上均取得了高质量的重光照结果,实现了最优的时序一致性平衡[35]
OpenAI与Anthropic联手力推:MCP Apps提案发布,告别纯文本交互
机器之心· 2025-11-24 07:27
MCP Apps提案核心观点 - MCP协议作为AI模型与数字生态连接的关键基础设施,其新增的MCP Apps提案旨在通过标准化交互式用户界面支持,显著提升AI智能体的交互能力,使MCP服务器能够直接提供可视化操作界面,从而推动更复杂应用场景的落地[1][2][4] - 该提案将MCP从仅限于文本和结构化数据交换的“命令行”式交互,升级为具备“图形化”交互能力的模式,类比于从“发短信”沟通的客服升级为能发送“小程序”的智能助理,使AI能够直接嵌入可视化仪表盘、表单等界面,实现类似操作系统图形界面的交互体验[6][11] - 提案由OpenAI和Anthropic的MCP核心维护者联手MCP-UI创建者及社区主力共同编写,其豪华的推手阵容和社区好评表明,MCP Apps极有可能成为未来AI交互行业的通用范式[7][9][10] 交互式界面标准化 - 当前MCP服务器仅支持文本和结构化数据交换,这在需要呈现可视化信息或收集复杂用户输入时会产生阻碍,例如数据可视化场景中,客户端开发者需自行解析JSON数据并渲染界面,带来沉重负担,且缺乏标准化会导致生态系统碎片化风险[13] - MCP Apps Extension引入标准化模式,用于声明UI资源、链接工具,并实现嵌入式接口与主机应用的双向通信,从而解决不同客户端之间的一致性问题和开发复杂性[4][13] 行业合作与生态构建 - MCP-UI项目由Ido Salomon和Liad Yosef创建,拥有活跃社区维护,已证明智能体应用能自然融入MCP架构,并被Postman、Shopify、Hugging Face等领先公司采用,凸显行业对丰富用户界面体验的迫切需求[15] - OpenAI Apps SDK进一步验证了对话式AI界面对交互式体验的需求,Anthropic、OpenAI和MCP-UI正合作开发官方MCP交互式界面扩展,以确保互操作性和生态系统一致性[15] 技术规范与设计决策 - MCP Apps Extension规范从核心模式入手,计划逐步演进为智能体应用运行时,为AI模型、用户和应用间的新交互奠定基础[18] - 关键技术设计包括:预先声明的UI资源(通过ui:// URI方案引用,支持预取和缓存)[20]、基于MCP JSON-RPC协议的通信机制(确保结构化和可审计)[21]、初始仅支持沙盒化iframe中的text/html内容(为未来扩展奠定基础)[22] - 安全措施采用多层防御:沙盒iframe限制权限、预先声明模板供主机审查、所有通信通过JSON-RPC记录、用户同意机制用于工具调用授权[23] 兼容性与社区参与 - MCP Apps为可选扩展,保持向后兼容性,现有实现无需更改即可运行,主机可逐步采用UI支持,服务器需为UI工具提供纯文本回退方案[24] - 社区已发布早期访问SDK(GitHub链接),鼓励开发者参与贡献,MCP-UI客户端和服务器SDK均支持新规范模式[26][27]
人形机器人的落地难题,竟被一顿「九宫格」火锅解开?
机器之心· 2025-11-24 07:27
行业现状与核心挑战 - 当前人形机器人在从演示走向实际工业应用过程中存在巨大鸿沟,大量机器人连稳定完成基本操作都困难,例如特斯拉Optimus反应迟缓、1X演示被揭露依赖远程遥控[7] - 行业普遍采用“大脑+小脑”架构,大脑负责LLM、VLM等复杂认知任务,小脑负责高频率(500Hz~1000Hz)的实时控制如步态控制和机械臂操作[9] - 算力需求呈几何级增长,现有芯片方案(100~200 TOPS稀疏算力)仍无法满足工业场景需求,导致企业被迫采用拼凑方案如Intel酷睿搭配NVIDIA Jetson Orin,造成跨芯片通信延迟和系统协同问题[10] - 算力平台不仅是技术瓶颈,更是经济性问题,制造业对ROI考核严苛,需综合考虑稳定性、安全性、成本、功耗等硬指标,以及部署灵活性和可扩展性等软指标[10][11] 英特尔解决方案:大小脑融合架构 - 公司推出“大小脑融合”方案,通过单颗酷睿Ultra处理器SoC将智能认知与实时控制统一到同一架构,集成CPU、GPU和NPU并实现三者协同[14] - 该方案在单一封装内提供约100 TOPS的AI算力,内置GPU拥有77 TOPS算力,可支持7B~13B级别VLM运行,NPU负责低功耗常驻任务,CPU则优化实时控制(抖动小于20微秒)[17][18][20][21] - 方案支持按需扩展,通过Intel Arc独显可将算力提升至千TOPS量级,并结合云脑或边缘大脑协同推理,明年将推出的Panther Lake进一步将AI算力提升至180 TOPS,图形性能最高提升50%,同等性能下功耗降低40%[19][22] 软件生态与部署支持 - 公司提供全栈软件套件,包括整机级方案AI Edge Systems(含操作系统、驱动、SDK等)、Open Edge Software Toolkit(AI库和OSV级优化)以及行业模板AI Suites,缩短开发周期[24][26][29] - 通过oneAPI实现CPU/GPU/NPU/FPGA算力自动调度与优化,OpenVINO与IPEX-LLM组合优化AI推理和本地大模型运行,支持不同年代和规格的边缘设备[27][28] - 技术路径开放弹性,支持代码在Intel与Arm平台间切换,兼容主流AI框架和ROS2等开源算法库,已有国内数十家具身智能厂商进入验证或POC阶段[31]
AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐
机器之心· 2025-11-24 07:27
研究背景与问题 - 大型视觉语言模型在多模态任务中表现亮眼,但其安全隐患正迅速显现,攻击者可将恶意意图隐蔽地嵌入图像中,使模型在未察觉风险的情况下输出有害内容[5] - 如何增强大型视觉语言模型对多模态恶意输入的安全对齐能力,成为当前亟需解决的问题[5] - 仅保护文本的轻量级安全提示方法在多模态场景下不足,攻击者可以绕过文本提示将威胁藏在图像中[5] - 近期工作如ESIII、UniGuard尝试在图像上添加可训练的视觉安全扰动,但仍存在安全性不足与性能损害明显两大问题[5][6] - 在FigStep基准上,即便加入视觉安全扰动,模型仍有约30%的恶意输入没有被成功拒绝[5] - 在MME基准上,某模型的得分从1818直接跌至1403,意味着模型在变得更安全的同时也显著变弱[6] 方法与创新:深度对齐的视觉安全提示 - 清华大学人工智能学院团队提出了全新的安全对齐方法DAVSP,其核心思想是从视觉提示范式和训练对齐机制两方面同时创新[7] - DAVSP提出**视觉安全提示**来取代传统的图像全局扰动,并设计了**深度对齐**的训练策略让模型从内部真正理解何为不安全输入[9] - 视觉安全提示选择在输入图像周围添加一圈额外的可训练边框作为安全提示区域,这样做能保护原始视觉特征并扩大优化空间[13][15] - 由于提示信息只存在于图像边缘的新扩展区域,而不直接修改原图像素,因此不会破坏原有图像的关键细节,模型对良性输入的正常感知与理解不会下降[15] - 相较于传统像素级视觉安全扰动其扰动幅度常被严格限制在如32/255的极小范围内,视觉安全提示通过引入额外的图像边界区域,可以被优化为任意像素值,大大拓宽了可学习参数的空间[15] - 深度对齐旨在深入模型内部,对其内部激活空间进行监督,挖掘并增强模型自身对有害/无害信息的区分能力[14] - 深度对齐训练步骤包括:1) 构建有害向量,代表将模型内部表示从良性方向推向恶意方向的变化方向;2) 让带有恶意意图的输入在该向量方向上的投影尽可能增加,而良性输入的投影尽可能减少,从而促使模型从内部真正认知到不安全输入[16] 实验结果:恶意输入抵御能力 - 在两个代表性恶意多模态数据集上,DAVSP取得了远高于现有同类方法的拒绝率[18] - 在MM-SafetyBench数据集上,针对LLaVA-1.5-13B模型,DAVSP在SD+TYPO攻击下的拒绝率达到98.72%,显著高于ESIII的91.96%和UniGuard的88.65%[19] - 在FigStep OOB数据集上,针对LLaVA-1.5-13B模型,DAVSP的拒绝率达到84.20%,显著高于ESIII的70.80%和Adashield-A的63.40%[19] - 针对Qwen2-VL-7B-Instruct模型,DAVSP在FigStep OOB数据集上的拒绝率达到99.20%,高于ESIII和UniGuard的98.20%[19] 实验结果:良性任务性能 - DAVSP对模型正常能力的影响微小,在多个基准上的实用性评分与仅施加文本安全提示时持平,且优于其他视觉安全扰动方法[17][19] - 在MME OOD基准上,针对LLaVA-1.5-13B模型,DAVSP的总分为1602,显著高于ESIII的1403和UniGuard的1356,接近无防御状态下的1818分[20] - 在LLaVA-Bench OD基准上,针对LLaVA-1.5-13B模型,DAVSP得分为63.6,与Adashield-S持平,并显著高于ESIII的56.5和UniGuard的49.7[20] - 针对Qwen2-VL-7B-Instruct模型,DAVSP在MME OOD上的总分为2146,高于ESIII的1991和UniGuard的1778[20] 实验结果:跨模型泛化与关键组件 - DAVSP训练得到的视觉安全提示具有一定的泛化能力,可以在不同模型之间迁移使用[20] - 例如,使用在LLaVA-1.5-13B上训练的DAVSP提示迁移到Deepseek-VL-7B-Chat模型,在FigStep OD数据集上的拒绝率从仅使用文本安全提示的67.40%提升至70.40%[21] - 通过消融实验验证,DAVSP的两大创新视觉安全提示和深度对齐缺一不可[22] - 移除深度对齐、仅对输出进行监督时,模型对恶意攻击的抵抗成功率大幅下降,例如在FigStepOOD数据集上,拒绝率从84.20%降至67.00%[23] - 将视觉安全提示替换回原始的像素级视觉安全扰动后,会造成安全性和实用性同时退化,例如在MM-SafetyBench的SD+TYPO攻击下,拒绝率从98.72%降至88.38%[23]
技术人不能错过的NeurIPS之夜:蚂蚁集团海边星光技术Party报名启动!
机器之心· 2025-11-24 02:39
公司参与行业顶级会议概况 - 公司将于2025年12月2日至7日参与人工智能与机器学习领域最具影响力的国际顶级会议NeurIPS 2025 [4] - 会议在美国圣地亚哥举办并首次在墨西哥墨西哥城设有分会场 [4] - 公司计划通过展台技术串讲、专题技术报告及技术派对等形式进行深度交流 [4] 展台技术交流活动 - 公司展台位于Hall A & B 展位号1723 活动时间为2025年12月2日下午至12月5日 [6][7] - 将于12月3日会议休息时段在展台进行中稿论文与技术报告的深度分享 [6] - 参会者可与论文作者及公司技术专家面对面交流前沿研究成果与实战经验 [6] 百灵大模型技术报告 - 公司定于2025年12月2日16:00-17:00在Upper Level Room 28A-E分享自研通用大模型“蚂蚁百灵大模型”的最新突破 [8][9][10] - 模型系列Ling 2.0包含非推理模型Ling系列、推理模型Ring系列及多模态模型Ming系列 总参数量从160亿到1万亿不等 [9] - 分享人包括公司高级算法专家Jiang Liang、算法专家Ren Yankun和高级算法专家Peng Han [11] 专题技术报告议题 - 报告议题涵盖Ring-1T:用于万亿级思维模型的强化学习扩展 [13] - 报告议题包括Ring-linear:一种用于长上下文推理的高效混合架构 [13] - 报告议题涉及Ming-Flash-Omni:用于多模态感知与生成的稀疏统一架构 [13] 星光技术派对安排 - 公司将在会议期间举办“学术海岸线·蚂蚁星光技术Party” 与全球AI领域技术领袖深度对话 [12][15] - 活动将介绍“蚂蚁星计划” 提供顶尖资源与成长路径 [15] - 现场将为参与者准备滨海美式晚宴和冬日温暖套装等专属惊喜 [20]
Karpathy组建大模型「议会」,GPT-5.1、Gemini 3 Pro等化身最强智囊团
机器之心· 2025-11-23 04:06
文章核心观点 - AI时代用户内容消费习惯转向追求效率,倾向于使用大模型快速总结信息[1] - 行业专家通过构建多模型协作的“LLM议会”系统,以提升信息处理质量和洞察力[3][4] - 该系统通过模型间匿名互评和排名机制,实现了一种新颖的模型评估与答案生成方式[4][6][9] LLM议会项目概述 - 项目由前OpenAI联合创始人Andrej Karpathy开发,是一个Web应用[3][4] - 系统集成四个最新大模型:OpenAI GPT-5.1、Google Gemini-3 Pro Preview、Anthropic Claude-Sonnet-4.5、xAI Grok-4[10] - 工作流程分为三阶段:首次意见独立回答、模型间匿名互评排名、主席模型整合最终输出[4][8][9][11] 技术流程与特点 - 第一阶段用户提问分发给所有模型,答案以标签页视图展示[8] - 第二阶段模型对匿名同行答案基于准确性与洞察力进行排名,避免偏袒[9] - 第三阶段主席模型综合所有回答和排名生成最终输出[11] - 该系统展现了模型愿意承认其他模型答案更优的有趣现象[7] 行业应用与影响 - 类似方法已被知名游戏博主PewDiePie采用,使用8个同模型不同提示词配置组成委员会[5] - 该方法可能成为一种新的基准测试形式,探索多模型集成设计的巨大空间[12][13] - 项目已在GitHub开源,但作者声明不提供后续支持,仅作为灵感工具[14][15]
十分钟出结果,陶哲轩用Gemini Deepthink帮人类数学家完成Erdős问题论证
机器之心· 2025-11-23 04:06
AI在数学研究中的应用进展 - 著名数学家陶哲轩使用Gemini 2 5 Deep Think AI工具验证了一个复杂的数学恒等式 该工具仅用约十分钟就完成了使用p-adic代数数论的完整证明[9] - 陶哲轩随后花费约半小时将AI生成的复杂证明转换为更基础的形式 使其适合在Lean定理证明器中形式化验证[11] - 数学家Boris Alexeev使用Harmonic的Aristotle工具完成了该问题的Lean形式化 整个过程花费两到三小时 并手动形式化最终命题以防止AI滥用[12] 具体数学问题解决案例 - 独立研究者Wouter van Doorn于11月20日针对Erdős问题367提出了一个反例 依赖于一个他认为成立但需要验证的同余恒等式[5] - 该数学问题涉及复杂的极限表达式和乘积不等式 具体形式为lim sup (∏Bᵣ(m)/n¹⁺ᵉ)→∞以及∏B₂(m)的相关不等式[4][6][8] - 问题解决过程展示了从人类提出猜想 AI快速验证 到数学家优化证明并最终实现形式化验证的完整协作流程[5][9][11][12] 数学研究平台与社区协作 - Erdős问题网站专注于数学研究 收录保罗・厄尔德什提出的各类问题 涵盖数论 组合数学 图论等领域[1] - 该平台为研究人员 数学爱好者和学者提供提出 讨论和解决数学问题的空间 促进了学术交流与合作[1] - 此次事件通过Mathstodon等社交平台传播 显示了现代数学研究社区线上线下协同工作的新模式[13]
通用的dLLM开发框架,让BERT掌握扩散式对话
机器之心· 2025-11-23 04:06
文章核心观点 - 伯克利与UIUC团队通过自研的扩散语言模型工具dLLM,仅需约50 GPU・小时的监督微调,即可让ModernBERT-large-chat-v0(0.4B参数)在多项任务中表现逼近Qwen1.5-0.5B,证明“离散扩散+轻量级指令微调”是高效、低成本激活经典BERT生成能力的可行方案 [2] - 团队已将训练、推理与评测的全流程代码完全开源,并封装为可直接运行的“Hello World”示例,旨在为社区提供一个易用、可复现的扩散式语言模型学习与研究平台 [3][6][16] dLLM框架特性 - dLLM是一个面向扩散式语言模型的统一开发框架,强调易用性与可复现性,框架结构清晰、脚本完善,使实验能够在单卡甚至笔记本环境复现 [6] - 该框架兼容当前主流的开源扩散语言模型(如Dream、LLaDA、RND),并实现了多个缺乏公开实现的研究算法(如Edit Flows),为社区探索提供了灵活且坚实的基础 [6] 基座模型选择依据 - 实验选择ModernBERT作为基座模型,因其上下文长度从原始BERT的512-token显著扩展至8,192 tokens,且在非生成式基准任务上表现更优 [8] - 在Wikitext-103-v1数据集上的预训练测试显示,ModernBERT达到了最低的训练loss,表明其在生成式训练中同样具备优势 [8] 训练路径探索与关键发现 - 实验发现,对ModernBERT进行额外的离散扩散语言建模预训练(MDLM)对后续指令微调带来的收益非常有限,其原始MLM预训练已编码足够语言知识 [10][11] - 关键结论是:对于BERT而言,扩散式监督微调本身就足以激活生成能力,决定最终性能的关键是指令微调,而非额外的生成式预训练 [11] 模型性能表现 - ModernBERT-large-chat-v0(0.4B)在LAMBADA、GSM8K、CEVAL-valid等多项主流评测任务中表现稳定,整体性能已接近Qwen1.5-0.5B [12][14] - ModernBERT-base-chat-v0(0.1B)仅使用约四分之一规模的参数,便能生成流畅自然的语言,证明扩散式训练在小模型规模下依然具备竞争力 [12][14] 项目定位与开源价值 - 该项目定位为教学与研究实验,旨在帮助研究者理解扩散式语言模型的训练与生成机制,而非追求商用系统级别的基准测试表现 [16] - 团队开放了完整的训练脚本、训练曲线、消融实验、参数设置与运行指令,保持了研究过程的透明与可复现性,为社区提供了完整的学习起点 [16][18]
Mid-Training 会成为未来的 Pre-Training 吗?
机器之心· 2025-11-23 01:30
Mid-Training 会成为未来的 Pre-Training 吗 行业动态与公司布局 - OpenAI 在2024年7月低调成立“中期训练”(Mid-Training)部门,负责改进旗舰模型,成果包括GPT4-Turbo和GPT-4o,团队贡献显著[6] - OpenAI 当前Safety Systems team的职位描述中包含“通过有针对性的预训练和mid-Training干预措施,使后续的协调工作更加有效和高效”[6] - xAI 也被报道在不同渠道的招聘说明中阐述了对Mid-Training人才的需求[6] - 微软、零壹万物等机构在2024年的研究论文中接连提及对“Mid-Training”不同程度的投入[6] 概念定义与业界关注 - “Mid-Training”在字面上与“Pre-Training”“Post-Training”高度关联,被描述为介于两者之间的环节,但截至2024年底,不同工作对该术语的定义、理论和算法实现存在诸多差异[7] - 2025年7月,OpenAI研究员Noam Brown在播客中将Mid-Training描述为“新的Pre-Training”,称当前的预训练模型就像能衍生出其他模型的半成品,mid-training就像是派生时的预训练,post-training则完成最终的细化与优化[7] - Mid-Training是通过某些有趣的方式为模型添加新的能力或特性的一种手段,与预训练和后训练间的界限非常模糊,难以给出严谨定义,但它不同于pre-training中对大规模语料的广泛学习,也不是post-training中针对具体用途的微调,而是一个独立阶段,可以拓展模型的泛化能力和实用性[7] 研究进展与框架探讨 - 北大和美团的研究者在10月底发布综述“A SURVEY ON LLM MID-TRAINING”,尝试明确当下Mid-Training的定义,并通过数据管理、训练策略和模型架构优化框架三个层面探讨现有的Mid-Training工作[8] - 该综述将Mid-training定义为衔接预训练和后训练之间的一个关键阶段(vital stage),其特点是使用的中间数据(intermediate data)和计算资源(computational resources)[8] - Mid-training阶段的定位在于系统地增强LLM的特定能力(如数学、编程、推理、长上下文扩展),且必须保持模型基础能力不下降[9] 优化策略与历史溯源 - Mid-Training的优化策略主要从数据整理、训练策略和模型架构优化三个维度进行,核心目标包括优化用于Mid-training的数据质量和分布、调整训练配置以提高效率和效果、以及调整或利用模型特性来配合Mid-training[10] - 数据整理维度探讨数据清洗与增强以及合成数据的利用,训练策略维度包括学习率退火、上下文扩展和权重平均,模型架构优化维度涉及MoE路由和注意力机制的调整[10] - “Mid-Training”词源最早可以追溯到Google Research的ACL 2020论文“BLEURT”和该团队后续的WMT 2020研讨会论文,并非2024年新出现的词汇[11]