Workflow
Local AI
icon
搜索文档
Mid-Training 会成为未来的 Pre-Training 吗?
机器之心· 2025-11-23 01:30
Mid-Training 会成为未来的 Pre-Training 吗 行业动态与公司布局 - OpenAI 在2024年7月低调成立“中期训练”(Mid-Training)部门,负责改进旗舰模型,成果包括GPT4-Turbo和GPT-4o,团队贡献显著[6] - OpenAI 当前Safety Systems team的职位描述中包含“通过有针对性的预训练和mid-Training干预措施,使后续的协调工作更加有效和高效”[6] - xAI 也被报道在不同渠道的招聘说明中阐述了对Mid-Training人才的需求[6] - 微软、零壹万物等机构在2024年的研究论文中接连提及对“Mid-Training”不同程度的投入[6] 概念定义与业界关注 - “Mid-Training”在字面上与“Pre-Training”“Post-Training”高度关联,被描述为介于两者之间的环节,但截至2024年底,不同工作对该术语的定义、理论和算法实现存在诸多差异[7] - 2025年7月,OpenAI研究员Noam Brown在播客中将Mid-Training描述为“新的Pre-Training”,称当前的预训练模型就像能衍生出其他模型的半成品,mid-training就像是派生时的预训练,post-training则完成最终的细化与优化[7] - Mid-Training是通过某些有趣的方式为模型添加新的能力或特性的一种手段,与预训练和后训练间的界限非常模糊,难以给出严谨定义,但它不同于pre-training中对大规模语料的广泛学习,也不是post-training中针对具体用途的微调,而是一个独立阶段,可以拓展模型的泛化能力和实用性[7] 研究进展与框架探讨 - 北大和美团的研究者在10月底发布综述“A SURVEY ON LLM MID-TRAINING”,尝试明确当下Mid-Training的定义,并通过数据管理、训练策略和模型架构优化框架三个层面探讨现有的Mid-Training工作[8] - 该综述将Mid-training定义为衔接预训练和后训练之间的一个关键阶段(vital stage),其特点是使用的中间数据(intermediate data)和计算资源(computational resources)[8] - Mid-training阶段的定位在于系统地增强LLM的特定能力(如数学、编程、推理、长上下文扩展),且必须保持模型基础能力不下降[9] 优化策略与历史溯源 - Mid-Training的优化策略主要从数据整理、训练策略和模型架构优化三个维度进行,核心目标包括优化用于Mid-training的数据质量和分布、调整训练配置以提高效率和效果、以及调整或利用模型特性来配合Mid-training[10] - 数据整理维度探讨数据清洗与增强以及合成数据的利用,训练策略维度包括学习率退火、上下文扩展和权重平均,模型架构优化维度涉及MoE路由和注意力机制的调整[10] - “Mid-Training”词源最早可以追溯到Google Research的ACL 2020论文“BLEURT”和该团队后续的WMT 2020研讨会论文,并非2024年新出现的词汇[11]
从 Apple M5 到 DGX Spark ,Local AI 时代的到来还有多久?
机器之心· 2025-11-22 02:30
云端AI算力投资与英伟达的本地计算布局 - 全球云端AI算力中心投资规模巨大,预计到2028年累计支出接近3万亿美元,其中1.4万亿美元由美国大型科技公司覆盖 [4] - 微软宣布投资约800亿美元建设AI数据中心,主要用于训练AI模型和推出AI云应用 [4] - 英伟达发布售价3999美元的DGX Spark桌面级AI超算,并与多家OEM厂商合作计划在2025年底前全球分销,该设备提供千万亿次浮点运算性能和128GB统一内存,支持对2000亿参数模型进行推理和700亿参数模型进行微调 [4][5] 消费终端Local AI的构成要素 - 消费终端Local AI的成熟需具备三大要素:端侧硬件算力底座(如DGX Spark)、本地模型的生态工具链以及能在真实场景中运行的本地产品 [6] - Apple Silicon等芯片正持续下放端侧推理能力,同时Ollama等本地运行时和Gemma 3等端侧模型供给加速成熟,推动离线本地产品从“跑起来”走向“用起来” [1][2] 消费终端Local AI面临的关键挑战 - 当前消费终端Local AI的大众化落地仍面临关键门槛,包括本地算力和能效、内存带宽、知识更新以及开箱即用体验等方面的制约 [1][3] - SLM(小语言模型)与端侧芯片新架构的结合,将是推动消费终端Local AI能力边界扩展的关键方向 [3]
CSDN 创始人蒋涛:“码盲”消失,新程序员崛起
36氪· 2025-06-13 09:56
AI行业变革 - ChatGPT在17个月内达到8亿用户,成为历史上增长最快的应用[1][5] - DeepSeek登顶全球100多个国家,推动AI平权化[1][5] - AI公司收入暴涨,Cursor成为最快突破5亿美金收入的SaaS公司[5] - 传统互联网流量全线下降,AI正在改变用户习惯和流量入口[1][5] 三座大山挑战 - 算力霸权:CUDA对中国禁运,华为推CANN、AMD推ROCm、Intel推oneAPI进行破局[6] - 模型霸权:OpenAI采取封闭模式,DeepSeek和阿里巴巴通过开源打破垄断[6] - 数据霸权:英文语料主导全球,需建立多元开放数据集(如欧洲LAION项目)[6] Local AI机遇 - 全球对Local AI需求强烈,各国不希望数据被单一模型控制[7] - 中国制造业优势明显,50元成本即可将硬件接入大模型[12] - 中国创业团队两年达2亿美金收入,通过AI解决iPhone录音问题[12] - 硬件制造与软件工程师红利结合,推动"义乌小商品"AI化[12] 开发者生态变革 - GitHub开发者数量达1.9亿,年增长20%[8] - AI Coding改变编程方式,传统"码农"工作将被AI替代[8] - "码盲"将消失,产品经理可独立开发App(如"小猫补光灯"案例)[9] - 超级程序员生产力将提升10倍以上[9] Agent技术发展 - Manus等Agent产品实现分钟级内容创作[10] - Agent Engineer成为稀缺人才,需具备提示词、软件工程和产品能力[10] - 企业AI化程度可通过每日Token消耗量衡量[10] 产业未来展望 - AI将重写硬件和软件,实现万物可编程[11][12] - 数字化向智能化转变,大模型赋予个人全球知识[12] - 未来十年将创造巨大新兴产业[13]
CSDN 创始人蒋涛:“码盲”消失,新程序员崛起
AI科技大本营· 2025-06-13 07:51
AI行业变革 - ChatGPT以17个月达到8亿用户成为史上增长最快的应用[7] - AI公司收入暴涨,Cursor成为最快突破5亿美金收入的SaaS公司[7] - DeepSeek登顶全球100多个国家,推动AI平权化[1][7] 三座技术霸权 - **算力霸权**:CUDA对中国禁运,华为推CANN、AMD推ROCm、Intel推oneAPI进行破局[8] - **模型霸权**:OpenAI封闭模式受质疑,DeepSeek和阿里巴巴开源打破垄断[9] - **数据霸权**:英文语料主导全球数据,需建立多元开放数据集(如欧洲LAION项目)[9] 开发者生态重构 - GitHub开发者数量达1.9亿,年增长20%[11] - AI Coding变革传统编程,手动代码工作将被AI替代[11] - "码盲"消失,产品经理可独立开发应用(如"小猫补光灯"案例)[12][13] - 超级程序员生产力提升10倍,Agent Engineer成稀缺人才[15] 中国AI机遇 - 硬件成本降低:50元BOM成本即可接入大模型能力(ESP32芯片案例)[17] - 制造业优势:3D打印技术结合AI,创业团队两年收入达2亿美金[17] - AI重写硬件与软件,推动"义乌小商品"智能化改造[17] 技术栈与全球化 - 从Global AI转向Local AI,满足各国数据自主需求[10] - 开源系统联合对抗技术霸权,构建本地化技术栈[8][9]