KTransformers
搜索文档
明晚直播|2GPU+2CPU微调万亿参数超大模型,带你上手开源项目KTransformers
量子位· 2025-11-10 12:02
技术方案核心 - 仅需2个GPU和2个CPU即可在本地微调DeepSeek 671B或Kimi K2 1TB等超大模型 [1] - KTransformers为明星开源项目,可实现更低成本的LoRA微调 [2][4] 项目背景与团队 - 项目核心指导老师为清华大学计算机系副教授章明星,研究方向为计算机系统机构,成果发表于OSDI、SOSP等顶级会议 [6][7] - 项目核心参与者李沛霖来自西北工业大学,即将进入清华大学攻读博士,是微调功能核心技术开发人员 [8][9] 直播活动信息 - 直播将于明晚19点举行,主题为上手实践如何用KTransformers+LLaMA-Factory在本地微调超大模型 [4][5] - 直播核心话题包括认识KTransformers项目、手把手实操以及探讨其背后的技术与思考 [10]
2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了
量子位· 2025-11-05 07:56
技术突破核心观点 - 微调超大参数模型的硬件门槛和成本出现革命性下降,仅需2-4张消费级显卡(如4090)即可在本地对DeepSeek 671B乃至Kimi K2 1TB级别的模型进行微调 [1] - 成本降低的关键在于两个国产开源项目KTransformers与LLaMA-Factory的联动,将微调千亿/万亿参数模型的显存需求从理论上的1400GB-2000GB大幅降低至70GB-90GB [5][7] 技术方案与性能对比 - KTransformers项目由趋境科技与清华KVCache.AI共同开发,GitHub已获15.3K星,通过GPU+CPU异构计算创新路径实现高性能推理和微调 [6][7] - LLaMA-Factory作为训练与微调平台,GitHub星标超6万,提供无需编码的图形化界面,支持上百种预训练模型微调 [7] - 性能对比显示,KTransformers在14B-DeepSeekV2-Lite模型上实现530.38 token/s的吞吐量,显存占用仅6.08GB,远低于HuggingFace的32.12GB和Unsloth的9.64GB [13] - 对于671B-DeepSeekV3模型,KTransformers是唯一可行方案,提供40.35 token/s的吞吐量,显存占用仅70GB,而其他方案均不支持或无法运行 [13] 微调效果验证 - 在风格化对话任务中,使用NekoQA-10K数据集微调DeepSeek 671B模型后,模型回答从专业建议转变为"喵娘"风格,显示出明显的个性化效果提升 [17][18][19][20] - 在专业领域测试中,使用非洲医疗数据集AfriMed-QA微调后,DeepSeek-V3模型的BLEU-1指标从12.75提升至42.42,ROUGE-1从20.33提升至41.97,各项评测指标均获得大幅提升 [23] 行业应用前景 - 技术突破使大模型从少数机构专属技术转变为高校、团队乃至个人都能驾驭的创意工具,显著降低了算力门槛 [26] - 企业可快速在多个业务方向测试,用私有数据训练专属AI专家,在客服、营销、内部知识管理等场景提升迭代效率和投资回报率 [27] - 创新边界被拓宽,支持打造个性化写作助手、私有知识库助手、角色扮演聊天机器人及垂直领域专业模型等多样化应用 [35] 技术实现原理 - 采用三拳组合策略:将MoE模型最耗显存的专家层任务分配给CPU内存处理,GPU专注于计算;实现LoRA与高性能算子的无缝集成;利用Intel AMX指令集充分挖掘CPU处理AI运算的潜力 [36] - 操作简便性高,用户只需安装KTransformers和LLaMA-Factory环境,通过简单配置即可启动训练,框架自动处理数据处理、训练调度等复杂流程 [30][31]
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
量子位· 2025-10-22 09:12
项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架,专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025,获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构,充分释放底层硬件算力资源,实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构,让GPU负责注意力和主干网络的高并行计算,CPU承担稀疏专家模块的推理任务,实现高效协同执行[10] - 引入Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,使CPU与GPU负载动态重叠,模型吞吐提升约1.45倍,单卡decode速度最高超过30+ tokens/s,模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核,在单路Xeon上实现PyTorch近4倍的提速,极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作,双方架构合入同一分支,实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K,成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持,工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者,已与多个国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调,计划在不扩卡、不改架构的前提下实现轻量调优,从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力,让AI能力也不再专属于少数企业,逐步实现算力普惠[29]
2025新一代计算产业大会召开 聚焦算力标准与技术创新
中国新闻网· 2025-09-17 08:59
行业活动与组织 - 2025新一代计算产业大会在北京举行 聚焦算力产业标准化建设与技术创新路径 [1] - 大会由中国电子工业标准化技术协会指导 新一代计算标准工作委员会主办 中科驭数、经开区国家信创园承办 [1] 技术发展与创新 - AI大模型全流程包括数据获取、预处理、训练、微调及推理 多数主体无需涉足全链条 依托开源基础模型开展微调与推理即可实现应用价值 [3] - Mooncake技术通过共享公共存储降低内存消耗 已获华为等企业采用 助力推理成本优化 [3] - KTransformers实现CPU与GPU内存协同 单CPU加单GPU即可运行满血版大模型 为个人AIPC落地铺路 [3] - DPU作为算力底座核心芯片 可承担数据处理、网络转发任务以释放CPU与GPU效能 [3] 标准化建设 - 需高站位谋划、高水平协同和实现高质量应用的新一代计算标准建设工作 [3] - 需增强标准供给 实现标准创新和标准引领 [3] - 当前DPU行业缺乏统一技术规范 制约了规模化应用 亟需通过标准构建破解适配难题 [3] - 大会同步发布《新一代计算标准体系》 宣布成立图形处理器(GPU)、数据处理器(DPU)、计算产品组件、液冷生态、异构计算工作部 [4] - 启动两项服务器电源国家标准编制工作 [4]
促开放协作与跨界融合 2025CCF中国开源大会在上海召开
中国新闻网· 2025-08-02 13:15
开源技术前沿进展 - 2025CCF中国开源大会在上海开幕,聚焦开源大模型、开源具身智能等关键方向,学术界与产业界专家进行深度交流 [1] - 多位AI与系统软件领域资深专家分享前瞻性观点,涉及大模型、开源硬件与智能操作系统等技术方向 [3] - 清华大学郑纬民团队研发并开源高效推理系统Mooncake与KTransformers,展示系统研究对智能时代工作负载的支撑作用 [3] - 北京大学鄂维南指出AI正经历从"模型中心"向"数据中心"的范式转变,强调构建高质量数据基础设施的重要性 [3] 开源生态建设 - CCF泛在操作系统开放社区成立,由北京大学、中国电子技术标准化研究院等机构共同发起,聚焦技术研究、开源孵化、标准研制等 [4] - 全球计算联盟(GCC)开源社区战略布局启动,CCF-木兰科创开源孵化器发布,华佗开源项目捐赠仪式举行 [3] - Omni-Infer云际开源共创计划正式启动,推动开源生态发展 [3] 产学研合作与人才培养 - 上海交大校长丁奎岭表示开源是推动开放发展的重要路径,大学应成为创新源头 [4] - 上海交大与华为建立"四共"合作新范式,为鸿蒙核心技术攻关提供基础 [5] - 上海交大在国内率先成立开源鸿蒙技术俱乐部,将开源鸿蒙融入课程体系培养领军人才 [5]