iFairy模型

搜索文档
北大提出首个复数大模型,2比特量化,推理仅加法,可手机部署!
量子位· 2025-08-16 02:00
模型压缩技术突破 - 北大团队提出iFairy方案,首次将大模型权重量化至复数集合{+1, -1, +i, -i},仅需2比特存储 [3][6] - 相比FP16模型,体积压缩至原1/8,大幅降低存储需求 [6][14] - 量化后权重分布均匀,模型充分学会利用新编码系统 [31] 计算效率革新 - 复数权重与激活值相乘无需实际乘法运算,仅需加减或数据交换操作 [7][19] - 核心矩阵乘法(GEMM)中的浮点乘法被硬件成本近乎零的操作替代 [21] - PhaseQuant算法将权重映射到复平面四个单位根,实现无乘法计算 [16][19] 架构创新 - 整个Transformer架构被复数化改造,包括复数注意力机制和复数旋转位置编码 [8][22][24][25] - 注意力计算使用Hermitian内积实部作为相似度分数,自然得到实数分数用于Softmax [24] - 复数域位置编码通过简单复数乘法实现旋转操作 [25] 性能表现提升 - 700M参数iFairy模型在Wiki2和C4数据集平均困惑度(PPL)为10.08,比FP16 LLaMA的12.33降低18% [9][28] - 1.3B参数iFairy模型平均PPL为9.34,比FP16 LLaMA的11.25降低17% [9][28] - 在下游任务评测中,iFairy在多个任务评分反超全精度LLaMA基座模型 [29][30] - 700M iFairy在ARC-c任务得分24.06,高于FP16 LLaMA的23.00 [30] - 1.3B iFairy在ARC-c任务得分25.77,高于FP16 LLaMA的23.50 [30] 行业影响 - 该技术为大模型在手机、汽车等边缘设备部署扫清存储障碍 [8][14] - 实现数量级推理加速可能,使GPT-5级别模型在手机上运行成为可能 [8][21] - 相关论文及代码全面开源,提供从训练到评测的完整可复现流程 [10][33][34]