超越ZIP的无损压缩来了,华盛顿大学让大模型成为无损文本压缩器
36氪·2025-10-11 10:47
核心技术原理 - 利用大型语言模型作为强大的概率预测引擎,将自然语言的高维分布转换为结构化的概率信息以实现高效压缩[5] - 核心方法为基于排序的编码,即存储目标词元在LLM预测的概率排序列表中的排名,而非词元本身[6] - 解压时使用相同的LLM和上下文重现概率分布,通过存储的排名准确选择对应词元,实现无损文本恢复[6] 性能表现 - 在维基百科、小说文本和科学摘要等多种数据集上,其压缩率均优于传统压缩工具如ZIP和LZMA[2] - 与其他以LLM为基础的闭源压缩系统相比,表现出同等甚至更优的性能[2] 项目发展与现状 - 项目灵感源于实验室内部讨论,随着业界在确定性LLM推理方面取得突破,研究团队快速构建了原型并证明可行性[5] - 该项目已经开源,主要作者是来自上海交通大学ACM班的本科生Yi Pan,目前正在华盛顿大学实习[4] 当前挑战与局限 - 存在效率问题,LLM推理的计算复杂度与序列长度成二次方关系,长序列推理受内存带宽限制[7] - 采用分块处理文本策略以提高GPU利用率并降低计算开销[7] - 处理速度因严重依赖大规模模型推理而远低于传统压缩算法[7] - 当前实现主要针对自然语言,如何扩展到图像、视频或二进制数据等其他模态是未来探索方向[9]