超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器

朔风投稿量子位 | 公众号 QbitAI 当大语言模型生成海量数据时，数据存储的难题也随之而来。对此，华盛顿大学（UW）SyFI实验室的研究者们提出了一个创新的解决方案：LLMc，即利用大型语言模型自身进行无损文本压缩的引擎基准测试结果表明，无论是在维基百科、小说文本还是科学摘要等多种数据集上，LLMc的压缩率都优于传统的压缩工具（如ZIP和LZMA）。同时，与其他以LLM为基础的闭源压缩系统相比，LLMc也表现出同等甚至更优的性能。值得一提的是，该项目已经开源，主要作者是来自上海交通大学ACM班的本科生Yi Pan，目前正在华盛顿大学实习。 LLMc的压缩机制 LLMc的灵感来源于实验室一年前的一次内部讨论。当时，研究者们面临一个核心挑战：LLM推理中涉及的内核操作具有高度的非确定性，这使得精确、可复现的压缩和解压变得困难。但随着业界在确定性LLM推理方面取得突破，这一问题迎刃而解，也为新引擎的诞生铺平了道路。研究团队顺势快速构建了LLMc的原型，并成功证明用LLM进行高效压缩的可行性。 LLM与数据压缩之间的联系根植于信息论的基本原理。 LLMc并不直接存储词元本身（例如其ID），而是 ...