Workflow
超越ZIP的无损压缩来了!华盛顿大学让大模型成为无损文本压缩器
量子位·2025-10-11 04:09

朔风 投稿 量子位 | 公众号 QbitAI 当大语言模型生成海量数据时,数据存储的难题也随之而来。 对此,华盛顿大学(UW)SyFI实验室的研究者们提出了一个创新的解决方案:LLMc,即 利用大型语言模型自身进行无损文本压缩的引擎 基准测试结果表明,无论是在维基百科、小说文本还是科学摘要等多种数据集上,LLMc的压缩率都优于传统的压缩工具(如ZIP和LZMA)。 同时,与其他以LLM为基础的闭源压缩系统相比,LLMc也表现出同等甚至更优的性能。 值得一提的是,该项目已经开源,主要作者是来自上海交通大学ACM班的本科生Yi Pan,目前正在华盛顿大学实习。 LLMc的压缩机制 LLMc的灵感来源于实验室一年前的一次内部讨论。当时,研究者们面临一个核心挑战:LLM推理中涉及的内核操作具有高度的非确定性,这 使得精确、可复现的压缩和解压变得困难。 但随着业界在确定性LLM推理方面取得突破,这一问题迎刃而解,也为新引擎的诞生铺平了道路。研究团队顺势快速构建了LLMc的原型,并 成功证明用LLM进行高效压缩的可行性。 LLM与数据压缩之间的联系根植于信息论的基本原理。 LLMc并不直接存储词元本身(例如其ID),而是 ...