上下文级联压缩
搜索文档
百万 Token 也能无损压缩?C3 模型用“级联压缩”重新定义长上下文挑战
AI科技大本营· 2025-11-28 06:32
核心技术观点 - 提出全新上下文级联压缩(C3)路径,核心在于利用潜在Token作为比离散文本Token更高效、密度更高的信息载体,而非依赖视觉编码[1][2] - C3采用双LLM级联设计,小型LLM作为压缩编码器将长上下文压缩为潜在Token,大型LLM作为解码器执行下游任务,实现高比例文本Token到潜在Token的压缩[3][9] - 该设计验证LLM本质是无损压缩的论断,在20倍压缩比下实现98%解码准确率,40倍压缩比下仍保持约93%准确率,显著优于DeepSeek OCR约60%的水平[4][14] 技术路径对比 - DeepSeek OCR路径为文本→图像→视觉Token→语言模型,引入布局、噪点、视觉编码器等无关干扰[6][7] - C3路径为文本→文本Latent Tokens→语言模型,跳过视觉中介,纯粹、无损、直接[6][7] - C3压缩机制引入可学习的上下文查询嵌入,将长文本压缩为固定长度潜在Token(如32或64个),完全保留预训练LLM的语言压缩能力[9] 性能表现 - 在Fox基准测试中,C3在20倍压缩时保持98.4%精度,而DeepSeek OCR降至59.1%[14] - 即使在极限40倍压缩率下(32个潜在Token),C3仍能维持93%以上重建精度[14] - 在长英文文本、中文古文及乱序文本上均实现近乎完美压缩还原[16] 独特技术特性 - 呈现序列性信息衰减特性,错误集中在文本末尾,更接近人类记忆的渐进式遗忘过程,与光学压缩方法的全局模糊不同[12] - 该特性使C3在实际应用中更具可预测性,重要信息优先放置文本前部可确保关键内容完整保留[13] 应用前景 - 超长上下文处理:作为现有LLM前端压缩器,将百万级Token输入压缩到可处理范围,降低计算成本[16] - 多模态应用:级联轻量级VLM和LLM,轻量级VLM作为视觉编码器进行信息压缩,处理视觉信息丰富长文档[17] - 下一代模型基础组件:编码-解码架构可直接应用于扩散语言模型和潜在自回归模型,将可变长度文本转换为固定长度潜在表示[18]