Vector Quantization(向量量化)

搜索文档
Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布
机器之心· 2025-08-05 18:56
大语言模型多模态离散化技术综述 - 核心观点:Discrete Tokenization成为多模态LLM统一建模的关键技术,通过向量量化将非文本模态转化为LLM可处理的离散表示,实现跨模态理解与生成[2][8][39] - 首次系统化梳理八类向量量化方法,构建完整技术地图[7][8][14] - 按输入模态组织内容结构,覆盖单模态到多模态应用全景[6][39] 核心技术体系 - 八大类向量量化方法:VQ(经典码本)、RVQ(残差量化)、PQ(乘积量化)、AQ(加性量化)、FSQ(有限标量量化)、LFQ(无查表量化)、BSQ(球面二值量化)、GART(图锚点关系量化)[9][14][16] - 不同方法在码本构建(显式/隐式)、梯度传播、量化精度等方面存在显著差异[10][14] - FSQ/LFQ/BSQ等隐式码本方法天然避免码本坍塌问题[16] 码本坍塌挑战 - 核心问题:训练中码字收敛到极少数,导致利用率下降与多样性不足[12] - 解决方案:码本重置、线性再参数化、软量化、正则化等[15] - VQ/RVQ等显式码本方法坍塌风险较高,需额外缓解措施[16] 早期单模态应用 - 图像领域:VQ-VAE/VQGAN实现高效视觉表示[3] - 音频领域:SoundStream/Encodec构建语音离散单元[6] - 视频领域:VideoGPT/MAGVIT支持帧级量化[6] - 图结构:NodePiece等降低图数据存储开销[6] LLM驱动的单模态建模 - 图像:SPAE/LlamaGen等将视觉特征映射到LLM词表空间[23][25] - 音频:TWIST/JTFS LM实现语音离散化处理[25] - 图结构:NT-LLM/Dr.E通过量化支持图节点分类[25] - 推荐系统:LC-REC/LETTER量化用户行为特征[25] LLM驱动的多模态融合 - 双模态组合:Text+Image(SEED/LaVIT)、Text+Audio(AudioPaLM/SpeechGPT)成为主流方向[26][28][34] - 三模态及以上:AnyGPT(文本+图像+音频)、VideoPoet(文本+图像+音频+视频)展现扩展性[29][34] - 统一token机制实现跨模态语义对齐与任务协同[27][30] 未来研究方向 - 技术瓶颈:码本利用率、信息损失、梯度传播、粒度对齐等[36][40] - 突破方向:自适应量化、统一框架、生物启发码本、可解释性提升[37] - 模态扩展:向触觉、嗅觉等更复杂模态延伸[39]