DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

向量嵌入的技术原理与应用演进 - 向量嵌入是将文字、图片或声音等复杂信息转化为多维空间坐标点的技术，例如将“苹果”一词转化为一串几百维的数字以捕捉其语义 [2] - 该技术使相似概念在向量空间中彼此靠近，从而实现计算机对海量数据的快速搜索和比较 [2] - 嵌入技术最初主要用于检索任务，如搜索引擎中的相似文档查找和推荐系统的个性化推荐，随后其应用拓展至推理、指令遵循和编程等更复杂的任务 [4] 向量嵌入的理论局限性 - 向量嵌入的本质是将高维复杂概念强行压缩成固定长度向量，此过程不可避免地导致信息丢失 [4] - DeepMind研究结合几何代数与通信复杂度理论，证明向量嵌入能力存在数学下界：对于任意给定嵌入维度d，当文档数量超过临界点时，总存在一些相关文档组合无法通过查询同时召回 [6][7] - 该理论瓶颈表明嵌入模型存在不可逾越的限制，无法单纯依靠扩大模型规模来突破 [7] 理论局限对RAG系统的现实影响 - 检索增强生成（RAG）系统的工作机制是先用向量嵌入从知识库检索信息，再交由大模型生成答案 [9] - 当知识库规模足够大且问题需要多份文档共同回答时，即使最先进的嵌入模型也可能因维度不足而无法完整召回关键信息，导致大模型生成答案时受到错误或不完整上下文的干扰 [9] - 研究者构建的LIMIT数据集显示，即使任务简单如“谁喜欢苹果？”，SOTA嵌入模型也难以解决，在完整设置中模型recall@100难以达到20% [10][34] 实证研究与临界点分析 - 研究者采用“自由嵌入”优化方法，直接优化查询和文档向量以匹配测试集的qrel矩阵，展示可能出现的最高性能 [24] - 实验发现对于每个嵌入维度d都存在一个临界点，一旦文档数量超过该点，嵌入维度就不足以编码所有组合 [25] - 通过多项式回归曲线外推得到的临界n值显示，对于网页级搜索，即使理想测试集优化下，最大嵌入维度（如4096维对应2.5亿文档）也不足以建模所有组合 [26] SOTA模型在LIMIT数据集上的表现 - 评估的模型包括GritLM、Qwen 3 Embeddings、Promptriever、Gemini Embeddings、Snowflake的Arctic Embed Large v2.0以及E5-Mistral Instruct [34] - 在46个文档的小规模版本中，即使是recall@20，模型也无法解决该任务 [34] - 在训练集上训练模型几乎无法提升性能，表明性能较弱并非由领域迁移造成，而是任务本身难度所致 [37]