向量嵌入的技术原理与应用演进 - 向量嵌入是将文字、图片或声音等复杂信息转化为多维空间坐标点的技术,例如将“苹果”一词转化为一串几百维的数字以捕捉其语义 [2] - 该技术使相似概念在向量空间中彼此靠近,从而实现计算机对海量数据的快速搜索和比较 [2] - 嵌入技术最初主要用于检索任务,如搜索引擎中的相似文档查找和推荐系统的个性化推荐,随后其应用拓展至推理、指令遵循和编程等更复杂的任务 [4] 向量嵌入的理论局限性 - 向量嵌入的本质是将高维复杂概念强行压缩成固定长度向量,此过程不可避免地导致信息丢失 [4] - DeepMind研究结合几何代数与通信复杂度理论,证明向量嵌入能力存在数学下界:对于任意给定嵌入维度d,当文档数量超过临界点时,总存在一些相关文档组合无法通过查询同时召回 [6][7] - 该理论瓶颈表明嵌入模型存在不可逾越的限制,无法单纯依靠扩大模型规模来突破 [7] 理论局限对RAG系统的现实影响 - 检索增强生成(RAG)系统的工作机制是先用向量嵌入从知识库检索信息,再交由大模型生成答案 [9] - 当知识库规模足够大且问题需要多份文档共同回答时,即使最先进的嵌入模型也可能因维度不足而无法完整召回关键信息,导致大模型生成答案时受到错误或不完整上下文的干扰 [9] - 研究者构建的LIMIT数据集显示,即使任务简单如“谁喜欢苹果?”,SOTA嵌入模型也难以解决,在完整设置中模型recall@100难以达到20% [10][34] 实证研究与临界点分析 - 研究者采用“自由嵌入”优化方法,直接优化查询和文档向量以匹配测试集的qrel矩阵,展示可能出现的最高性能 [24] - 实验发现对于每个嵌入维度d都存在一个临界点,一旦文档数量超过该点,嵌入维度就不足以编码所有组合 [25] - 通过多项式回归曲线外推得到的临界n值显示,对于网页级搜索,即使理想测试集优化下,最大嵌入维度(如4096维对应2.5亿文档)也不足以建模所有组合 [26] SOTA模型在LIMIT数据集上的表现 - 评估的模型包括GritLM、Qwen 3 Embeddings、Promptriever、Gemini Embeddings、Snowflake的Arctic Embed Large v2.0以及E5-Mistral Instruct [34] - 在46个文档的小规模版本中,即使是recall@20,模型也无法解决该任务 [34] - 在训练集上训练模型几乎无法提升性能,表明性能较弱并非由领域迁移造成,而是任务本身难度所致 [37]
DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?
机器之心·2025-09-02 03:44