元素感知对齐(EAL)

搜索文档
攻克结构化长文档检索难题!新框架让模型告别“结构性失明”
量子位· 2025-09-25 11:42
技术框架创新 - 提出SEAL对比学习框架 通过结构感知学习和元素感知对齐解决AI模型对HTMLMarkdown长文档的结构性失明问题 [1][8] - 该方法将文档宏观层级结构和微观元素语义同时融入统一Embedding空间 显著增强预训练语言模型对结构化数据的理解能力 [3] - 结构感知学习通过对比保留标签与去除标签的文档版本 使模型学习文档内在骨架和逻辑功能区分 [11][12][13] - 元素感知对齐采用基于元素的Mask机制 迫使模型通过上下文推断文档相关性 深化对文本片段语义角色的理解 [14][15] 性能表现 - 在BGE-M3模型上实现MRR@10指标从73.96%提升至77.84% 绝对提升3.88个百分点 [4][17][19] - SEAL框架在BGE-M3模型上实现HitRate@1达66.26% HitRate@5达93.77% NDCG@10达82.59% 全面超越基线模型 [4][19] - 在bge-large-zh模型上应用SEAL后 MRR@10从72.21%提升至76.57% HitRate@1从59.08%提升至64.30% [4][19] - 线上AB测试验证了该方法在实际应用场景中的有效性 [4][19] 数据集贡献 - 开源万词级别长文档数据集StructDocRetrieval 文档词数远超MS MARCO数据集(后者大多文档不足700字) [5][20][21][22] - 数据集采用HTML格式包含丰富结构语义标注 填补了长文档结构标注数据领域的空白 [21][23][24] - 该数据集为社区评估和开发长文档检索模型提供了新的Benchmark标准 [25] 应用前景 - 技术可应用于RAG等下游任务 为AI助手精准定位技术文档答案提供可靠信息来源 [25] - 在企业知识管理和法律科技等专业领域展现出广阔应用前景 [25]