北大 & 作业帮团队提出 Text-to-SQL 新框架 Interactive-T2S,攻克宽表处理与低资源对齐难题
AI前线·2025-10-11 04:14

论文核心创新 - 提出Interactive-T2S框架,将大型语言模型塑造为能与数据库进行多轮、迭代式交互的智能代理,通过"思考-行动-观察"循环逐步构建SQL查询,突破传统方法将LLM视为一次性SQL翻译器的局限 [2] - 框架设计四大核心工具(SearchColumn、SearchValue、FindShortestPath、ExecuteSQL)将SQL生成拆解为"找列找值-表关联-执行验证"三步,避免LLM直接处理海量冗余信息 [6][7] - 采用统一交互流程(问题拆解→信息定位→表关联→SQL执行),每一步均要求LLM输出思考过程与工具行动,确保生成逻辑可追溯,同时仅需2个标注示例即可实现少样本学习 [10] 技术性能优势 - 在BIRD-Dev数据集上执行准确率达54.56%,较当前最优方法ExSL(51.69%)提升2.87个百分点,在金融去噪数据集BIRD-FinC上准确率49.06%,显著高于Zero-shot(31.13%)与DIN-SQL(47.17%) [14] - 在Spider-Dev与BIRD-Dev上的prompt token消耗仅为DIN-SQL的36%(4.6k vs 12.8k)与22%(4.7k vs 21.6k),效率提升源于动态获取必要信息的设计,无需输入全表列信息 [15] - 在仅使用2个示例的少样本设置下,Spider-Syn与Spider-Realistic数据集上的执行准确率分别达78.7%、80.7%,与依赖6-7个示例的基准方法性能接近,且在跨领域场景中泛化能力更优 [16] - 消融实验显示移除FindShortestPath工具后,在需4个及以上表关联的场景中,Spider-150与BIRD-150子集的执行准确率分别下降22个、12个百分点,证明该工具能有效降低LLM的多表关联推理负担 [17] 行业应用潜力 - 智能教育领域可适配"知识点-题库-学生答题记录"多表关联场景,教师通过自然语言查询(如"某知识点错题率Top3的班级")无需编写复杂SQL [18] - 企业数据分析场景能处理含数百列的业务宽表(如销售数据表),市场人员可快速查询"某季度某区域客单价变化",降低对数据分析师的依赖 [18] - 政务公开查询可简化数据查询流程,市民通过自然语言提问(如"查询某区2024年社保参保人数")即可获取精准结果 [18]