NIPS 2025 Spotlight | 港大提出TreeSynth方法，一句话生成百万规模数据集

核心技术创新 - 提出TreeSynth方法，通过树引导子空间划分从零开始系统性地生成多样化、高质量的训练数据[4][6] - 核心创新是将数据合成问题映射到决策树的空间分割机制上，利用其互斥性和穷尽性特性[7] - 该方法将复杂数据领域逐步细分为独特且互不重叠的原子子空间，确保全面均衡覆盖整个知识领域[4][12] 方法工作流程 - 采用两阶段工作流程：数据空间分割和子空间数据合成[8] - 第一阶段通过标准确定和子空间覆盖递归构建空间分割树，将数据空间分解为互斥互补的原子子空间[9][12] - 第二阶段在每个叶节点收集完整路径描述，指导LLM在特定约束下生成样本，最终汇集所有叶节点数据获得高多样性数据集[13] 性能提升表现 - 在数学推理任务上，LLaMA3-1-8B模型在GSM8K上的准确率从基线45.2%提升至55.8%，在MATH上从12.1%提升至18.7%[19] - 在代码生成任务上，HumanEval通过率从32.3%提升至41.9%，MBPP从39.1%提升至47.6%[19] - 平均性能提升达到10%，最高提升幅度超过17%，在所有基准测试中都取得一致性能提升[19] 数据多样性改善 - 在数据多样性指标上显著超越基线方法，某些测试中多样性提升高达45%[23] - t-SNE可视化显示生成数据在嵌入空间中分布更加均匀分散，验证了树引导分割机制在防止数据重复和空间坍塌方面的有效性[23] 应用扩展价值 - 不仅能从零开始合成数据，还能优化现有数据集，通过构建空间分割树清晰展示数据分布模式，对样本过多子空间下采样，对不足子空间进行数据增强[14] - 展现出优秀可扩展性，随着数据规模增加，模型性能呈现线性甚至更好增长轨迹，证明该方法在大规模数据合成场景下的稳健性[27]