Workflow
Data Transparency
icon
搜索文档
Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集
AI前线· 2025-09-17 06:17
数据集发布 - Hugging Face正式发布全球最大的纯PDF公开语料库FinePDFs 涵盖1733种语言的4.75亿份文档 总计约3万亿个Token 规模达3.65TB [2] - 英语内容占比最高 超过1.1万亿个Token 西班牙语 德语 法语 俄语和日语各自贡献超过1000亿个Token 978种语言贡献超过100万个Token [3] 技术优势 - PDF文档相比HTML源具有独特优势 记录更高质量特定领域内容 尤其在法律 学术和技术写作领域 [2] - 采用混合技术处理文本提取 GPU驱动OCR 去重 语言识别和PII匿名化 实现大规模处理并保证提取质量 [2] 性能验证 - 基于数据集子集训练1.67B参数模型 表现与最先进HTML数据集SmolLM-3 Web相当 [3] - 在基准测试中 PDF与HTML数据集结合显著提升性能 证明PDF可带来互补知识 [3] 行业影响 - 数据集具备推进长上下文训练潜力 PDF文档通常比网页长得多 [4] - 被视为数据透明度里程碑 不仅发布数据集 还完整记录从OCR检测到去重的处理流程 [4] - 遵循开放数据共享署名许可 可免费用于研究和开发 通过Hugging Face Hub及配套工具库访问 [4]