Data Transparency - 财报，业绩电话会，研报，新闻 - Reportify

Data Transparency

搜索文档

Hugging Face 发布 FinePDFs：基于 PDF 文档构建的 3 万亿 Token 数据集

AI前线· 2025-09-17 06:17

数据集发布 - Hugging Face正式发布全球最大的纯PDF公开语料库FinePDFs 涵盖1733种语言的4.75亿份文档总计约3万亿个Token 规模达3.65TB [2] - 英语内容占比最高超过1.1万亿个Token 西班牙语德语法语俄语和日语各自贡献超过1000亿个Token 978种语言贡献超过100万个Token [3] 技术优势 - PDF文档相比HTML源具有独特优势记录更高质量特定领域内容尤其在法律学术和技术写作领域 [2] - 采用混合技术处理文本提取 GPU驱动OCR 去重语言识别和PII匿名化实现大规模处理并保证提取质量 [2] 性能验证 - 基于数据集子集训练1.67B参数模型表现与最先进HTML数据集SmolLM-3 Web相当 [3] - 在基准测试中 PDF与HTML数据集结合显著提升性能证明PDF可带来互补知识 [3] 行业影响 - 数据集具备推进长上下文训练潜力 PDF文档通常比网页长得多 [4] - 被视为数据透明度里程碑不仅发布数据集还完整记录从OCR检测到去重的处理流程 [4] - 遵循开放数据共享署名许可可免费用于研究和开发通过Hugging Face Hub及配套工具库访问 [4]

Long Context Training

Data Transparency

Artificial Intelligence

Long Context Training

Data Transparency

Artificial Intelligence