Workflow
中文互联网基础语料3.0
icon
搜索文档
中文互联网基础语料3.0发布,关注大模型语料投资机遇
长江证券· 2025-09-22 11:58
行业投资评级 - 行业评级为看好并维持 [7] 核心观点 - 中文互联网基础语料3.0发布将加强高质量中文语料供给 挖掘数据价值 建议关注拥有高质量数据资源的厂商 特别是在医疗 金融 工业等细分领域具有稀缺数据的公司 [2][4][8] 事件描述 - 中文互联网基础语料3.0于2025年9月18日在国家网络安全宣传周人工智能安全治理分论坛上正式发布 [2][4] 语料库发展 - 中文互联网基础语料3.0是在1.0和2.0基础上 通过信源筛选 内容过滤 数据去重等处理措施形成 数据量为120GB 可支持大模型训练和人工智能发展 [8] - 平台已上线包含中文互联网基础语料3.0 人民网主流价值数据集 中华传统文化语料库等20个中文语料数据集 [8] 语料重要性 - 数据决定模型学到的"知识"和"能力" 高质量数据是影响模型性能的关键要素 [8] - DeepSeek-LLM(V1)使用约2万亿token中英双语预训练数据集 DeepSeek-V2使用8.1万亿token多语言语料库 DeepSeek-V3使用14.8万亿token语料库 [8] 语料现状 - 中文语料在全球数据训练集中仅占1.3% 质量和规模大幅低于英文语料 [8] - Epoch研究预计2026年现有公开高质量语言数据将耗尽 [8] - 中文高质量语料价值有望随消耗进一步被市场发现 [8] 投资建议 - 建议关注具备高质量数据资源的厂商 在医疗 金融 工业等细分领域具有稀缺数据的公司值得重点关注 [2][8]