中文数据 - 财报，业绩电话会，研报，新闻

中文数据

搜索文档

人民网· 2025-12-24 22:33

中文数据在大模型训练中的重要性 - 国内多数大模型训练使用的中文数据占比已超过60%，部分模型达到80% [1] - 中文数据占比提升有助于用户理解模型输出，并保障和提升大模型研发能力 [2] - 提高中文数据占比有助于掌握大模型发展主动权，在数据安全和技术自主上迈出关键步伐 [2] 中文数据对模型性能与文化理解的影响 - 中文数据中独有的文化习惯、隐喻表达、政策术语在英文数据中难以体现，提升其比重可增强大模型对中华文化及中国场景的理解能力 [3] - 中文数据承载数千年文化积累，占比高的模型能更好讲解文言文虚词用法、诗词平仄规律等，推动中华文化数字化传播 [3] - 若中文数据占比低，模型易受数据授权限制、更新延迟影响，且在理解中文特有思维方式时可能出现偏差 [2][3] 中文高质量数据的定义与供给现状 - 高质量数据需经过事实核查、专业审核，语义准确且来源可追溯，区别于易出现错误的普通网络文本 [4] - 政策支持如《“数据要素×”三年行动计划》提出打造高质量训练数据集，国家数据局布局建设数据标注基地 [5] - 技术进步降低开发难度，例如某中文语义标注系统可自动区分“打”的含义，让标注效率提升3倍且成本降低 [5] - 行业共识推动中文数据从“辅助补充”变为“核心资源”，例如中国移动已建成覆盖超30个行业、超3500TB的通用高质量数据集 [5] 中文数据资源消耗与开发现状 - 2024年初我国日均Token消耗量为1000亿，截至2024年9月底已突破40万亿，显示中文数据资源快速积累和价值释放 [6] - 现有中文数据中重复内容多、高质量数据少，尤其在医疗、工业等垂直领域高质量数据稀缺 [7] - 不同机构数据因隐私安全等合规要求难以跨域流通，导致重复标注，浪费资源且无法形成规模效应 [7] 增强中文数据开发与供给的建议 - 应加快研究制定中文数据分级标准，以释放供给活力 [7] - 可推广应用新一代标注技术，在原始数据不出域且保证隐私安全的条件下完成跨机构协同标注，整合多机构力量 [7] - 需专项采集垂直场景中文数据，例如在元宇宙等新兴场景中，中文数据使用量仅为英文的1/5，而中医、非遗等传统场景数字化程度低 [8] 文化与科技融合的产业应用 - 通过“文化IP+科技体验”重塑文旅产业生态，结合线上数字平台与线下沉浸场景 [9] - “文化创作+人工智能”拓展产业融合场景，AI技术与影视、文博等领域深度融合，催生出AI短剧、博物馆数字文创等新产品 [9] - “特色文化+数字技术”助力乡村全面振兴，将地标农产品、乡村非遗技艺融入内容创作，提升特色文化产品创意能力和表现力 [9]

我国多数模型使用的中文数据占比超60% 部分已达80%

央视新闻· 2025-08-14 02:43

（文章来源：央视新闻）今天（8月14日），国务院新闻办公室举行"高质量完成'十四五'规划"系列主题新闻发布会。国家数据局局长刘烈宏在新闻发布会上表示，大家非常关心中文数据占训练数据的比重问题，经过一段时间的努力，国内多数模型使用的中文数据占比已超过60%，有的模型已达到80%。中文高质量数据的开发和供给能力持续增强，使得我国模型性能快速提升。 ...