Workflow
中文数据
icon
搜索文档
大模型如何更懂“中国话”(“十五五”文化热词·推进文化和科技融合)
人民网· 2025-12-24 22:33
中文数据在大模型训练中的重要性 - 国内多数大模型训练使用的中文数据占比已超过60%,部分模型达到80% [1] - 中文数据占比提升有助于用户理解模型输出,并保障和提升大模型研发能力 [2] - 提高中文数据占比有助于掌握大模型发展主动权,在数据安全和技术自主上迈出关键步伐 [2] 中文数据对模型性能与文化理解的影响 - 中文数据中独有的文化习惯、隐喻表达、政策术语在英文数据中难以体现,提升其比重可增强大模型对中华文化及中国场景的理解能力 [3] - 中文数据承载数千年文化积累,占比高的模型能更好讲解文言文虚词用法、诗词平仄规律等,推动中华文化数字化传播 [3] - 若中文数据占比低,模型易受数据授权限制、更新延迟影响,且在理解中文特有思维方式时可能出现偏差 [2][3] 中文高质量数据的定义与供给现状 - 高质量数据需经过事实核查、专业审核,语义准确且来源可追溯,区别于易出现错误的普通网络文本 [4] - 政策支持如《“数据要素×”三年行动计划》提出打造高质量训练数据集,国家数据局布局建设数据标注基地 [5] - 技术进步降低开发难度,例如某中文语义标注系统可自动区分“打”的含义,让标注效率提升3倍且成本降低 [5] - 行业共识推动中文数据从“辅助补充”变为“核心资源”,例如中国移动已建成覆盖超30个行业、超3500TB的通用高质量数据集 [5] 中文数据资源消耗与开发现状 - 2024年初我国日均Token消耗量为1000亿,截至2024年9月底已突破40万亿,显示中文数据资源快速积累和价值释放 [6] - 现有中文数据中重复内容多、高质量数据少,尤其在医疗、工业等垂直领域高质量数据稀缺 [7] - 不同机构数据因隐私安全等合规要求难以跨域流通,导致重复标注,浪费资源且无法形成规模效应 [7] 增强中文数据开发与供给的建议 - 应加快研究制定中文数据分级标准,以释放供给活力 [7] - 可推广应用新一代标注技术,在原始数据不出域且保证隐私安全的条件下完成跨机构协同标注,整合多机构力量 [7] - 需专项采集垂直场景中文数据,例如在元宇宙等新兴场景中,中文数据使用量仅为英文的1/5,而中医、非遗等传统场景数字化程度低 [8] 文化与科技融合的产业应用 - 通过“文化IP+科技体验”重塑文旅产业生态,结合线上数字平台与线下沉浸场景 [9] - “文化创作+人工智能”拓展产业融合场景,AI技术与影视、文博等领域深度融合,催生出AI短剧、博物馆数字文创等新产品 [9] - “特色文化+数字技术”助力乡村全面振兴,将地标农产品、乡村非遗技艺融入内容创作,提升特色文化产品创意能力和表现力 [9]
我国多数模型使用的中文数据占比超60% 部分已达80%
央视新闻· 2025-08-14 02:43
(文章来源:央视新闻) 今天(8月14日),国务院新闻办公室举行"高质量完成'十四五'规划"系列主题新闻发布会。国家数据 局局长刘烈宏在新闻发布会上表示,大家非常关心中文数据占训练数据的比重问题,经过一段时间的努 力,国内多数模型使用的中文数据占比已超过60%,有的模型已达到80%。中文高质量数据的开发和供 给能力持续增强,使得我国模型性能快速提升。 ...