Workflow
磐医知识图谱
icon
搜索文档
大模型如何更懂“中国话”(“十五五”文化热词·推进文化和科技融合)
人民网· 2025-12-24 22:33
中文数据在大模型训练中的重要性 - 国内多数大模型训练使用的中文数据占比已超过60%,部分模型达到80% [1] - 中文数据占比提升有助于用户理解模型输出,并保障和提升大模型研发能力 [2] - 提高中文数据占比有助于掌握大模型发展主动权,在数据安全和技术自主上迈出关键步伐 [2] 中文数据对模型性能与文化理解的影响 - 中文数据中独有的文化习惯、隐喻表达、政策术语在英文数据中难以体现,提升其比重可增强大模型对中华文化及中国场景的理解能力 [3] - 中文数据承载数千年文化积累,占比高的模型能更好讲解文言文虚词用法、诗词平仄规律等,推动中华文化数字化传播 [3] - 若中文数据占比低,模型易受数据授权限制、更新延迟影响,且在理解中文特有思维方式时可能出现偏差 [2][3] 中文高质量数据的定义与供给现状 - 高质量数据需经过事实核查、专业审核,语义准确且来源可追溯,区别于易出现错误的普通网络文本 [4] - 政策支持如《“数据要素×”三年行动计划》提出打造高质量训练数据集,国家数据局布局建设数据标注基地 [5] - 技术进步降低开发难度,例如某中文语义标注系统可自动区分“打”的含义,让标注效率提升3倍且成本降低 [5] - 行业共识推动中文数据从“辅助补充”变为“核心资源”,例如中国移动已建成覆盖超30个行业、超3500TB的通用高质量数据集 [5] 中文数据资源消耗与开发现状 - 2024年初我国日均Token消耗量为1000亿,截至2024年9月底已突破40万亿,显示中文数据资源快速积累和价值释放 [6] - 现有中文数据中重复内容多、高质量数据少,尤其在医疗、工业等垂直领域高质量数据稀缺 [7] - 不同机构数据因隐私安全等合规要求难以跨域流通,导致重复标注,浪费资源且无法形成规模效应 [7] 增强中文数据开发与供给的建议 - 应加快研究制定中文数据分级标准,以释放供给活力 [7] - 可推广应用新一代标注技术,在原始数据不出域且保证隐私安全的条件下完成跨机构协同标注,整合多机构力量 [7] - 需专项采集垂直场景中文数据,例如在元宇宙等新兴场景中,中文数据使用量仅为英文的1/5,而中医、非遗等传统场景数字化程度低 [8] 文化与科技融合的产业应用 - 通过“文化IP+科技体验”重塑文旅产业生态,结合线上数字平台与线下沉浸场景 [9] - “文化创作+人工智能”拓展产业融合场景,AI技术与影视、文博等领域深度融合,催生出AI短剧、博物馆数字文创等新产品 [9] - “特色文化+数字技术”助力乡村全面振兴,将地标农产品、乡村非遗技艺融入内容创作,提升特色文化产品创意能力和表现力 [9]
中文高质量数据集加速建设 大模型如何更懂“中国话”(“十五五”文化热词·推进文化和科技融合)
人民日报· 2025-12-24 22:04
"过马路时,你要注意看车!" "我计划明天去车展看车。" 这两句话里的"看车"是一个意思吗?相信不少人要会心一笑,表面上看是同一个词组,但其含义因语境 不同发生了变化。 这就是中文里常见的"一词多义"现象。人工智能大模型是一种与人类语言密切相关的技术,要让大模型 深刻理解这一现象,离不开中文数据的持续供给。 目前,国内多数模型训练使用的数据,中文数据占比已经超过60%,有的模型达到80%。大模型训练 中,中文数据占比提升有何意义?中文高质量数据为何持续增加?如何进一步增加中文数据的开发与供 给?记者进行了采访。 数据就像大模型的"知识教材" 不同语言的数据对大模型性能有怎样的影响?"数据就像大模型的'知识教材',教材的语言属性不同, 会对模型的知识体系产生不同影响。"清华大学计算社会科学与国家治理实验室执行主任、教授孟庆国 表示。 从知识来源看,过去我国大模型常面临"数据依赖"风险——英文数据在全球互联网的占比较高,如前沿 科技论文、行业标准、文化典籍等多以英文呈现,全球高质量标注数据也多以英文为主。 "语言类大模型一般需要遵循一定的语言习惯。"工业和信息化部信息通信经济专家委员会委员盘和林认 为,中文数据占 ...