中文高质量数据集加速建设 大模型如何更懂“中国话”(“十五五”文化热词·推进文化和科技融合)
人民日报·2025-12-24 22:04

"过马路时,你要注意看车!" "我计划明天去车展看车。" 这两句话里的"看车"是一个意思吗?相信不少人要会心一笑,表面上看是同一个词组,但其含义因语境 不同发生了变化。 这就是中文里常见的"一词多义"现象。人工智能大模型是一种与人类语言密切相关的技术,要让大模型 深刻理解这一现象,离不开中文数据的持续供给。 目前,国内多数模型训练使用的数据,中文数据占比已经超过60%,有的模型达到80%。大模型训练 中,中文数据占比提升有何意义?中文高质量数据为何持续增加?如何进一步增加中文数据的开发与供 给?记者进行了采访。 数据就像大模型的"知识教材" 不同语言的数据对大模型性能有怎样的影响?"数据就像大模型的'知识教材',教材的语言属性不同, 会对模型的知识体系产生不同影响。"清华大学计算社会科学与国家治理实验室执行主任、教授孟庆国 表示。 从知识来源看,过去我国大模型常面临"数据依赖"风险——英文数据在全球互联网的占比较高,如前沿 科技论文、行业标准、文化典籍等多以英文呈现,全球高质量标注数据也多以英文为主。 "语言类大模型一般需要遵循一定的语言习惯。"工业和信息化部信息通信经济专家委员会委员盘和林认 为,中文数据占 ...