Workflow
跨语言模型训练
icon
搜索文档
李科:跨语言模型训练中文语料不足难题可解,高质量数据源是关键
凤凰网财经· 2025-09-25 02:50
人工智能语料挑战与解决方案 - 跨语言模型训练是AI全球化中非常重要的难题 尤其面临中文语料较少的挑战 [3] - 大语言模型技术通过混合语料训练能在模型底层构建不同语言间的连接 缓解中文语料不足问题 [3] - 需要挖掘更多高质量中文数据来源 例如与媒体机构合作获取其沉淀的数据资产 [3] 数据规模与质量发展趋势 - 人类社会生产数据速度远超以往 数据量仍处于高速增长或爆发过程 [4] - 互联网数据同质化严重 需寻找更多高质量数据源 高质量数据特征包括制作精良和作为知识载体凝聚智慧 [4] - 媒体数据具有非常高质量 包含节目设计理念和观点传递 能有效提升大语言模型能力 [3][4] 行业合作方向 - 企业寻求与媒体机构合作挖掘沉淀数据资产 补充训练语料库 [3] - 合作目标为构建智能世界的数据基石 通过高质量数据提升中文在大语言模型中的能力 [3][4]