国内多数模型训练使用中文数据占比超60%
人民日报·2025-08-18 22:31
中文数据在AI模型训练中的重要性 - 中文数据在国内大模型训练中占比超过60%,部分模型达到80% [1] - 中文高质量数据开发和供给能力持续增强,推动人工智能模型性能快速提升 [1] AI应用规模增长数据 - 2024年初日均Token消耗量为1000亿,2024年6月底突破30万亿 [1] - 一年半时间内Token消耗量增长300多倍,反映人工智能应用规模快速增长 [1]
中文数据在AI模型训练中的重要性 - 中文数据在国内大模型训练中占比超过60%,部分模型达到80% [1] - 中文高质量数据开发和供给能力持续增强,推动人工智能模型性能快速提升 [1] AI应用规模增长数据 - 2024年初日均Token消耗量为1000亿,2024年6月底突破30万亿 [1] - 一年半时间内Token消耗量增长300多倍,反映人工智能应用规模快速增长 [1]