华为袁远:中国是数据大国,但数据语料建设仍面临关键挑战
观察者网·2025-12-18 13:34

行业现状与挑战 - 中国是全球数据大国,但数据留存率仅2.8%,面临海量数据存不下、存储成本高和能耗大的技术难题 [1][4] - 行业高质量数据稀缺,以医疗模型为例,中国模型训练数据量仅为西方领先国家的10%左右 [1][4] - 大量城市与企业数据仍储存在“孤岛”上,数据共享率不足25% [1][4] - 全球年度数据泄露量已达惊人的471.6亿条,数据泄露成为当前数据跨境流动的核心命题 [1][4] 发展趋势与市场动态 - 用于AI的数据量同比增长41% [3] - 数据资源共享日益活跃,更多行业和技术企业选择进入数据市场,通过扩充数据资产的规模、精度与多样性来取得竞争优势 [3] - 高质量数据集建设提速,截至目前中国已建成超过500PB高质量数据集 [3] - AI的快速发展推动传统IT架构从“以算力为中心”向“以数据为中心”转变 [3] 公司战略与实践(城市层面) - 建议发挥城市枢纽作用,打造先进存力中心,推动公共数据和行业数据的汇聚、治理和可信流通 [4] - 实践案例:已助力一些城市汇聚50PB公共数据,服务超60家本地企业 [4] - 实践案例:帮助部分城市构建高质量汽车行业数据集,支持智能网联汽车发展 [4] - 实践案例:通过“聚数、治数、供数、用数”,打造了环京津数据要素产业园,带动地方经济增长 [4] 公司战略与实践(行业层面) - 建议建设数据共享协作平台,推动数据从分散利用到智能融合,让高质量行业知识库赋能生态 [5] - 实践案例:帮助某国家级育种实验室构建全国一体化育种数据基础设施,管理百PB跨域数据 [5] - 通过统一数据标准和一站式数据工具链,将数据标注和模型微调效率提升4倍,打造智慧育种智能体 [5] 公司战略与实践(企业层面) - 建议助力企业建设AI数据湖底座,加强全域数据共享、高效管理与敏捷使用 [5] - 以自动驾驶为例,通过AI数据湖整合路测、仿真、高精地图等多样数据 [5] - AI数据湖提供百万车辆数据高速接入、EB级数据高效管理、全球站点数据跨域流动等关键能力,支持多种智能体协同 [5] 未来技术投入与方向 - 公司将加大投入,迭代并引领AI数据湖发展方向,助力解决收数、存数、治数、用数问题 [6] - 具体方向一:继续完善并开源开放端到端的AI工具集,丰富中国AI工具生态 [6] - 具体方向二:依托全局数据管理技术,深入研究可信数据跨域流通过程中的合规治理、安全流转与跨境审计 [6] - 具体方向三:推动数据存储技术发展,降低向量、标量等新型数据存储范式的储存成本 [6]