Data element
搜索文档
广东首批高质数据集赛题正式“发榜”,探索数据价值转化新路径
21世纪经济报道· 2025-12-03 12:31
大赛概况与目标 - 广东省首届高质量数据集创新大赛于12月2日在东莞启动,主题为“数聚湾区,智创未来”,旨在通过“揭榜挂帅”机制推动高质量数据集的场景发掘、建设供给、规范流通、创新应用与成果转化 [1] - 大赛采用“分期发榜、全年办赛”模式,聚焦工业制造、医疗健康、科技创新、城市治理、交通运输等重点领域,探索建设一批高质量、可复用的数据集,为人工智能模型训练提供“燃料” [2] - 大赛构建“1套发榜机制+3个竞赛阶段+N场供需对接会”的“1+3+N”组织体系,形成“数据供给—技术研发—场景落地—产业升级”的完整闭环,以赛促用、以赛促融、以赛促产 [4] 战略意义与政府支持 - 广东省政数局局长表示,高质量数据集是驱动人工智能模型迭代升级、赋能千行百业的“核心燃料”,大赛将立足“小切口、大场景”,全力抢占数智化发展制高点,打造数据要素创新策源地、成果转化试验田和产业集聚示范区 [1] - 东莞作为科创制造强市,规上工业企业数量稳居全国前三,拥有丰富的AI应用场景与海量工业数据,是国家人工智能应用中试基地 [1] - 东莞正以建设“湾区数谷”为抓手,率先布局数据标注等基础环节,着力建设全国首个规模化边端智算网络,实现对工业产线数据的深度挖掘与高效加工 [2] 参与方与初期需求 - 启动仪式上,来自能源、生物医药、金融、交通、低空、教育等重点领域的首批高质量数据集赛题正式“发榜” [4] - 发榜单位包括南方电网、广州(国家)实验室、广东省人医、平安财险、佳都科技、金域医学、广东泰一、广东职教桥、奥海科技等 [4] - 大赛旨在挖掘低空经济、工业互联网等新兴领域的数智潜力,释放数据要素价值,为全国一体化数据市场建设贡献“广东经验” [4] 高质量数据集的技术与实践 - 行业专家指出,数据预处理、数据标注、数据合成以及数据质量评估是构建高质量数据集过程中环环相扣的核心环节 [4] - 工业和信息化部电子第五研究所正联合多方力量建设高质量数据集测评服务中心,为数据集提供标准化生产流程和权威质量认证 [5] - 百度智能云在具身智能领域提供定制化真实采集场景建设与运营,通过采标管训全流程平台支撑模型能力提升,认为高质海量训练数据是人形机器人破局的关键 [5] - 中国电信正在构建“一平台三体系”新范式,通过建设运营一体化平台,支撑数据集建设、质量评估和数据安全三大体系,赋能数据集的可控、高效、合规建设与价值释放 [5]
数据要素与产业加速融合 2030年我国数据产业规模将达7.5万亿元
央视网· 2025-05-18 03:46
数据产业规模与增长 - 我国将培育壮大一批数据要素产业链上下游企业,预计到2030年数据产业规模将达到7.5万亿元 [1] - 2024年我国年度数据生产总量达41.06泽字节,同比增长25%,数据领域相关企业超19万家,数据产业规模超2万亿元 [3] - 按照20%以上的年均增长率测算,2030年我国数据产业规模将达7.5万亿元 [3] 公共数据开放共享 - 2024年全国地市级以上地方公共数据开放平台数量增长7.5%,开放数据量增长7.1%,高质量数据集数量同比增长27.4% [5] - 国家正加快打通公共数据共享开放壁垒,推动公共数据与企业数据深度融合,激活海量"沉睡数据" [5] - 国家数据局谋划构建数据基础设施体系,到2029年基本建成国家数据基础设施主体结构 [5] 高质量数据集与人工智能 - 高质量数据集是人工智能模型性能跃升的基石,重塑从技术研发到商业落地的全产业链条 [6] - 数据标注与清洗是高质量数据集建设的关键环节,数据标注产业产值已突破80亿元 [8][9] - 2024年我国开发或应用人工智能的企业数量同比增长36%,高质量数据集数量同比增长27.4% [10] 数据要素市场化改革 - 浙江温州构建数据安全与合规体系,形成数据交易生态圈,保障数据要素规模化流动 [8] - 构建大模型数据集包含数据采集、清洗、标注、质量评估等核心环节,需针对规模大、多样性足、行业垂直属性强等特点进行技术研发 [8] 行业发展挑战 - 我国高质量数据集面临数据存量小产量低、数据集质量良莠不齐、缺乏主流高价值数据引领、数据利用效率低等问题 [12]