Workflow
高质量数据集
icon
搜索文档
高质量数据集突破 500PB,数据要素赋能人工智能发展
长江证券· 2025-12-07 11:06
报告行业投资评级 - 投资评级:看好,维持 [6] 报告的核心观点 - 截至三季度末,我国已建成高质量数据集总量突破500PB,为人工智能模型性能提升和创新加速提供了有力支撑 [1][3] - 高质量数据集是驱动人工智能性能跃升的重要动力,其建设工作的重要性有望进一步提升 [10] - 在政策指引和市场需求驱动下,高质量数据集的流通有望推动形成商业化闭环,数据价值有望加速释放 [1][10] - 建议关注具备高质量数据资源的厂商,尤其在医疗、金融、工业等细分领域具有稀缺数据的公司 [1][10] 根据相关目录分别进行总结 事件描述与背景 - 2025年12月4日,据央视新闻报道,国家数据局数据显示,截至三季度末,我国已建成高质量数据集总量突破500PB [1][3] - 以DeepSeek、ChatGPT、Gemini、通义千问、豆包为代表的大语言模型引领人工智能产业快速发展,其预训练依赖海量数据 [10] - 未经筛选的低质量数据易导致“模型幻觉”,且预训练所需的可用数据资源即将用尽,对高质量数据集的需求缺口将继续增大 [10] 政策与建设进展 - 2025年8月,国家数据局发布《高质量数据集建设指引》,提出“1+1”参考路径,指导推进高质量数据集建设 [10] - 国家数据局联合26个部委共同制定政策文件,以场景应用为导向,推动各行业领域高质量数据集建设 [10] - 部署了140项先行先试任务,初步实现了“人工智能+”到哪里,高质量数据集建设和应用就到哪里的氛围 [10] - 在2025年科创大会上,国家数据局局长刘烈宏指出需培育“为高质量数据付费”的意识,为数据要素市场化配置改革注入新动力 [10] 行业影响与投资建议 - 高质量数据集的流通有望推动形成商业化闭环,在大模型加速落地过程中,数据的价值或将进一步被挖掘 [1][10] - 只有当企业、政府与个人普遍认可并愿意为可信、合规、精准的数据支付合理对价时,才能有效激励数据供给侧的专业化与规范化,推动数据要素价值充分释放 [10] - 建议关注具备高质量数据资源的厂商,尤其在医疗、金融、工业等细分领域具有稀缺数据的公司 [1][10]
我国已建成高质量数据集总量超500PB 有望成为撬动经济增长新引擎
证券日报网· 2025-12-05 12:03
国家高质量数据集建设进展与政策推动 - 国家数据局公布数据显示,我国已建成高质量数据集总量超500PB [1] - 国家数据局联合26个部委共同制定政策文件,以场景应用为导向推动各行业高质量数据集建设 [1] - 国家数据局在2025年2月召开建设工作启动会,6月征集典型案例,8月发布《高质量数据集建设指引》,9月公布104个典型案例名单 [1][2] 高质量数据集对人工智能与产业发展的价值 - 高质量数据集是训练和优化人工智能模型的基础,其丰富性、准确性和多样性直接决定了模型的性能上限 [2] - 高质量数据集的丰富和完善将优化人工智能算法,提升性能,吸引更多企业和开发者参与,形成技术生态良性循环 [2] - 高质量数据集的建设将催生数据标注、清洗、管理等数据服务产业的发展机遇 [2] 高质量数据集在各行业的具体应用与经济效益 - 在电子商务领域,基于用户行为数据的高质量数据集能帮助企业实现精准营销,提高用户转化率和购买力,增加销售额和利润 [3] - 在制造业,高质量数据集的应用能实现生产智能化和自动化,提高产品质量与生产效率,降低生产成本,增强市场竞争力 [3] - 典型案例显示,如节能光伏一体化综合能源高质量数据集建设,能将系统从“经验驱动”升级为“数据驱动、全局最优”的智能体 [2] 高质量数据集的宏观战略意义 - 发展高质量数据集是驱动人工智能技术跨越式发展、催化产业迭代升级与结构转型、强化社会治理效能、赋能科学研究革新的核心 [3] - 高质量数据集的打造有望成为撬动经济增长的新引擎,对技术生态、宏观经济、社会文化等维度产生深刻广泛影响 [3]
一图读懂︱《关于推动“人工智能+民航”高质量发展的实施意见》
中国民航网· 2025-12-04 12:15
以习近平新时代中国特色社会主义思想为指导,深入贯 彻党的二十大和二十届历次全会精神。 发展原则 (02) 需求导向 场景赋能 01 04 创新驱动 系统布局 协同推进 03 ) 安全可控 基础先行 重点突破 发展目标 2030 2027 人工智能与民航各领 域广泛深度融合,治 率先实现人工智能与 理体系和安全保障体 各领域融合发展,人 系逐步完善,有效促 工智能核心支撑要素 进行业提升,成为推 建设初见成效,形成 动民航高质量发展的 一批示范场景、智能 强劲引擎。 化产品与应用。 息体框架 人工智能为民航高质量发展注入新动能 创新赋能场景 人工智能+ 人工智能+ 人工智能+ 人工智能+ 人工智能+ 人工智能+ 规划建设 安全 运行 出行 HS PD 物流 强化要素供给 高质量数据集、基础设施平台、行业模型算法 强化融合创新 行业融合、产业融合 保障措施 组织保障、安全保障、人才保障、政策保障、示范引领 关于推动"人工智能+民航" 高质量发展的实施意见 总体要求 指导思想 创新赋能场景 (一) 人工智能+安全 机场运行安全 空管风险预警 与空防安全 与应急响应 飞行安全与 通用航空与 机务维修 低空安全保障 4 ...
超500PB!
中国能源报· 2025-12-04 04:33
高质量数据集建设现状 - 截至三季度末,我国已建成高质量数据集总量超过500PB [1] - 高质量数据集赋能人工智能模型性能提升和创新加速 [1] 政策与行业推动举措 - 国家数据局联合26个部委共同制定以场景应用为导向的政策文件,推动各行业高质量数据集建设 [1] - 部署140项先行先试任务,初步实现人工智能应用与高质量数据集建设同步推进的良好氛围 [1] 市场发展与投资意识 - 全社会需要加大数据领域投入,培育为高质量数据付费的意识 [1] - 为数据要素市场化配置改革注入新动力 [1]
国家数据局:我国已建成高质量数据集总量超500PB
央视新闻· 2025-12-04 03:06
行业政策与战略方向 - 国家数据局联合26个部委共同制定政策文件,以场景应用为导向,推动各行业领域高质量数据集建设[1] - 部署了140项先行先试任务,初步形成人工智能应用与高质量数据集建设同步推进的良好氛围[1] - 全社会需要加大数据领域投入,培育为高质量数据付费的意识,为数据要素市场化配置改革注入新动力[1] 行业发展现状与规模 - 截至三季度末,中国已建成高质量数据集总量超500PB[1] - 高质量数据集正赋能人工智能模型性能不断提升,并推动创新持续加速[1] - 高质量数据集被定义为数智创新的关键资源[1]
我国已建成高质量数据集总量超500PB
央视新闻· 2025-12-04 02:16
国家数据局推动高质量数据集建设与人工智能发展 - 截至三季度末,我国已建成高质量数据集总量超500PB,赋能人工智能模型性能提升与创新加速 [1] - 国家数据局局长刘烈宏表示,高质量数据集是数智创新的关键资源 [1] 政策与产业协同推进措施 - 国家数据局联合26个部委共同制定政策文件,以场景应用为导向,推动各行业领域高质量数据集建设 [1] - 部署了140项先行先试任务,初步实现“人工智能+”到哪里,高质量数据集建设和应用就到哪里的氛围 [1] 数据要素市场发展导向 - 全社会需要加大数据领域投入,培育“为高质量数据付费”的意识 [1] - 此举将为数据要素市场化配置改革注入新的动力 [1]
广东高质量数据集创新大赛启动,东莞数标园六大平台同步亮相
南方都市报· 2025-12-03 09:04
大赛概况与目标 - 全国首个聚焦高质量数据集建设的创新大赛在广东东莞启动,以“真实需求、真实数据、真实方案、真实应用”为原则 [1][2] - 大赛采用“揭榜挂帅”机制和“分期发榜、全年办赛”模式,旨在探索数据价值转化新路径 [2] - 聚焦工业制造、医疗健康、科技创新、城市治理、交通运输等重点领域,目标是建设高质量、可复用的数据集,为人工智能模型训练提供“燃料” [2] - 通过“1套发榜机制+3个竞赛阶段+N场供需对接会”的体系,构建“数据供给—技术研发—场景落地—产业升级”的完整闭环 [3] 首批赛题与参与单位 - 首批高质量数据集赛题来自能源、生物医药、金融、交通、低空、教育等重点领域 [3] - 发榜单位包括中国南方电网有限责任公司、广州(国家)实验室、广东省人民医院、中国平安财产保险公司、佳都科技集团等 [3] 东莞市数据标注产业园 - 东莞市数据标注产业园同步揭牌运营,总投资3.3亿元,位于万江街道 [4][6] - 产业园携手中国电信、百度智能云构建“一园两基地六平台”的产业生态体系 [4] - 东莞计划通过三年努力,形成100个行业级高质量数据集,打造粤港澳大湾区规模最大、智能化程度最高的数据标注基地 [4] - 园区揭牌当天有22家企业签约入驻 [6] 产业生态支撑平台 - 产业园六大赋能平台集中发布,包括数据标注展示中心、多模态数据智能标注平台、数据人才实训认证平台、具身智能数据采标实验室、高质量数据集和大模型测评中心、行业级数据可信空间 [6] - 深圳数据交易所湾区服务创新中心签约落地南城街道,推动数据要素在政务、安全、交易等领域的创新应用 [6] 行业背景与专家观点 - 高质量数据集被视为决定大模型质量的关键因素和数字产业进步的核心基石 [8] - 东莞以“科创制造强市”为底色,规上工业企业数量稳居全国前三,是国家人工智能应用中试基地,兼具丰富的AI应用场景与海量工业数据优势 [4] - 行业专家认为,高质量数据集建设正从单点突破迈向多点开花,为人工智能产业创新提供更坚实数据支撑 [8]
“湾区数超”开赛!广东省首届高质量数据集创新大赛启动
21世纪经济报道· 2025-12-03 03:22
行业与政策背景 - 数据已成为驱动产业变革的核心生产要素 高质量数据集是释放数据价值的源头活水 [1] - 广东省落实国家“人工智能+”行动与“数据要素×”三年行动计划 全力打造数智化发展新高地 [1] - 广东省率先举办高质量数据集创新大赛 启动仪式于12月2日在东莞举行 近500名政府、企业、高校及机构代表出席 [1] 大赛机制与特点 - 大赛在全国属于“从0到1”的探索跨越 以“真实需求、真实数据、真实方案、真实应用”为原则 [2] - 创新性采用“揭榜挂帅”赛事机制与“分期发榜、全年办赛”模式 [2] - 构建“1套发榜机制+3个竞赛阶段+N场供需对接会”的“1+3+N”组织体系 [3] - 旨在通过以赛促用、以赛促融、以赛促产 构建“数据供给—技术研发—场景落地—产业升级”的完整闭环 [3] 重点领域与参与方 - 大赛聚焦工业制造、医疗健康、科技创新、城市治理、交通运输等重点领域发展需求 [2] - 首批高质量数据集赛题正式“发榜” 涉及能源、生物医药、金融、交通、低空、教育等重点领域 [2] - 首批发榜单位包括中国南方电网、广州国家实验室、广东省人民医院、中国平安财产保险、佳都科技、广州金域医学检验集团、广东泰一高新技术、广东职教桥数据科技、东莞市人工智能与数字经济有限公司、东莞市奥海科技等 [2] 大赛目标与预期影响 - 大赛旨在先找场景、再找数据 探索建设一批高质量、可复用的数据集 为人工智能模型训练和行业应用提供燃料 [2] - 推动成熟数据应用场景复制推广 更好挖掘低空经济、工业互联网等新兴领域的数智潜力 [3] - 充分发挥高质量数据集的赋能作用 有效释放数据要素价值 [3] - 为全国一体化数据市场建设及数据产业生态繁荣发展贡献广东经验 [3]
未来产业:数据要素和交易
2025-11-07 01:28
行业与公司 * 行业为数据要素与人工智能产业 公司提及海能生等数据标注龙头企业[1][9] 核心观点与论据 * 数据要素是人工智能产业发展的三大关键要素之一 是重要的战略资源和底层基础设施[2] * 国家高度重视数据要素 自2022年12月起出台多项纲领性政策文件 并于2023年初成立国家数据局进行专门管理[1][2][4][5] * 建设全国统一大市场是核心目标 数据资源的流通、交易和确权是其重要组成部分[1][2] * 数据标注行业发展迅速 国家已统筹建设七大高质量数据标注基地 数据集总规模达29TB 带动相关产值超过83亿元[1][6] * 人工智能应用规模快速增长 2025年初至6月底 我国日均Token消耗量从约1,000亿增长至超过30万亿 增长超过300倍[1][8] * 大模型训练中中文数据占比超过60% 部分模型达到80% 高质量中文数据集开发空间巨大[1][9] * 2025年10月政策文件指出工业制造、现代农业等9个领域的数据要素典型应用场景 各行业对数据要素有强烈需求[1][10] * 公共数据的开发利用至关重要 能提高社会治理效率 需通过合理机制打通公安、医疗、运营商、金融等不同部门的数据[1][10][12] 其他重要内容 * 数据要素产业投资热点方向包括数交所、人工智能及医保、交通、能源等具体应用场景探索[8] * 在人工智能时代 模型调用的Token数是衡量应用受欢迎程度和市场潜力的重要指标[1][8] * 北京、上海、天津等城市在试点数据作价入股模式 将高质量数据集折算成股权投入企业 上半年数据集相关交易额接近40亿元[8] * 算力基础设施建设与数据密切相关 国家推进数据中心建设和分布式计算技术发展[9] * 广东、上海、福建、浙江等省份有望在数字经济发展中领先 地方国有企业和掌握高质量数据资源的龙头公司将形成协同优势[3][11] * 上市公司积极参与数据要素应用探索[3][11]
建设高质量数据集,江苏势在必行、必须先行
新华日报· 2025-11-06 08:16
大会概况与成果 - 2025全国高质量数据集和数据标注产业供需对接大会于11月5日在南京成功举办 围绕大模型训练和行业智能化转型数据需求设置了5个行业供需对接专场 吸引国内500余家企业参与 现场达成合作90余项 交易额超9亿元 [1] - 大会是全国首个高质量数据集和数据标注产业供需对接大会 首次试水即火热出圈 [1] 江苏省数据资源与政策支持 - 江苏省是数据要素资源大省 截至今年10月底在医疗、交通、工业、能源、文旅等重点领域形成高质量数据集321个 数据总规模超93PB 相当于9300万部高清电影 [1] - 江苏省构建1+N的人工智能高质量发展政策体系 在算力、算法、数据和人工智能应用上系统发力 [2] - 江苏省数据局等八部门联合印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》 把数据标注和高质量数据集一体统筹 聚焦17个领域引导供需企业协同推进高质量数据集建设 [2] - 江苏省会同八部门印发《江苏省培育壮大数据企业行动方案(2025—2027年)》 开展涵盖数据资源等6类数商引育工作 加快高质量数据集生态圈建设 [2] 高质量数据集的定义与标准 - 高质量数据集数据量不一定很大但一定要精 关键标准是符合AI大模型训练需要 在不同行业中定义标准不一 [2] - 中国电子技术标准化研究院在全国数标委推动下正式发布4项高质量数据集系列技术文件 包括建设指南、格式要求、分类指南、质量评测规范 通过标准化方式解决建设面临的突出问题 [6] - 我国正按照1+3+5+N的思路推进高质量数据集基础设施化 依托1个管理服务平台 从3个层次推进 通过5类建设主体 以N个典型应用场景为牵引建设高质量数据集 [6] 数据标注的挑战与重要性 - 数据标注至关重要 是找特征和找意外情况的过程 例如在智能驾驶中标注风险点以提升安全性 [3] - 数据标注有专业门槛 普通视频和2D照片易于上手 但鸟瞰图、三维图需要数学知识 医学类数据标注需要较高水平的专业知识 [3] - 细分领域大模型进展缓慢的原因包括数据供给不足和加工能力不足 行业渴盼高水平、专业性强的数据标注师队伍 [4] 行业面临的成本与融资问题 - 高质量数据集建设面临存储成本高企的问题 持续增长的数据采集总数与居高不下的存储成本并存 企业自建存储中心或租赁第三方云存储服务均产生成本 [5] - 企业呼吁在数据采集端和标注端加大金融扶持力度 建议金融机构对有市场价值的高质量数据集以订单贷或信用贷等形式发放启动资金 一个价值100元的数据集中80元是采买原始数据的成本 [6] - 数据行业是知识密集型叠加资金密集型的行业 融资成本制约企业做大做强 [6] 未来发展路径与解决方案 - 为降低数据存储成本 企业建议在我国中西部地区建设冷存储中心 对暂时用不到的数据进行低成本保存 [5] - 江苏省未来将围绕高质量数据集价值实现从供需两侧发力 编制数据富集领域建设指南和数据标注产业图谱 加快数联网、可信数据空间试点及公共服务平台建设 [7] - 江苏省计划强化中小企业培育 推动省级资源与地方需求精准匹配 组织供需对接会支持企业加速高质量数据集构建和应用转化 [7]