高质量数据集
搜索文档
2025数博会:高质量数据集的建设非常重要
中国新闻网· 2025-08-28 14:04
高质量数据集建设进展 - 2025年上半年中国各地建设高质量数据集超过3.5万个 总体量超300PB[2] - 全国高质量数据集累计交易额达40亿元 交易机构挂牌3364个数据集 总规模达246PB[2] - 贵州省培育数据商超200家 在重点领域发布900余个高质量数据集[3] 政策与产业协同发展 - 国家数据局发挥链主单位作用 加快打造重点领域及新兴领域数据高地[2] - 贵州推动算力数据应用产业协同 重点发展智算产业/数据产业/人工智能产业/电子信息产业四类产业[3] - 国家数据局指导启动高质量数据集领航计划 推动数据要素生态建设与高质量数据集供给[5] 数据要素价值认知 - 数据作为人工智能三大要素之一 高质量数据集对模型性能提升具有关键作用[1][6] - 人工智能模型训练推动数据交易需求上升 各方普遍认可数据资源重要性并加大投入[2] - 数据集是决定大模型性能安全的关键 需要以敬畏之心对待数据质量与安全风险[6] 数字经济宏观趋势 - 数据要素作为新兴生产要素 正以前所未有的深度和广度重构生产力与产业变革[2] - 全球数字经济浪潮奔涌向前 高质量数据集建设为培育新质生产力奠定基础[2][5]
主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?
齐鲁晚报网· 2025-08-25 08:39
语料库建设的必要性 - 高质量数据集是人工智能大模型训练的基础性关键资源 在算法趋同和算力普惠背景下成为核心竞争力[1] - 2025年2月27个国家部委代表参加高质量数据集建设工作启动会 推动"人工智能+"行动[2] - 国务院办公厅2025年1月提出建设文化领域人工智能高质量数据集 支持文化领域大模型建设[2] - 山东省2025年6月政策明确支持建设文化领域人工智能高质量数据集和语料库[2] 主流文化语料库特点 - 依托人民网 大众报业集团等权威媒体资源及省内文化单位 高校优质私域文化资源构建[3] - 通过标准化分类系统和专业标注平台解决格式不统一 质量不齐等问题[3] - 一期已上线5万对问答语料和2000万篇基础语料[4] - 重点打造孔子学术研究 孔子画像等多个高质量数据集[4][9] 技术平台与数据处理 - 自主研发山东文化数据标注平台 提供数据采集 清洗 预标注 标注 增强 审核全链路服务[7] - 支持问答 图片 视频 音频 文件 图谱等多类型数据标注[7] - 采用AI增强功能实现问题泛化和答案多样性 如"孔子出生地"可扩展多种问法[15] - 平台支持自动去重 智能筛选低质量样本 提升处理效能[12] - 配备AI识别映射关系体系 可自动识别历史名人家庭 朋友 事业等关系网络[12] 具体应用案例 - 孔子研究高质量数据集归集数千篇专业文献与著作 20余名专家深度文本挖掘[9] - 从5000多张图片资料中标注上千张孔子画像 详细标注创作年代 背景用途 风格材质等信息[9] - 数据处理完毕后支持一键发布至目标大模型 实现模型能力即时更新与增强[15] 发展战略与行业影响 - 山东省计划2027年底前建设5个成效明显 特色鲜明的数据标注基地[6] - 平台面向全社会免费开放 推动语料资源开源共享[15] - 公司将推出山东文化数据交易平台 提供文化数据集交易服务[15] - 项目助力区域及垂类产业数字经济高质量发展[2]
世界500强CIO齐聚第八届南方信息大会丨汉数创始人陈开冉受邀发表演讲
江南时报· 2025-08-19 09:11
行业活动 - 第八届南方信息大会在广州举办 汇聚AI领域顶尖学者 各行业头部企业CIO及全球领先大模型厂商 包括南航 华为 阿里 字节 美的 西门子等世界500强公司CIO [1] - 大会探讨AI时代CIO的挑战与机遇 主论坛议程包含大模型时代的高质量数据云 工业AI应用 AI赋能数字化底座 人工智能在生命科学应用等主题演讲 [2] 公司技术观点 - 高质量数据集是AI产业落地的核心 被比喻为"高标号汽油" 直接决定AI模型性能与应用效果 [3] - 人工智能已从以模型为中心转向以数据为中心 高质量标注数据是释放AI价值的关键 决定大模型应用效果与产业落地能力 [4] - 高质量数据集解决大模型两大核心痛点:解决幻觉问题 以权威数据筑牢模型可信度 减少无中生有错误 [5] 突破专业壁垒 让大模型从通才进阶专才 通过注入行业专识数据理解产业细节 [6] 产品解决方案 - 旷湖数据云平台具备五大核心能力:输入输出标准 数据质量高 适配大模型调用 高并发高性能 计费方式灵活 [7] - 平台数据覆盖18大垂直领域 包括3.8亿+企业 25万+楼宇 30亿+商品数据 实现多源异构数据的高可信融合 [8] - 创新三段式数据对接模式:创建数据对接器 筛选数据范围 选择数据字段 大幅降低企业数据获取门槛 [10] - 提供MCP服务市场 精选100+服务 涵盖企业风险监测 经营动态分析 信息洞察 电商运营数据等12个类别 [11][12] - 已与字节 阿里 百度等头部大模型厂商深度合作 上架火山引擎 百度千帆 阿里百炼 Github等知名平台 [12] 发展战略 - 通过高质量数据集助力行业大模型解决幻觉问题 在专业应用场景中给出满意答案 [14] - 积极拥抱各大模型生态 降低数据调用门槛 更好适配大模型应用场景 [14] - 持续拓展数据覆盖广度与深度 构建开放共赢的数据生态 驱动产业生产力发展 [14]
今年底数据流通节点城市将扩大到50个左右
中国证券报· 2025-08-14 20:16
数字基础设施建设成就 - 截至2025年6月底5G基站总数达455万个较2020年增长5倍千兆宽带用户达2.26亿户增长34倍算力总规模全球第二 [2] - 已建成25个城市节点布局16个省区市数据基础设施架构7月底完成互联互通预计年底节点城市扩至50个覆盖80%省区市 [3] - 数据基础设施建设吸引超2000家主体接入支撑政务治理金融风控等上百场景应用上架近万个数据产品 [3] 数据要素市场化改革 - 国家数据局推出公共数据资源开发利用等21项政策2024年将推出数据产权等10多项制度 [1] - 高质量数据集累计交易额近40亿元交易机构挂牌数据集总规模达246PB上海天津安徽试点"数据语料作价入股"模式 [4] - 已布局成都沈阳合肥等7个数据标注基地推动数据标注产业发展 [4] 数字技术创新与产业突破 - 集成电路形成设计制造封装测试材料装备完整产业链国产操作系统加速崛起 [2] - 截至2024年底软件收入规模较2020年增长80%规模以上电子信息制造业增加值增长超70% [2] - 数字经济带动新增超100个新型职业创造新就业机会 [2] 高质量数据集发展 - 已建设高质量数据集超3.5万个总体量超400PB相当于中国国家图书馆数字资源总量140倍 [3] - 将重点打造具身智能低空经济生物制造等领域数据高地培育"为优质数据买单"市场共识 [4] 数据流通与应用生态 - 制定《国家数据基础设施建设指引》明确"三统一"互联互通要求提出匿名化处理等9项技术规范 [2] - "十五五"期间聚焦高质量标准构建大规模设施部署市场化生态运营打造世界领先数据基础设施 [3]
国家数据局这场发布会,信息量很大!
人民网· 2025-08-14 13:12
国务院新闻办公室8月14日举行"高质量完成'十四五'规划"系列主题新闻发布会,介绍"十四五"时期数字 中国建设发展成就。 【截至6月底,日均Token消耗量已突破30万亿】 国家发展改革委党组成员、国家数据局局长刘烈宏在会上表示,作为人工智能发展的三大核心要素之 一,数据在推动"人工智能+"过程中发挥着关键作用,特别是高质量数据集的建设至关重要。 刘烈宏介绍,在人工智能时代,Token(词元)作为处理文本的最小数据单元,如同互联网时代大家所 说的"流量"。2024年初,我国日均Token的消耗量为1千亿,截至今年6月底,日均Token消耗量已经突破 30万亿,1年半时间增长了300多倍,这反映了我国人工智能应用规模的快速增长。 刘烈宏强调,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。我国是第一个把数据 作为生产要素的国家,多措并举促进数据资源的开发利用。"人工智能+"行动到哪里,高质量数据集的 建设和推广就要到哪里。我国大力推动高质量数据的供给,出台了高质量数据集建设相关文件,多部门 联合推动相关工作。 刘烈宏介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB ...
中国电子云成立AI产品线 欲破解AI应用四大落地难点
中国经营报· 2025-08-05 07:56
文章核心观点 - 人工智能技术虽快速发展并展现商业价值 但在强监管、高门槛的垂直行业落地面临通用模型能力不足、成本高昂、效果稳定性要求高及场景非标准化等核心挑战 [1][2][3] - 中国电子云推出面向国家关键行业的全链路AI解决方案 通过构建数据、模型、应用、服务闭环 以安全、软硬协同和深度定制化服务作为差异化特点 旨在破解行业AI落地难题 [4][6][7] AI行业落地挑战 - 通用大模型在金融、医疗、能源等垂直领域渗透率和落地效果有待提升 行业数据私有化、知识体系复杂性和业务流程独特性构成天然壁垒 [1] - 行业AI部署面临四大难点:数据高度私密专业难以公网获取、GPU卡昂贵致训练推理成本高昂(需几百万元乃至上千万元投入)、对准确率和稳定性有极致要求、场景落地难以标准化 [2] - AI落地需要深度定制化和配套服务 纯粹产品销售模式在B端市场难以奏效 不同行业需求差异巨大 缺乏标准化落地范式 [3] 中国电子云的解决方案 - 公司正式成立AI产品线 推出“中国电子云·新星”全链路AI解决方案 从数据、模型、应用、服务四个维度构建完整落地闭环 [4] - 解决方案首要差异化特点是安全 依托中国电子完整的集成电路产业链和全栈信创底座 构建自主计算体系以满足关键行业对保密性、权限管理和审计的极高要求 [6] - 通过软硬协同策略提升性价比 将软件算法与国产硬件深度适配优化 以提升训练推理效率并降低成本 [6] - 以多模态数据治理平台统一处理文本、音频、视频、图片等非结构化数据 生成高价值标准化数据集 模型开发80%以上工作量在于准备数据 [5][7] - 通过应用开发平台以RAG或Agent模式串联企业IT系统输出智能体应用 形成“应用驱动数据 数据反哺模型 模型优化应用”的可复制落地范式 [7]
上海布局、各方协同,这场论坛力促大模型“落地生花”
国际金融报· 2025-07-27 15:33
上海市人工智能发展规划 - 上海市正深化人工智能全产业链布局 构建智能算力资源统筹调度服务平台 2025年底智算供给能力将超10万P [1] - 上海市形成"4个基础模型+N个垂域模型"发展路线 以及"一东一西、一软一硬"差异化发展布局 [1] - 下一步将通过构建高质量语料供给体系 加大重点垂直领域应用 创新应用生态构建等举措加快建设人工智能"上海高地" [1] 中国电子人工智能布局 - 中国电子建立了完整集成电路产业链 构建以飞腾、麒麟、达梦、中国电子云、中国长城为代表的全栈信创底座 [1] - 积极落实"数据要素×"行动 在数据资源利用与价值激活上进行诸多探索 [1] - 中国电子云自主研发CECSTACK专属云平台 为人工智能应用发展提供高效算力支撑 打造全链路AI解决方案 [2] 人工智能技术挑战与突破 - 我国人工智能产业在芯片、算力、数据、生态等领域面临挑战 [2] - 需聚焦研制低成本个人用推理机与提高国产智算系统可用性 如KTransformers系统通过以存换算方式降低AI使用门槛 [2] - 国产智算操作系统需构建类CUDA系统 同时做好并行系统、编程框架等10个关键软件 充分释放国产硬件算力 [2] 数据要素发展现状 - 高质量数据集具备高技术含量、高知识密度、高价值应用的"三高"特征 [3] - 高质量数据集建设面临目标定位模糊、实施路径碎片化、技术底座薄弱三大难题 [3] - 新一代数据标注和合成数据为突破"数据墙"提供解决思路 [3] 中国电子云产品与服务 - 发布中国电子云·新星全链路AI解决方案 打造"3+3+N"产品服务体系 [3] - 提供多模态数据治理平台、模型开发平台、应用开发平台3大核心产品 [3] - 构建AI战略咨询、交付、课程3大服务体系 提供多个行业通用应用 [3] 行业合作与倡议 - 中国电子云与中国长城、沐曦股份签署三方战略合作 [4] - 与中国信通院人工智能研究所等多家机构签署合作协议 [4] - 联合多家机构发起《加速中国自主人工智能高质量发展及产业落地倡议》 从技术研判、算力生态、数据集建设等五个方面推进 [6]
院士郑纬民:中国不仅要构建类CUDA系统,同时也要做好10个关键软件
观察者网· 2025-07-26 14:48
人工智能产业发展战略 - 上海市正深化人工智能全产业链布局 构建全市智能算力资源统筹调度服务平台 2025年底智算供给能力将超10万P [1] - 上海市形成"4个基础模型+N个垂域模型"发展路线 打造"一东一西 一软一硬"差异化布局 [1] - 上海将通过构建高质量语料供给体系 加大重点垂直领域应用 创新应用生态构建等措施加快建设人工智能"上海高地" [1] 人工智能技术挑战与突破 - 我国人工智能产业在芯片 算力 数据 生态等领域面临挑战 需聚焦低成本个人用推理机研制和国产智算系统可用性提升 [3] - KTransformers系统通过以存换算方式降低AI使用门槛 国产智算系统需构建类CUDA系统并完善10个关键软件 [3] - 企业应用AI需找准核心问题 用好高质量数据 微调基础大模型 [3] 数据要素发展现状 - 高质量数据集具备高技术含量 高知识密度 高价值应用的"三高"特征 是AI发展核心驱动力 [5] - 高质量数据集建设面临目标定位模糊 实施路径碎片化 技术底座薄弱三大难题 [5] - 国家部委和地方政府推动"人工智能+数据要素"政策协同 新一代数据标注和合成数据为突破"数据墙"提供新思路 [5] 企业人工智能布局 - 中国电子建立完整集成电路产业链 构建以飞腾 麒麟 达梦 中国电子云 中国长城为代表的全栈信创底座 [7] - 中国电子云自主研发CECSTACK专属云平台 提供通算 智算 超算一体化服务 打造全链路AI解决方案 [7] - 中国电子云将在政务 医疗 金融等关键行业打造行业大模型 推动"人工智能+"行动落地 [7]
华为云、美的、网易…“大厂”为啥把算力“大本营”选在这儿
金融时报· 2025-07-26 08:49
人工智能+行动推进 - 政府工作报告提出持续推进"人工智能+"行动,强调将数字技术与制造优势、市场优势结合,支持大模型广泛应用 [1] - 高质量数据集分为通识类、行业通识类、行业专识类三类,国家数据局将全面加速高质量数据集建设和应用落地 [1] - 国家数据局开展生态培育专项行动,包括典型案例征集、技术交流活动、供需对接平台建设等措施 [2] 高质量数据集建设 - 国家数据局指导合肥、成都等7个城市建设数据标注基地,截至上半年建设数据集524个,规模超过29PB,服务大模型163个 [2] - 数据决定人工智能上限,算力决定下限,贵州推进"东数西算"战略,转向"存算一体、智算优先" [2] - 华为云全球最大智算中心、腾讯、网易、美的的算力基地均落户贵州 [2] 贵州算力基础设施建设 - 贵州省在建和投运的重点数据中心48个,其中大型数据中心28个,存储能力达25EB(相当于50亿部高清电影) [3] - 贵州省智算规模达85EFLOPS,智算占比超98%,出省带宽超6万Gbps,建成全球首条400G算力通道 [3] - 贵州为全球50多个国家和地区、20多万用户提供云渲染算力服务,如《哪吒2》渲染工作 [3] - 华为云在贵州建设第三个大型园区,重点推进"东数西算"南部大通道建设,优化"贵州算力券"政策 [3]
2025数博会下月在贵阳举行 国家数据局:将开展高质量数据集和数据标注交流活动,并发布一批典型案例
每日经济新闻· 2025-07-22 07:27
2025中国国际大数据产业博览会 - 2025数博会由国家数据局主办、贵州省人民政府承办,将于8月28日至30日在贵阳举行,主题为"数聚产业动能智启发展新篇",聚焦数据要素与AI技术融合创新[1] - 数博会自2015年举办以来已成为我国数据领域展示成果、促进开放合作的重要平台,本届将推动数据资源高效开发利用,为产业转型注入新动力[1] 贵州省人工智能产业发展 - 贵州正加速推进AI大模型与行业场景融合,已在24个重点产业打造近100个大模型应用场景,依托华为、DeepSeek等基础大模型构建"AI+行业"生态[2] - 典型案例包括遵义铝业通过AI优化生产工艺参数实现年省1700万度电,以及旅游智能助手"黄小西"提升服务体验[2] - 全省布局AI人才培养体系,高校设立68个相关专业,同时建设国家重点实验室、省人工智能实验室等研发平台[3] - 贵州抢抓低空经济、智能驾驶等新赛道,在电子信息制造、高端装备等领域引入AI动力引擎[3] 国家数据局高质量数据集建设 - 国家数据局强调高质量、多模态、精标注数据是AI发展的关键动力,中国AI成果与数据创新实践密不可分[4] - 按通识、行业通识和专识分类推进高质量数据集规范建设,构建"部门协同、央地联动"机制加速应用落地[5] - 已指导合肥、成都等7个城市建设数据标注基地,截至上半年累计建设数据集524个(规模超29PB),服务163个大模型[5] - 开展生态培育专项行动,挖掘医疗、工业、交通等领域标杆案例,搭建供需对接平台促进数据要素市场化[5] 未来发展规划 - 国家数据局将打造"数据标注+数据集+模型+应用场景+价值化"闭环生态,推进数据要素改革与"人工智能+"行动协同[6] - 计划在数博会期间举办数据集交流活动、供需对接会,并发布高质量数据集典型案例[6]