Workflow
高质量数据集
icon
搜索文档
AI演进新阶段:智能体崛起呼唤高质量数据供给
中国新闻网· 2025-12-07 02:37
行业政策与战略方向 - 国家数据局表示将引领开放协同,鼓励各类主体打破壁垒合作,构建全国一体化数据要素市场,营造更加开放的产业生态 [1] - 广东省作为国家数字经济创新发展试验区,在推动数据要素市场化配置方面走在前列,将继续加大政策供给和要素保障,为企业营造良好营商环境 [1] - 国家数据发展研究院提出构建高质量数据集管理服务平台的新思路,以推进数据集基础设施化,赋能经济社会发展 [2] 技术发展与市场趋势 - 人工智能技术从基础大模型、垂类大模型发展到智能体,技术飞速发展,对数据的需求不断更新迭代 [1] - AI智能体正成为释放数据价值的关键载体,而高质量数据集是其能力跃升的基石 [2] - 人机交互正迎来颠覆性变革,用户入口面临全新重塑 [2] 产业实践与成果 - 中国电信发布星辰智能体服务平台1.0,以“星小辰”智能体为统一入口,实现跨终端、跨场景的智能服务 [1] - “星小辰”智能体支持用户通过自然语言完成复杂任务,如行程规划、家庭安防、通信办理等 [2] - 截至9月底,全国已建设高质量数据集总体量超500PB [2] 当前挑战与未来重点 - 高质量数据集建设面临应用导向不明确、标准规范不统一等挑战 [2] - 未来将从社会、行业、生态三个层面推进数据集基础设施化,开展批量的高质量数据集建设 [2]
前瞻全球产业早报:我国信息通信领域首个国家重大科技基础设施正式投入运行
前瞻网· 2025-12-05 14:52
宏观经济与政策展望 - 中央经济工作会议临近,市场关注明年政策走向,宏观经济增长的“质”的要求比硬性增长目标更重要 [2] - 明年政策重点看点包括居民消费、稳消费政策的持续性以及对民营经济的支持 [2] - 明年大概率延续宽松的财政和货币政策组合,以稳住和巩固经济复苏动能 [2] 科技创新与数字基建 - 我国信息通信领域首个国家重大科技基础设施“未来网络试验设施”通过国家验收并正式投入运行,标志着我国网络技术创新与试验验证能力迈入国际先进行列 [2] - 截至三季度末,我国已建成高质量数据集总量超500PB,赋能人工智能模型性能提升与创新加速 [3] - 国家数据局联合26个部委推动高质量数据集建设,部署了140项先行先试任务,旨在营造“人工智能+”与高质量数据集建设应用同步的良好氛围 [3] 人工智能与前沿技术 - 小米集团在AI大模型和应用方面的进展远超预期,公司已在前几个季度开始压强式投入 [6] - 商汤科技联合创始人王晓刚出任大晓机器人董事长,该公司将于12月18日发布产品阵列及国内开源商业应用“开悟”世界模型3.0 [6] - OpenAI将收购AI模型训练监控与调试工具公司Neptune,双方近期合作开发了能比对数千次实验、分析指标的工具 [8] - 三星电子成立“Samsung Research Nova AI研究所”,并任命常务李康旭为首任负责人 [11] - Anthropic与Snowflake达成2亿美元多年期协议,将在Snowflake平台上提供Claude大模型,旨在将AI智能体部署到全球大型企业中 [12] - AI记忆公司穗升科技完成数百万美元天使轮融资,由红杉中国种子基金领投 [13] 卫星互联网与航天 - 上海7家卫星互联网创新载体被授牌,涉及卫星研发、空间技术、研究院所及通信服务等领域 [4] - 日本栗田工业与太空初创公司ispace达成协议,将合作开展月球水资源开发相关的战略规划与技术验证,寻求建立可持续的月球水资源基础设施 [10] 新能源与高端制造 - 宁德时代发布“船-岸-云”一体化解决方案,截至2025年11月,近900艘船舶已搭载其船舶动力产品 [5] - 国内低空安全解决方案提供商杰能科世完成数千万元新一轮融资,投资方包括杭实集团旗下公司等 [13] 消费电子与硬件 - 字节跳动豆包手机首批备货约3万台已售罄,项目方未追加物料投入,短期内市场流通量固定 [5] - 字节跳动与中兴通讯的第二代产品已启动研发,预计于2026年底出货 [5] - 苹果顶级设计主管艾伦·戴伊将加盟Meta,出任新设计工作室首席设计官,核心任务是用AI重构Meta头显、智能眼镜等设备的软硬件及交互体验 [9][10] 企业战略与资本市场 - 湖北省国资委表示,“十五五”期间将深入推进闲置资产盘活利用,探索开展不同层级企业专业化整合,以提升国有资本运营效率 [5] - 东方甄选正招聘北京首家旗舰店店长,该店位于中关村,面积约400平方米,涵盖商品零售及简餐饮品区,标志着其线下门店扩张计划启动 [6] - 证监会同意深圳市恒运昌真空技术股份有限公司在科创板IPO注册 [14] - 深圳基本半导体股份有限公司向港交所提交上市申请书 [14] 国际贸易与产业动态 - 由于半导体、汽车和船舶等出口强劲,韩国2025年全年出口有望首次超过7000亿美元,创历史新高;前11个月出口已达6402亿美元,超过2022年全年6287亿美元的纪录 [7] - 诺和诺德计划本月在印度推出糖尿病特效药Ozempic,旨在加强市场立足点并在仿制药推出廉价版本前抢占市场 [13]
全国已建设高质量数据集总体量超500PB
新华社· 2025-12-04 14:24
国家数据局局长刘烈宏表示,高质量数据集是数智创新的关键资源,国家数据局联合多部门共同制 定政策文件,以场景应用为导向,推动各行业领域高质量数据集建设;部署了140项先行先试任务,并 初步实现了"人工智能+"到哪里,高质量数据集建设和应用就到哪里的良好氛围。 国家数据局数据显示,截至9月底,我国7个数据标注基地引进和培育标注企业362家,标注从业人 员达8.5万人,带动数据标注相关产值163亿元;我国日均Token消耗量已突破40万亿,和2024年初相 比,增长了约400倍。(记者 高亢) 记者12月4日从国家数据局获悉,截至9月底,全国已建设高质量数据集总体量超500PB,为助力人 工智能融入千行百业添砖加瓦。 ...
刘烈宏出席“2025科创大会”并致辞
证券时报网· 2025-12-03 04:45
数据要素与人工智能融合 - 推动数据要素与人工智能深度融合是促进数智创新的核心 [1] - 数据基础设施是解决数据流通中“安全、合规、高效”三角难题的关键载体 [1] - 高质量数据集是数智创新的关键资源 [1] 数据要素市场化配置改革 - 国家数据局将推动数据要素赋能人工智能发展作为重点工作 [1] - 通过定政策、促供给、建标准、强技术、育生态加快高质量数据集建设 [1] - 呼吁全社会加大数据领域投入,培育“为高质量数据付费”的市场意识 [1] 人才队伍建设与学科发展 - 人才队伍建设是数智创新的关键支撑 [1] - 联合有关部门印发《关于加强数据要素学科专业建设和数字人才队伍建设的意见》 [1] - 通过规划和试点“双轮驱动”,加快构建数字人才自主培养新生态 [1]
2025全球数商大会全链路数据治理赋能高质量数据集建设分论坛举行
第一财经· 2025-11-27 07:25
论坛概况 - 2025全球数商大会期间举办“全链路数据治理赋能高质量数据集建设”分论坛 [1] - 论坛由普元信息技术股份有限公司与中国信息通信研究院华东分院联合主办,并获得多个行业协会支持 [1] - 论坛汇聚政、产、学、研、用各领域专家,并发布新产品及成立生态联盟 [1] 政策与行业支持 - 上海市数据局及工业互联网协会等多位领导认为高质量数据集是发展新质生产力的核心要素 [3] - 政府主管部门高度肯定公司在联合产业力量、推动数据要素价值释放方面的努力 [3] 学术与标准指引 - 中国信通院权威解读《人工智能高质量数据集建设指南》,为行业提供体系化建设框架 [6] - 上海交通大学教授探讨以数智化治理技术构筑面向世界模型的高质量数据 [8] 公司解决方案 - 公司提出高质量数据集构建是系统工程,核心优势是提供从战略咨询、平台工具到数据开发治理运营一体化的“全链路”治理能力 [10] - 数据治理被视为一项知识工程工作,需将散乱数据“原矿”通过主数据等减熵方式系统性地“炼制”成驱动AI的高质量数据集 [12] 产品发布 - 公司发布“易数”AI原生数据资产平台新版本,深度融合AI能力支持双向赋能的智能飞轮建设 [12] - 产品旨在帮助企业构建AI的数据工厂、提供敏捷数据洞察,提升构建和管理高质量数据集的效率 [12] - 未来产品将通过三层能力支撑企业数据智能体的进化 [12] 生态建设与行业实践 - 公司发起成立“AI核心数据集生态联盟”并启动“灯塔计划”以推动产业协同 [14] - 能源、航天、AI等多个前沿领域专家分享高质量数据集建设实践,包括上海核工程研究设计院、中国航天科技集团、合合信息、国家人形机器人创新中心及百度智能云 [17] - 论坛标志着公司在推动数据要素价值释放、赋能企业智能化转型中迈出坚实一步 [17]
共创自然资源数据应用新生态 自然资源行业高质量数据集建设与创新应用论坛成功举办
搜狐网· 2025-11-12 07:39
论坛背景与主旨 - 第二届中国测绘地理信息大会期间成功举办“自然资源行业高质量数据集建设与创新应用论坛” [1] - 论坛由自然资源部多个司局及中心指导,多家行业机构和企业联合承办,旨在汇聚行业智慧,共商数据建设标准,共享创新应用成果 [1] - 论坛吸引来自政府、企业、科研院所的众多专家与业内人士,成为大会期间焦点活动 [1] 行业挑战与发展路径 - 自然资源数据是国家治理现代化的重要基石,但其应用面临多源数据融合壁垒和标准体系待完善等挑战 [4] - 行业呼吁通过强化标准引领、深化技术融合、共建应用生态三大路径,构建精准感知、智能决策的自然资源治理新格局 [4] - 在大模型进入以数据为中心的时代,数据质量直接决定模型能力的上限,需从制度设计、技术攻关与生态培育等多方面合力推进 [4] 高质量数据集建设框架 - 高质量数据集是全球人工智能竞争的战略焦点,其建设闭环体系包括数据精炼场、用数实验室、价值运营中心,最终形成大模型开放数字生态和行业大模型标准体系 [7] - 基于高质量数据集构建自然资源知识库,可实现领域知识的外部增强,显著提高行业大模型的专业能力 [7] - 建设高质量数据集需遵循聚数汇流、筑基提质、助智增效的实践路径,为产业升级注入新动能 [7][8] 细分领域创新应用 - 海洋领域通过多源采集、数字技术、合规流通、创新应用四大方向构建人工智能驱动的海洋环境融合高质量数据集,推动海洋产业数智化转型 [9] - 地理空间智能迈向以大模型为核心的智能体系,高质量、多维度、可拓展的时空数据集是其持续创新的关键基础 [9] - 构建城市基础模型可实现对城市系统动态变化的深度理解,为智慧国土空间规划提供核心技术支撑 [9] - 林业高质量数据集赋能林草行业大模型,推动行业迈向数字化、智能化与绿色化转型 [9] 企业实践与行业价值 - 行业高质量数据集是破解通用大模型行业应用困境的核心基石,企业实践展示了从业务分析、数据集建设、模型训练到智能应用集成的全流程建设路径 [10] - 建成后的数据集能以多种形式赋能自然资源全业务应用,挖掘传统信息化难以发现的管理风险 [10] - 高质量数据集建设标志着行业在数据要素化、智能化应用方面迈出坚实一步,将为自然资源事业高质量发展注入强劲而持久的智慧动能 [11]
建设高质量数据集,江苏势在必行、必须先行
新华日报· 2025-11-06 08:16
大会概况与成果 - 2025全国高质量数据集和数据标注产业供需对接大会于11月5日在南京成功举办 围绕大模型训练和行业智能化转型数据需求设置了5个行业供需对接专场 吸引国内500余家企业参与 现场达成合作90余项 交易额超9亿元 [1] - 大会是全国首个高质量数据集和数据标注产业供需对接大会 首次试水即火热出圈 [1] 江苏省数据资源与政策支持 - 江苏省是数据要素资源大省 截至今年10月底在医疗、交通、工业、能源、文旅等重点领域形成高质量数据集321个 数据总规模超93PB 相当于9300万部高清电影 [1] - 江苏省构建1+N的人工智能高质量发展政策体系 在算力、算法、数据和人工智能应用上系统发力 [2] - 江苏省数据局等八部门联合印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》 把数据标注和高质量数据集一体统筹 聚焦17个领域引导供需企业协同推进高质量数据集建设 [2] - 江苏省会同八部门印发《江苏省培育壮大数据企业行动方案(2025—2027年)》 开展涵盖数据资源等6类数商引育工作 加快高质量数据集生态圈建设 [2] 高质量数据集的定义与标准 - 高质量数据集数据量不一定很大但一定要精 关键标准是符合AI大模型训练需要 在不同行业中定义标准不一 [2] - 中国电子技术标准化研究院在全国数标委推动下正式发布4项高质量数据集系列技术文件 包括建设指南、格式要求、分类指南、质量评测规范 通过标准化方式解决建设面临的突出问题 [6] - 我国正按照1+3+5+N的思路推进高质量数据集基础设施化 依托1个管理服务平台 从3个层次推进 通过5类建设主体 以N个典型应用场景为牵引建设高质量数据集 [6] 数据标注的挑战与重要性 - 数据标注至关重要 是找特征和找意外情况的过程 例如在智能驾驶中标注风险点以提升安全性 [3] - 数据标注有专业门槛 普通视频和2D照片易于上手 但鸟瞰图、三维图需要数学知识 医学类数据标注需要较高水平的专业知识 [3] - 细分领域大模型进展缓慢的原因包括数据供给不足和加工能力不足 行业渴盼高水平、专业性强的数据标注师队伍 [4] 行业面临的成本与融资问题 - 高质量数据集建设面临存储成本高企的问题 持续增长的数据采集总数与居高不下的存储成本并存 企业自建存储中心或租赁第三方云存储服务均产生成本 [5] - 企业呼吁在数据采集端和标注端加大金融扶持力度 建议金融机构对有市场价值的高质量数据集以订单贷或信用贷等形式发放启动资金 一个价值100元的数据集中80元是采买原始数据的成本 [6] - 数据行业是知识密集型叠加资金密集型的行业 融资成本制约企业做大做强 [6] 未来发展路径与解决方案 - 为降低数据存储成本 企业建议在我国中西部地区建设冷存储中心 对暂时用不到的数据进行低成本保存 [5] - 江苏省未来将围绕高质量数据集价值实现从供需两侧发力 编制数据富集领域建设指南和数据标注产业图谱 加快数联网、可信数据空间试点及公共服务平台建设 [7] - 江苏省计划强化中小企业培育 推动省级资源与地方需求精准匹配 组织供需对接会支持企业加速高质量数据集构建和应用转化 [7]
人工智能高质量数据集生态发展大会在重庆永川举行
新华网· 2025-09-29 08:41
大会概况 - 人工智能高质量数据集生态发展大会于9月28日在重庆永川举行 主题为构建高质量数据集 赋能AI新发展 [1] - 大会通过政策宣介 案例分享 揭牌签约 产业对话等形式推动人工智能数据基础设施建设 深化区域数据要素协同创新 [1] - 大会是永川区推动数据要素市场化配置改革和人工智能产业发展的重要举措 [7] 合作与基地建设 - 重庆市大数据应用发展管理局与永川区政府签署协议 共同建设重庆市数据集建设应用基地 [3] - 重庆市大数据局支持永川区企业参与重庆城市可信数据空间的数据集建设 并指导构建数据标注标准规范及质量控制体系 [3] - 西部数据标注研究院和西部数据集生产基地在大会上同步揭牌成立 [3] 机构职能与规划 - 西部数据标注研究院由中国信息协会与永川区政府共同发起 定位为数字技术共享平台 产业孵化平台及生态构建平台 [4] - 研究院将开展人工智能 高质量数据集等领域的技术科研创新 标准制定 质量评测 并培养复合型数据标注人才 [4] - 西部数据集生产基地由中国信息协会与永川区政府共建 旨在推动数据集生产类企业落地 促成数据要素汇集 打造辐射全国的数据产业 [4] 产业生态与合作 - 永川区与中国移动 中国电信等12家企业签署合作项目 与会代表围绕高质量数据集建设等话题进行深入交流 [6] - 永川区将数据标注产业作为推动数字经济和实体经济深度融合的重要抓手 积极探索数据标注+场景应用流通模式 [6] - 永川区目前园区已集聚数据标注类企业18家 建成标注坐席1.2万席 2024年相关业务营收达13.76亿元 是西南地区重要的数据标注产业基地 [6] 未来发展目标 - 永川区以建设数据要素产业聚集强区为目标 全力推进建设数据标注产业园等四大行动 [7] - 永川区力争到2027年成为成渝地区双城经济圈数据要素流通枢纽节点和数据标注服务基地 [7]
超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙
量子位· 2025-09-26 02:08
公司数据资源 - 拥有超过10万亿tokens的通用大模型语料数据及覆盖14个关键行业的专业数据集 总存储量达350TB [1] - 数据经过精心标注和优化 包含多模态内容 可直接用于行业应用 [3] - 高质量数据集通过采集 加工等处理流程 能直接用于AI模型开发训练 提升模型性能 [4] 技术平台架构 - 星辰MaaS平台作为核心 构建"数据-模型-服务"完整闭环 包含四大核心组件 [7] - 数据工具链覆盖"采-存-算-管"链路 支持文本 图片 音视频等多类型数据统一接入与处理 [18] - 模型工具链覆盖"标-训-推-评"链路 支持40多种标注任务 通过AI预标注使效率提升5倍以上 [18] - 智能体作为执行中枢 灵活调度资源并自主完成复杂任务 实现决策智能化与行为自动化 [7] 模型体系与能力 - 建立"三全"星辰大模型体系:全模态 全尺寸 全国产 [8] - 成功研发万亿参数大模型 采用全国产万卡集群和国产深度学习框架训练 [9] - 语音大模型精准识别60种方言 语义大模型参数规模庞大 视觉模型鉴伪技术达国际领先水平 [39] - 完成中央网信办"境内深度合成服务算法备案"和"生成式人工智能服务"双备案 [39] 行业应用案例 - 在纺织行业实现AI验布 瑕疵检测准确率从50%提升至95%以上 生产效率提升50% [9] - 服务物流集团 纳管超500P国产化算力卡 构建多个物流行业高质量数据集 [29] - 在医疗领域与北京三甲医院合作构建医疗质量管理数据集 推动医院运行管理智能化升级 [36] - 在农业领域为雄安新区打造"雄小农"应用 帮助当地农民实现超过15%的增收 [37] - 在政务服务领域基于1200万条工单记录建成520万条高质量语料 支撑25个智能应用场景 [38] 生态建设与产业赋能 - 支撑成都 沈阳等多个国家级数据标注基地建设 扮演产业生态规划者 产能运营者和新职业培育者角色 [34] - 在成都联合打造"蓉数公园・新津数据要素服务站" 引入数十家标注企业及教研机构 [34] - 建立培训认证体系 规模化培养数据标注师 AI训练师等数字化人才 [35] - 形成"政府引导+央企主导+生态协同"可复制模式 构建完整生态链 [35] 战略定位与发展愿景 - 基于国家战略 市场需求 运营商优势禀赋和使命责任四个层面重仓投入数据基础设施建设 [14] - 承载成为国家战略科技力量和领先的通用人工智能服务提供商的愿景 [42] - 持续发力技术领先 应用普惠 生态开放和人才培养四大方向 [43] - 日增数据量达1.6PB 基础数据集超10万亿tokens 服务超10亿公众客户和上千万政企客户 [16]
浙江大学教授王春晖:高质量数据集是AI大模型训练、推理和验证的关键基础
中国经营报· 2025-09-21 14:52
文章核心观点 - 当前大语言模型存在“幻觉”输出问题,其根源在于训练数据质量低下,高质量数据集是AI可信发展的基石 [1][2] - AI发展正从以模型为中心转向以数据为中心,两种范式相互补充,高质量数据对模型训练、推理和验证有关键作用 [2][3] - 提示词工程是提升AI模型效能的关键,能显著提高专业领域应用效率,并生成新的高质量交互数据反哺模型迭代 [4] - 政策层面强调以应用为导向加强高质量数据集建设,产业数智化需以实体经济需求为牵引实现高质量发展 [5] 大语言模型的数据挑战 - 大语言模型训练数据多源自互联网,质量参差不齐,生成内容依赖“概率性匹配”而非“事实性判断”,导致“幻觉现象” [2] - 研究显示,当训练数据集中仅含0.01%的虚假文本时,模型输出的有害内容会增加11.2% [2] - 高质量数据供给不足,尤其是专业领域数据的缺失,是导致模型产生“幻觉”的核心痛点 [2] 高质量数据集的分类与作用 - 高质量数据集分为通识数据集、行业通识数据集和行业专识数据集,是支撑通用大模型和行业模型落地应用的基础 [2] - 行业通识数据集包含需要专业背景理解的行业通用知识,如医疗健康领域的个人属性、健康状况、医疗应用等数据 [3] - 行业专识数据集包含需要较深专业背景理解的特定业务场景专业知识,如医疗病理数据需临床专家标注以确保准确 [3] 提示词工程的价值 - 提示词工程核心是通过精准设计提示语引导大语言模型生成有用内容,优秀工程师需具备专业知识、行业洞察和创意设计能力 [4] - 在工业、医疗、法律等领域,专业提示词工程师能让AI模型效率提升30%以上,例如通过设计精准提示提高医疗AI辅助诊断准确率 [4] - 提示词工程是人与AI的协同对话,此过程产生的新高质量交互数据可反哺数据集迭代,形成“数据→提示词→新数据→更优模型”的闭环 [4] 政策与产业发展方向 - 政策要求以应用为导向持续加强人工智能高质量数据集建设,支持数据标注、数据合成等技术,培育数据处理和服务产业 [5] - 产业数智化需推动以实体经济需求为牵引的高质量发展,加快形成与新质生产力相适应的数智化生产关系 [5]