Workflow
高质量数据集
icon
搜索文档
人工智能高质量数据集生态发展大会在重庆永川举行
新华网· 2025-09-29 08:41
原标题:人工智能高质量数据集生态发展大会在重庆永川举行 西部数据标注研究院是由中国信息协会与永川区人民政府共同发起成立的数字技术共享平台、数字产业 孵化平台及数字生态构建平台。研究院将聚焦人工智能与数字重庆建设双向赋能,围绕人工智能、高质 量数据集、数据标注等领域,开展新兴技术科研创新、顶层设计、课题研究、标准制定、质量评测等业 务,并组建专家智库,培养复合型数据标注人才。未来,研究院还将探索建设数据领域科学实验室、技 术创新中心、企业技术中心等科技创新平台,加大对数据领域基础研究和前沿技术、原创性技术创新的 支持力度。其主要研究方向包括:开展高质量数据集建设应用研究,数据标注产业链、人才、技术方面 研究,数据标注场景综合试验等方面。 西部数据集生产基地由中国信息协会与永川区政府共建。协会依托会员企业资源,推动更多数据集生产 类企业落地永川,双方合力促成数据要素在永川汇集,打造基地以带动西部、辐射全国数据产业。 9月28日,人工智能高质量数据集生态发展大会在重庆市永川区举行。大会以"构建高质量数据集,赋能 AI新发展"为主题,聚焦数据标注产业实践与探索,通过政策宣介、案例分享、揭牌签约、产业对话等 多种形式, ...
超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙
量子位· 2025-09-26 02:08
公司数据资源 - 拥有超过10万亿tokens的通用大模型语料数据及覆盖14个关键行业的专业数据集 总存储量达350TB [1] - 数据经过精心标注和优化 包含多模态内容 可直接用于行业应用 [3] - 高质量数据集通过采集 加工等处理流程 能直接用于AI模型开发训练 提升模型性能 [4] 技术平台架构 - 星辰MaaS平台作为核心 构建"数据-模型-服务"完整闭环 包含四大核心组件 [7] - 数据工具链覆盖"采-存-算-管"链路 支持文本 图片 音视频等多类型数据统一接入与处理 [18] - 模型工具链覆盖"标-训-推-评"链路 支持40多种标注任务 通过AI预标注使效率提升5倍以上 [18] - 智能体作为执行中枢 灵活调度资源并自主完成复杂任务 实现决策智能化与行为自动化 [7] 模型体系与能力 - 建立"三全"星辰大模型体系:全模态 全尺寸 全国产 [8] - 成功研发万亿参数大模型 采用全国产万卡集群和国产深度学习框架训练 [9] - 语音大模型精准识别60种方言 语义大模型参数规模庞大 视觉模型鉴伪技术达国际领先水平 [39] - 完成中央网信办"境内深度合成服务算法备案"和"生成式人工智能服务"双备案 [39] 行业应用案例 - 在纺织行业实现AI验布 瑕疵检测准确率从50%提升至95%以上 生产效率提升50% [9] - 服务物流集团 纳管超500P国产化算力卡 构建多个物流行业高质量数据集 [29] - 在医疗领域与北京三甲医院合作构建医疗质量管理数据集 推动医院运行管理智能化升级 [36] - 在农业领域为雄安新区打造"雄小农"应用 帮助当地农民实现超过15%的增收 [37] - 在政务服务领域基于1200万条工单记录建成520万条高质量语料 支撑25个智能应用场景 [38] 生态建设与产业赋能 - 支撑成都 沈阳等多个国家级数据标注基地建设 扮演产业生态规划者 产能运营者和新职业培育者角色 [34] - 在成都联合打造"蓉数公园・新津数据要素服务站" 引入数十家标注企业及教研机构 [34] - 建立培训认证体系 规模化培养数据标注师 AI训练师等数字化人才 [35] - 形成"政府引导+央企主导+生态协同"可复制模式 构建完整生态链 [35] 战略定位与发展愿景 - 基于国家战略 市场需求 运营商优势禀赋和使命责任四个层面重仓投入数据基础设施建设 [14] - 承载成为国家战略科技力量和领先的通用人工智能服务提供商的愿景 [42] - 持续发力技术领先 应用普惠 生态开放和人才培养四大方向 [43] - 日增数据量达1.6PB 基础数据集超10万亿tokens 服务超10亿公众客户和上千万政企客户 [16]
浙江大学教授王春晖:高质量数据集是AI大模型训练、推理和验证的关键基础
中国经营报· 2025-09-21 14:52
"如果一只坏钟每天只有两次指向正确的时间,人们会不会逐渐忽视它的故障,甚至依赖它所提供的假 象,大语言模型正如这只坏钟,它们依赖互联网海量数据训练,却常常一本正经地'胡说八道'。"9月21 日,首届青海数据要素生态大会上,浙江大学教授、博导,中国科协决策咨询首席专家,全球数字经济 大会中国数据要素50人论坛主席王春晖如是表示。 而"行业专识数据集",包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业 知识,主要用于支撑业务场景模型落地应用。医疗AI离不开高质量的专家标注数据。比如医疗病理数 据标注复杂耗时,必须由临床专家执行以确保准确。 作为最新发展趋势,AI与数据的融合发展,将逐步从以模型为中心到以数据为中心。不过,王春晖指 出,以数据为中心的人工智能并未削弱以模型为中心的人工智能的价值,而是两种范式在构建AI系统 时相互补充交织。 当前,我国数据产业整体进入发展"快车道",数据作为关键生产要素的价值日益凸显。依托于数据产业 支持的人工智能和AI模型的更高阶进化和迭代,对高质量数据的需求尤其迫切。 高质量数据集是基石 基于当前数据产业生态以及AI大模型的训练模式,借助哲学家维特根斯坦的" ...
OpenAI:预计今年ChatGPT收入近100亿美元|首席资讯日报
首席商业评论· 2025-09-07 04:09
辛巴调查传闻 - 辛选集团创始人辛巴被报道遭相关部门带走调查并前往香港 但集团相关人士回应称消息不属实 [2] 文化传播与国际合作 - 中国影片《南京照相馆》于9月5日在英国两大主流院线"电影世界公司"和"奥迪恩"上映 影片被英国发行方欧洲时报英国分社评论为超越单一文化圈层 成为不同背景群体对战争记忆和历史真相的共同对话 [3] AI计算与技术创新 - 中科曙光协同AI芯片、AI整机、大模型等20多家产业链上下游企业 在2025世界智能产业博览会上发布国内首个AI计算开放架构 推出AI超集群系统 单机柜支持96加速卡、百P级AI算力 最大可实现百万卡大规模扩展 [4] - 依托国家先进计算产业创新中心启动"AI计算开放架构联合实验室"建设 [4] 资本市场与监管动态 - 十四届全国政协经济委员会副主任易会满因涉嫌严重违纪违法接受中央纪委国家监委纪律审查和监察调查 [5] - 易会满2019年1月至2024年2月执掌中国证监会5年 任期内A股20次跌破3000点(收盘价) [6] 科技行业动态 - 美国总统特朗普在白宫宴请科技巨头 扎克伯格忘关麦向其道歉 坦言未准备好回答在美国投入资金的具体数字问题 [7] - 2025可信数据空间高质量数据集生态大会发布首批85个高质量数据集建设清单 涉及汽车领域新能源汽车动力电池安全测评、智能驾驶算法研发等数据集 以及低空经济领域天目星座全球大气海洋遥感、低空城市安全巡检卫士等数据集 [8] - 小米集团公关部总经理王化回应"30万小时手机测试" 称是千台测试机累计时长 为行业标准说法 [9] - OpenAI预计2030年收入将比此前预测高出约15% 今年预计通过ChatGPT实现近100亿美元收入 总营收达130亿美元 今年预计消耗超过80亿美元 比此前预测高出约15亿美元 [10] 企业并购与投资 - 美国医疗健康投资公司Patient Square Capital正考虑收购医疗保健公司PREMIER [11] 加密货币与金融 - 特朗普家族发行加密货币敛财50亿美元 美国民主党参议员伊丽莎白·沃伦指责其未能兑现降低通胀承诺 家族财富因此增加数十亿美元 [11] 个人财富与体育 - 巴西亿万富豪将全部遗产赠予足球巨星内马尔 遗产价值超过10亿美元 内马尔团队回应称尚未收到正式通知 [12] 网络平台与内容监管 - 反诈老陈回应快手账号被封 原因为"攻击、抹黑其他主播" 表示不后悔也不怕 以后还继续喊话 [13]
首批85个高质量数据集建设清单发布
证券时报网· 2025-09-06 02:48
人民财讯9月6日电,据重庆日报,9月5日,2025可信数据空间高质量数据集生态大会在重庆开幕。大会 上发布首批85个高质量数据集建设清单,启动2025高质量数据集建设先行先试工作(重庆)与可信数据空 间国家创新发展试点(重庆)项目。首批发布的85个高质量数据集建设清单涉及范围广。比如在汽车领 域,将加快建设新能源汽车动力电池安全测评、智能驾驶算法研发等数据集,为万亿级产业集群装 上"数据新引擎";在低空经济领域,将加快建设天目星座全球大气海洋遥感、低空城市安全巡检卫士等 数据集,构建空间感知能力,赋能城市高效化、精细化、智能化治理。 ...
时代风口 数据质变 引领智能文明新跃迁
证券时报· 2025-09-04 21:58
行业规模与交易现状 - 高质量数据集总量超过400PB 累计交易额接近40亿元[1] 技术演进与发展范式 - AI发展从粗放式数据投喂转向高质量数据集驱动 标志着从蛮荒阶段进入精耕细作阶段[1] - 高质量数据与AI形成"双轮驱动"共生关系 优质数据滋养AI进化 智能化AI反哺数据价值挖掘[1] 文化价值与社会治理 - 高质量数据集融入中华优秀传统文化 在数据底层注入文明价值观以消除文化偏见[2] - 深圳在征信和气象领域实践数据质量与社会治理深度结合[2] 潜在挑战与结构性风险 - 高质量数据可能加剧数字鸿沟 拥有优质数据的机构将垄断AI红利[2] - 数据分级分类与安全防护不到位时 高质量数据可能成为系统性风险放大器[2] 未来发展方向 - 需建立数据质量国家标准 推动跨域数据融合打破数据孤岛[3] - 在数据注智过程中嵌入人文精神 避免AI沦为纯功利工具[3]
时代风口 | 数据质变引领智能文明新跃迁
证券时报· 2025-09-04 18:53
行业规模与交易数据 - 高质量数据集总量超400PB 累计交易额近40亿元[1] 技术演进趋势 - AI发展范式从粗放式数据投喂转向高质量数据集驱动的精耕模式[1] - 数据与AI形成"双轮驱动"的共生关系 优质数据滋养AI进化 智能化AI反哺数据价值挖掘[1] - 高质量数据集建设标志着从"海量"到"高质"的产业变革 体现数字文明从量扩张转向质淬炼的必然路径[1] 文化价值与应用实践 - 高质量数据集作为数字时代"文化基因库" 需融入中华优秀传统文化价值观[2] - 深圳在征信和气象领域实现数据质量与社会治理深度结合的实践雏形[2] - 西方早期互联网数据存在文化偏见 当前建设注重用数据编码华夏智慧[2] 潜在挑战 - 高质量数据可能加剧数字鸿沟 拥有优质数据的机构将垄断AI红利[2] - 数据分级分类与安全防护不到位时 高质量数据可能成为系统性风险放大器[2] - 需通过数据政策兼顾效率与公平 避免优质数据成为少数主体私产[2] 未来发展路径 - 需建立数据质量国家标准体系 推动跨域数据融合打破数据孤岛[3] - 在数据注智过程中嵌入人文精神 避免AI沦为纯功利工具[3] - 推动数据有质有魂有温度 成为驱动人类进步的硬通货[3]
高质量数据集和AI共振 成为数据流通“硬通货”
中国新闻网· 2025-09-02 14:32
高质量数据集政策支持 - 国家多部门2024年12月印发指导意见 首次明确支持企业开发高质量数据集并发展数据即服务等新业态 [2] - 《高质量数据集建设指引》指出数据需求从量级积累转向量质并重 因应大模型参数规模指数级增长和多模态能力拓展 [2] 高质量数据集发展现状 - 截至2025年6月全国建设高质量数据集超3.5万个 总量超400PB [2] - 数据交易机构挂牌高质量数据集3364个 累计交易额近40亿元 规模达246PB [2] - 中国信通院院长指出全球大量私域数据释放是构成高质量数据集的重要方向 [2] 高质量数据集与AI发展关系 - 高质量数据集成为数据流通硬通货 因AI大模型训练需海量数据而面临数据短缺或依赖合成数据 [3] - 人工智能大模型与高质量数据集形成相辅相成双轮驱动格局 [3] - 数据建设质量和安全是大模型发展生命线 需完善分级分类安全制度并强化全流程技术防护 [3] 高质量数据集应用实践 - 深圳市通过公共数据资源授权运营和可信数据空间建设 支持公共与企业数据融合应用 [3] - 在征信金融、气象、商保理赔等领域开展试点并取得较好成效 [3]
江苏发布首批高质量数据集重点领域建设清单
新华日报· 2025-09-01 23:24
高质量数据集建设清单 - 江苏发布首批高质量数据集重点领域建设清单 涉及工业制造 交通运输 医疗健康等16个重点领域以及通用大模型 数据跨境等其他领域 [1] - 通过搭建高质量数据集"创新场景" 助力人工智能大模型技术创新 场景应用和产业生态繁荣 [1] 医疗健康领域应用 - 卫生健康信息数据集综合医疗门诊 住院 检验检查 影像 药品及耗材使用 健康档案管理等医疗和公共卫生功能于一体 [1] - 该数据集为卫生健康分析及决策支持 疾病监测及预防控制 临床辅助决策支持 公共卫生应急响应 医疗质量监控提供智慧支撑 [1] 人力资源领域应用 - 人力资源社会保障行业数据集汇集个人社保缴纳信息 企业社保缴纳信息 职业资格证书信息 劳动仲裁信息 劳动监察信息 [1] - 数据集赋能公共服务精准惠民和信用评价体系建设 [1]
江苏发布高质量数据集重点领域建设清单
新华日报· 2025-09-01 22:36
核心观点 - 江苏省发布高质量数据集重点领域首批建设清单 覆盖16个重点领域及其他创新领域 旨在通过搭建高质量数据集"创新场景" 助力人工智能大模型技术创新 场景应用和产业生态繁荣 [1] 重点领域覆盖 - 清单涉及工业制造 交通运输 医疗健康 科学研究 金融服务 文化旅游 城市治理 人力资源 绿色低碳 农业农村 智慧能源 教育教学 商务领域 应急管理 气象服务 公共安全等16个重点领域 [1] - 除16个重点领域外 还涵盖通用大模型 数据跨境 政务服务等其他领域的高质量数据集 [1] 具体应用场景 - 医疗健康领域的"卫生健康信息数据集"综合医疗门诊 住院 检验检查 影像 药品及耗材使用 健康档案管理 慢性病管理 老年保健等医疗和公共卫生功能 为卫生健康分析及决策支持 疾病监测及预防控制 临床辅助决策支持 公共卫生应急响应 医疗质量监控提供智慧支撑 [1] - "人力资源社会保障行业数据集"汇集个人社保缴纳信息 企业社保缴纳信息 职业资格证书信息 劳动仲裁信息 劳动监察信息 赋能公共服务精准惠民和信用评价 [1]