山东文化数据标注平台

搜索文档
山东数文集团两款大模型亮相全省“人工智能+”创新应用工作会议
齐鲁晚报网· 2025-09-17 12:00
公司产品与技术成果 - 山东数字文化集团自主研发齐鲁文化大模型 以先进算法为底座 以自建山东文化数据库为核心训练语料 以自研多模态内容风控平台为安全保障 形成完全可控的多模态生成式人工智能模型[2] - 齐鲁文化大模型获得国家网信办双备案 被写入2025年省政府工作报告和数字强省建设工作要点 入选山东省重大科技创新工程 获批国家技术发明专利21个 牵头或参与制定相关标准5个 今年9月V2.0版本通过中国信通院文化大模型专项评估获5级评级[2] - 公司联合人民网 山东省社科联 山东社会科学院 尼山世界儒学中心 山东大学儒学高等研究院等单位共同打造孔子数智大模型 具备自然语言对话 经典智慧解读 智能文献检索 学术理论研究 多模态人机交互和知识图谱编织等核心功能[3] - 公司通过山东文化数据标注平台实现问答对 图谱 文本 图片 音视频等多模态数据的采集 清洗 标注 加工一站式全链路服务 牵头构建全国首个主流文化语料库[4] 行业应用与战略定位 - 公司作为人工智能+文旅代表性企业 肩负贯彻落实国家文化数字化战略和山东文化强省 数字强省战略职责 是山东文化产业算力网络 数据贯通 科技研发 应用呈现 多元服务的核心运营主体[1] - 齐鲁文化大模型作为全省文化数字化数据和技术基座 是落实文化数字化战略的重要基础工程 被定义为数字化时代文化领域重大新基建[2] - 孔子数智大模型通过多语种转换和跨文化适配技术推动儒家文化全球传播 提升文化对外开放水平[3] - 公司联合文化单位和高校共同打造规模庞大 标准统一 结构完整 权威准确 开放共享的文化领域高质量数据集 推动AI模型性能跃迁与文旅产业发展[4] 创新成果展示 - 公司在全省人工智能+创新应用工作会议现场展示独立研发的齐鲁文化大模型和孔子数智大模型两款产品[1] - 全息仓数字人鲁韵依托壹点天成数字人平台打造 成为3D超写实数字人 基于齐鲁文化大模型实现对齐鲁文化的全面解读[1] - 孔子数智大模型归集孔子相关各类数据 通过AI+人工方式完成数据清洗标注 形成孔子学术研究 孔子画像等多个高质量数据集[3] - 公司将继续推进山东省文化数字化行动计划 探索文化和科技融合机制 深化文化体制机制改革 引领山东文化两创开启新篇章[4]
主流文化语料库将为数文产业发展带来什么
齐鲁晚报· 2025-08-26 03:10
语料库建设背景与政策支持 - 高质量数据集是人工智能大模型训练的核心资源 与算法和算力并称为"三驾马车" [2] - 2025年2月高质量数据集建设工作启动会在京召开 会议落实"人工智能+"行动 [2] - 国家数据局局长刘烈宏2025年3月表示将充分调动社会力量推动高质量数据集建设 持续增加数据供给 [2] 主流文化语料库定义与特点 - 通过标准化分类系统和专业标注平台解决格式不统一、质量不齐等问题 [3] - 具备准确性、完整性、丰富性、一致性和时效性五大特征 [3] - 一期聚焦山东优秀文化 已上线5万对问答语料和2000万篇基础语料 [3] - 正在建设孔子学术研究、孔子画像等多个高质量数据集 [3] 语料库应用价值 - 增强AI对行业术语和场景化表达的理解力 提升应用效能 [3] - 加速AI技术与垂直领域的深度融合 驱动产业升级 [3] - 推动文化大模型性能跃迁和数字文化产业高质量发展 [3] 数据标注平台功能 - 提供数据采集、清洗、预标注、标注、增强、审核等一站式全链路服务 [5] - 支持问答、图片、视频、音频、文件、图谱等多类型数据标注 [5] - 采用标准化流程:数据采集归集→清洗筛选→自动标注→人工精校审核 [5] 平台技术优势 - 构建高效无缝衔接的数据处理闭环 各流程兼顾用户导向与智能驱动 [6] - 支持多人协作上传和标注 智能清洗保证数据不重复 [6] - 专有AI识别映射关系体系使关系梳理一目了然 [6] - 支持一键发布至目标大模型 实现模型能力即时更新与增强 [6] 战略规划与发展目标 - 贯彻落实国家文化数字化战略和山东文化强省建设要求 [4] - 2027年底前在省内建设5个成效明显、特色鲜明的数据标注基地 [4] - 平台面向全社会免费开放 旨在构建包容开放共享的AI语料新生态 [7] - 后续将推出山东文化数据交易平台 提供文化数据集交易服务 [7]
全国首个主流文化语料库上线,推动数字文化产业高质量发展
齐鲁晚报网· 2025-08-25 08:39
合作签约与项目背景 - 山东数字文化集团与人民网正式签约共建主流文化语料库 项目推进会于8月25日在济南举行 [1] - 高质量语料库是生成式人工智能技术的关键支撑资源 对行业大模型训练和应用至关重要 [1] - 国家政策明确支持文化领域人工智能高质量数据集建设 包括2024-2026年数据要素三年行动计划和2025年文化高质量发展经济政策 [1] - 山东省2025年6月政策明确支持文化大模型开源利用 要求建设文化领域高质量数据集和语料库 [1] 语料库资源与特点 - 语料库整合人民网 大众报业集团等党媒权威资源 以及省内文化单位高校优质私域文化资源 [1] - 通过数据采集 清洗 预标注 标注 增强 审校等环节 采用AI加人工方式打磨形成 [1] - 语料库具有标准统一 结构完整 权威准确 开放共享特色 解决AI大模型敏感领域语料欠缺等问题 [1] - 作为全国首个主流文化语料库 一期聚焦山东优秀文化 已上线问答语料5万对和基础语料2000万篇 [2] - 正在打造孔子学术研究 孔子画像等多个高质量数据集 计划分期分批建设覆盖广泛的内容 [2] 技术平台与数据服务 - 集团自主研发山东文化数据标注平台 提供一站式全链路服务包括采集清洗标注增强审核等 [4] - 平台支持问答 图片 视频 音频 文件 图谱等多类型数据标注 标注后语料可一键发布到大模型 [4] - 标注平台将面向全社会免费开放 助力文化单位高校企业打造高质量数据集 [4] - 集团将推出山东文化数据交易平台 提供文化数据集交易服务 推动数据要素流通与资产变现 [4]
主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?
齐鲁晚报网· 2025-08-25 08:39
语料库建设的必要性 - 高质量数据集是人工智能大模型训练的基础性关键资源 在算法趋同和算力普惠背景下成为核心竞争力[1] - 2025年2月27个国家部委代表参加高质量数据集建设工作启动会 推动"人工智能+"行动[2] - 国务院办公厅2025年1月提出建设文化领域人工智能高质量数据集 支持文化领域大模型建设[2] - 山东省2025年6月政策明确支持建设文化领域人工智能高质量数据集和语料库[2] 主流文化语料库特点 - 依托人民网 大众报业集团等权威媒体资源及省内文化单位 高校优质私域文化资源构建[3] - 通过标准化分类系统和专业标注平台解决格式不统一 质量不齐等问题[3] - 一期已上线5万对问答语料和2000万篇基础语料[4] - 重点打造孔子学术研究 孔子画像等多个高质量数据集[4][9] 技术平台与数据处理 - 自主研发山东文化数据标注平台 提供数据采集 清洗 预标注 标注 增强 审核全链路服务[7] - 支持问答 图片 视频 音频 文件 图谱等多类型数据标注[7] - 采用AI增强功能实现问题泛化和答案多样性 如"孔子出生地"可扩展多种问法[15] - 平台支持自动去重 智能筛选低质量样本 提升处理效能[12] - 配备AI识别映射关系体系 可自动识别历史名人家庭 朋友 事业等关系网络[12] 具体应用案例 - 孔子研究高质量数据集归集数千篇专业文献与著作 20余名专家深度文本挖掘[9] - 从5000多张图片资料中标注上千张孔子画像 详细标注创作年代 背景用途 风格材质等信息[9] - 数据处理完毕后支持一键发布至目标大模型 实现模型能力即时更新与增强[15] 发展战略与行业影响 - 山东省计划2027年底前建设5个成效明显 特色鲜明的数据标注基地[6] - 平台面向全社会免费开放 推动语料资源开源共享[15] - 公司将推出山东文化数据交易平台 提供文化数据集交易服务[15] - 项目助力区域及垂类产业数字经济高质量发展[2]