Workflow
2024-2000年上市公司企业数据资产化指数测算数据、数据资产词频数据
搜狐财经·2025-07-24 05:22

数据资产化指数测算方法 - 基于1999-2024年上市公司年报文本构建面板数据,统计全文及中英文部分文本长度,并通过Python的jieba库进行分词处理,去除停顿词后统计221个数据资产相关词汇(包括自用型和交易型)的词频 [1] - 采用数字化术语词典扩充方法,覆盖"数据安全等级"、"数据人工智能"、"数据赋能"等细分领域词汇,停用词库包含1582个无效词汇 [2] - 样本覆盖5700多家企业共6.8万条数据,包含原始词频统计、运行视频及验证文件,确保数据可追溯性 [1][2] 数据特征分析 - 某上市公司案例显示:2024年数据资产化指数为61,年报总词数达70402字,数字技术创新相关词频为1次,其他数字治理/运营指标均为0 [3] - 历史趋势显示:2013-2024年数据资产化指数从20提升至61,同期年报文本长度增长53%(从45811字至70402字),数字技术创新词频从0次增至3次(2020-2022年) [3] - 早期阶段(2001-2008年)数据资产化指数长期低于25,年报词数维持在24872-55364字区间,所有数字化细分指标均为0 [3] 研究基础与验证 - 方法学源自《中国工业经济》何瑛团队研究,证实数据资产化对缓解"专精特新"企业融资约束的作用 [1][4] - 提供完整处理流程记录,包括39个初始文件处理、489-1292条/年的样本量分布,以及CSV格式的中间结果输出 [2] - 区别于行业常见的插值法,该研究采用原始年报文本逐条分析,强调"信息资源共享"、"数据清洗"、"数据算法"等221个核心词汇的精确统计 [1][2]