2000~2022 年中国县域统计年鉴的数据

之前给大家分享过 2000~2021 年中国县域统计年鉴的数据,2000~2021 年中国县域统计年鉴里面的数据实际上是 1999~2020 年的,包含乡镇卷和县市卷,乡镇卷里面的数据不全,使用价值不大,所以仅仅整理了县市社会经济指标:

  1. 1999~2020年县市社会经济指标.xlsx
  2. 1999~2020年县市社会经济指标.dta

需要注意县域统计年鉴并不包含市辖区的数据,仅仅包含大概 2000 多个县的数据。

最近又给大家分享了 2022 年县域统计年鉴的原始数据和整理课程:

  1. 如何整理 2022 年县域统计年鉴:caj 文件转 pdf、文本识别与数据清洗:https://rstata.duanshu.com/#/brief/course/59fbd94072c844d985f0f4fcdbd4c40e
  2. Stata:如何为区县名称添加行政区划代码:https://rstata.duanshu.com/#/brief/course/ff44f63581e94d58bdee05c6998a5a6c

按照上面两个课程的整理方法即可得到 2022 年县域统计年鉴中的县市社会经济指标数据了,然后把处理得到的数据和 1999~2020年县市社会经济指标.dta append 起来即可得到 1999~2021 年的面板数据了。

数据概况

  1. 时间范围:1999~2021 年;
  2. 变量数:67;
  3. 面板格式。

下面选择 2020 年 户籍人口_人一般公共预算收入_万元一般公共预算支出_万元 三个变量进行绘图展示:

2020 年中国各区县(含县级市)年末户籍人口

2020 年中国各区县(含县级市)一般公共预算收入

2020 年中国各区县(含县级市)一般公共预算支出

上图中部分缺失值使用了该县所处省份的均值进行了填补。该数据里面并没有市辖区的数据(市辖区的数据在城市统计年鉴中),数据里面的区是之前的县改的。

很久之前就出过一个直播课程讲解如何整理县域统计年鉴数据:

县域统计年鉴是如何整理的?Stata 和 R 齐上阵!:https://rstata.duanshu.com/#/brief/course/ce084094d5ac4a9cbd5fd61960545f47

这一次为了方便大家进行数据核对,还在附件中提供了处理过程和原始数据:

大家在使用过程中遇到的问题可以和原始数据比对下看看是处理的问题还是原始数据就有问题。

行政区划代码

为了方便使用,我把数据中的行政区划(省、省代码、市、市代码、县、县代码)统一到了 2020 年,不过有一些县早已撤销或者合并到其他区县,这些县使用其被撤销年份的行政区划代码,例如:

  • 南汇区:2008 年区划代码
  • 畹町市:1998 年区划代码
  • 陶乐县:2002 年区划代码
  • 长岛县:2019 年区划代码
  • 吴县:2000 年区划代码
  • 江浦县:2001 年区划代码

所以上面的地图也是使用县代码变量和县级地图数据合并绘制的,相关代码也可以从附件中找到。

注意事项

  1. 为了跨年份连接数据,我把不同年份相似的指标(可能统计口径不完全一样)重命名成一样的名称,对于细致的研究请注意自行修正这种问题;
  2. 由于各年的统计指标并不完全一致,有些指标只有部分年份有,所以缺失严重;
  3. 为了方便大家使用,我给数据添加了省、省代码、市、市代码,使用的是 2020 年中国各省市区县行政区划代码,不过有部分县级市已经取消合并了,使用的是 早年的行政区划代码,如上文所述。
  4. 另外统计年鉴并不是没有错的,实际上包含了很多数据错误和错字!所以大家使用的适合如果发现可错误或者不合理的数据,很可能是统计年鉴的错误,并非整理的错误(当然整理错误也可能有),替换成缺失值即可。