在之前的课程「如何整理 2022 年县域统计年鉴:caj 文件转 pdf、文本识别与数据清洗」中我们讲解了如何从 caj 文件中提取表格数据的方法,今天我们再来学习下如何根据区县名称匹配行政区划代码,另外在该过程中还可以检查区县名称的识别错误。最后我们再使用整理得到的数据绘制一幅区县地图。
首先我们使用上次课的代码处理“整理结果3.xlsx”:
cd "~/Desktop/Stata:如何为区县名称添加行政区划代码" |
由于之前我分享的县域统计年鉴数据都是使用的 2020 年行政区划代码,所以这次我们也同样。
2020 年行政区划代码可以从地理矢量数据得到(为了方便绘制地图):
*- 由于之前的县域数据都是使用的 2020 年行政区划代码,所以这次我们依然使用 2020 的: |
首先匹配下看看能成功多少:
use data4, clear |
可以看到很多是由于空格和杂乱字符导致的匹配失败,所以我们先去除:
use data4, clear |
可以看到这个时候匹配不成功的(_merge==1
)就不是很多了,下面我们需要结合百度和 countycode1.dta 来逐个检查修正:
*- 然后就要一个个修改了 |
然后重新匹配试试:
*- 重新匹配试试 |
然后我们再对变量进行重命名(和之前年份的保持一致):
use data5, clear |
最后如果你想把该数据和之前年份的合并起来,只需要 use 之前年份的数据,然后 append using "2021年县市社会经济指标.dta"
即可。
最后我们再使用该数据绘制一幅区县地图:
*- 把 “2021年县市社会经济指标.dta” 文件放到 “使用Stata绘制中国县级地图(版本2020mini)” 文件夹里面: |