1998～2014 年工企海关匹配结果

前不久给大家分享过工企地理位置信息数据和海关地理位置信息数据：

工企地理位置：1998～2014 年工业企业数据库地理位置数据（含经纬度、所处省市区县、南北方属性以及距离秦岭淮河线的距离）
海关地理位置：2000～2016 年海关地理信息数据（含经纬度及其所处的省市区县）

今天我们分享一份工企与海关数据的匹配结果，借鉴相关文献，工企与海关的匹配可以分为下面 5 个步骤：

清洗工企数据库里面的企业名称、邮政编码和固定电话变量（等下要用这三个变量进行匹配）；
清洗海关数据库里面的企业名称、邮编和电话变量；
在工企数据库里面生成一个 ID 变量用以在匹配过程中识别每个观测值，然后只保留企业名称、邮政编码和固定电话、年份、ID 几个变量（这样可以避免因为数据过大导致匹配过程过慢）；
对海关数据库进行汇总（例如只需要每个公司每年的进出口额的话）；
匹配海关和工企数据然后再根据 ID 变量把工企数据库的其它变量也合并进来。

关于这五个步骤的代码实现，可以学习我们之前推出的 Stata 课程：「如何匹配海关和工企数据？」：

如何匹配中国工业企业数据库和海关数据库？以 2013 年为例：https://rstata.duanshu.com/#/brief/course/5463b8d7afcb438ca1e537fa76c1a45d

这次分享的数据包含下面两种版本的：

先把海关数据汇总成每个公司的进出口额数据，然后和工企数据匹配的结果数据（下面称为汇总版本，其观测值是一个个的公司）；
直接把海关数据和工企数据进行匹配（下面称为完整版本，其观测值是一条条的商品）。

两个版本的结果数据使用的匹配方法是一样的，但是由于细微的差异，结果也有细微的差异，下表展示的是匹配效果。工企数据库中的工企数量 列展示的是匹配使用的工企数据库的每年样本数；汇总版本涉及的工企数量 列展示的是汇总版本匹配结果中涉及的工企数量，最后一列是匹配率（汇总版本涉及的工企数量 / 工企数据库中的工企数量）：

年份	工企数据库中的工企数量	汇总版本涉及的工企数量	匹配率
2000	162872	22310	13.7%
2001	171254	26446	15.4%
2002	181542	29943	16.5%
2003	196206	34096	17.4%
2004	279011	52966	19.0%
2005	270023	53475	19.8%
2006	301930	61467	20.4%
2007	336732	89237	26.5%
2008	412212	73364	17.8%
2009	366130	64562	17.6%
2010	442539	77420	17.5%
2011	302593	59789	19.8%
2012	324604	79824	24.6%
2013	344875	83893	24.3%
2014	309138	60068	19.4%