2000~2013年工企与海关匹配结果

2000~2013年工企与海关匹配结果

经过几个星期的努力,终于把 2000~2013 年中国工企数据库与海关数据库匹配完成了!上周已经把 2008~2013 年的分享给大家了:2008~2013 年工企与海关匹配结果数据。这两份数据的匹配完全使用 Stata 操作,总的来说工企和海关数据库的匹配包含下面五个步骤:

  1. 清洗工企数据库里面的企业名称、邮政编码和固定电话变量(等下要用这三个变量进行匹配);
  2. 清洗海关数据库里面的企业名称、邮编和电话变量;
  3. 在工企数据库里面生成一个 ID 变量用以在匹配过程中识别每个观测值,然后只保留企业名称、邮政编码和固定电话、年份、ID 几个变量(这样可以避免因为数据过大导致匹配过程过慢);
  4. 对海关数据库进行汇总(例如只需要每个公司每年的进出口额的话);
  5. 匹配海关和工企数据然后再根据 ID 变量把工企数据库的其它变量也合并进来。

关于这五个步骤的代码实现,可以学习我们之前推出的 Stata 课程:「如何匹配海关和工企数据?」:

和上次一样,这次分享的数据也包含下面两种版本的:

  1. 先把海关数据汇总成每个公司的进出口额数据,然后和工企数据匹配的结果数据(下面称为汇总版本,其观测值是一个个的公司);
  2. 直接把海关数据和工企数据进行匹配(下面称为完整版本,其观测值是一条条的商品)。

两个版本的结果数据使用的匹配方法是一样的,但是由于细微的差异,结果也有细微的差异,下表展示的是匹配效果。工企数据库中的工企数量 列展示的是匹配使用的工企数据库的每年样本数;汇总版本涉及的工企数量 列展示的是汇总版本匹配结果中涉及的工企数量,最后一列是匹配率(汇总版本涉及的工企数量 / 工企数据库中的工企数量):

年份 工企数据库中的工企数量 汇总版本涉及的工企数量 匹配率
2000 162872 22310 13.7%
2001 171254 26446 15.4%
2002 181542 29943 16.5%
2003 196206 34096 17.4%
2004 279011 52966 19.0%
2005 270023 53475 19.8%
2006 301930 61467 20.4%
2007 336732 89237 26.5%
2008 412212 73364 17.8%
2009 366130 64562 17.6%
2010 442539 77420 17.5%
2011 302593 59789 19.8%
2012 324604 79824 24.6%
2013 344875 83893 24.3%

下图会更直观:

为了方便大家自行匹配,我们也给大家提供一份整理完好的海关数据(dta 格式),关于这份数据的描述可以参考这个:https://rstata.duanshu.com/#/course/eb62acd4e1bc4997802b7b5e6ac1f429

另外由于汇总版本的数据量较小,所以我们已经帮大家整理成了面板数据(除了匹配操作,没有对工企数据库的其它变量进行处理,大家需要根据自己的需要处理)。

面板数据预览

直接使用 xtset group year 即可设置面板数据。

为了更好的确认匹配数据的可靠性,我们计算了每年的进口总额和出口总额,如下图所示:

感觉连续性还不错!

另外这两份数据都非常大(总共大概是 359.73GB,另外海关数据是 165.93GB),已经拆分成了逐年的数据,可以直接使用 append 进行合并(Stata),数据格式是也是仅提供供 Stata 读取的 dta 格式。

下面再展示下部分的数据预览:

2007 年工企与海关匹配完整版

2006 年工企与海关匹配汇总版

获取数据

欢迎报名 RStata 培训班获取全部课程和数据资料(当然包含本文的数据了!)详情可阅读这篇推文:欢迎报名 RStata 培训班学习 R 语言、Stata、效率分析与计量经济学!赠送全部的数据资料!

详情可点击阅读原文进入 RStata 学院了解(从首页的会员卡专区即可查看和购买会员卡)。

更多关于 RStata 培训班的信息可添加微信号 r_stata 咨询:

2000~2013年工企与海关匹配结果

https://tidyfriday.cn/posts/63506/

作者

Painter

发布于

2021-05-29

更新于

2021-05-31

许可协议

评论