使用 Stata 分析中国新冠肺炎疫情数据!

使用 Stata 分析中国新冠肺炎疫情数据!

之前不少小伙伴在群里说自己想学习 Stata 数据处理,今天就放个大招,我们使用 Stata 分析下中国的疫情数据。

数据获取

获取疫情数据的方式很多,下面的分析中我使用的是从 CSSEGISandData/COVID-19: Novel Coronavirus (COVID-19) Cases, provided by JHU CSSE 下载的疫情数据。所有分析中使用的数据我都已经放在了附件中,下载即可学习。

下面我们首先读取处理这三个数据:

  • time_series_covid19_confirmed_global.csv
  • time_series_covid19_deaths_global.csv
  • time_series_covid19_recovered_global.csv

每个文件都包含了世界各国各省/州的数据,今天我们只分析中国的。

从知识星球下下载附件即可学习本文:https://t.zsxq.com/EmU7m66

可视化分析

各个省的现存确诊人数变化曲线图

首先我们可以做的一个分析就是观察每天各个省现存确诊人数的变化:

这样太乱了,我们可以选择几个省观察:

实际上我们知道面板数据可以使用 xtline 命令快速绘制分面图:

或者可以使用 xtline 的 overlay 选项:

如果你想要更美观的效果,可以把湖北省的去掉。

中国每天的总数

下面我们再绘制一幅之前我们绘制过的图,只不过这一次是中国版本的:

当前确诊人数与每日新增确诊人数

死亡和治愈病例数量

病死率

病死率的计算需要非常谨慎,因为我们要考虑状态未决的观测值的问题。有两种情况:情况一,正在治疗的患者都不幸去世了;情况二:正在治疗的患者都非常幸运的存活了。

在情况一中,使用我们的数据集计算得到的病死率低于真实的病死率,因为:

$$\frac{病死人数}{治愈数 + 病死数} \leq \frac{病死人数 + 正在治疗的病例}{治愈数 + 病死数 + 正在治疗的病例}$$

在情况二中,使用我们的数据集计算得到的病死率高于真实的病死率,因为:

$$\frac{病死人数}{治愈数 + 病死数} \geq \frac{病死人数}{治愈数 + 病死数 + 正在治疗的病例}$$

所以估计病死率我们应该使用区间估计,区间上限对应的病死率是情况一的病死率,区间下限对应的病死率是情况二。还有一个病死率的测度是每日的病死率:

$$每日病死率 = \frac{当日病死人数}{当日病死人数 + 当日治愈人数}$$

地理分布

绘制地图可以使用我之前介绍过的方法。

总确诊人数:

现存确诊人数分布:

还可以绘制一幅地图 + 饼图展示各个省的治愈比例和死亡比例:

知识星球附件链接:https://t.zsxq.com/EmU7m66

#

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×