东方财富网消费者信心指数指数爬取与 2020 年 2 月中华人民共和国县以上行政区划代码爬取

东方财富网消费者信心指数指数爬取与 2020 年 2 月中华人民共和国县以上行政区划代码爬取

前面的三次课我们大致的了解了 Stata 编程中的一些基本元素和常用命令,实际上这些也是实际应用中最为常用的。正如我上次课的最后说的,最常用也就是那二三十个命令,掌握熟练了就能够脱离 Excel 了。今天我们就通过一个案例来练习前三次课我们讲过的一些命令,大家也可以在学习的时候留意一下我们一共用了多少个 Stata 命令。

今天我们学习的案例是个网络数据爬取案例,也即是爬虫,我们要爬取的是 东方财富网上的消费者信心指数数据:http://data.eastmoney.com/cjsj/hgjck.html 之所以爬取这个是因为群里恰好有个小伙伴问到了如何获取消费者信心指数,就是这里了。

爬虫的本质是网络数据请求(下载下来)和数据处理(只不过我们这个时候处理的是 HTML、JSON 等格式的数据),所以我一直建议大家关注数据处理。

单页数据爬取

这些代码不好通过文字解释,因此我这里直接把代码贴过来,大家可以对照着视频讲解学习:

中间的部分去哪了?

完整的讲义材料可以在加入我的知识星球(线上培训班)后从知识星球下载附件获取~
要了解如何加入,可以阅读关于界面或者添加我的微信咨询。

多页爬取

我们注意到这个表格一共有 9 页(2020年7月3日),我们可以写个 forval 循环将后面的表格用同样的方法爬取 append 起来:

中间的部分去哪了?

完整的讲义材料可以在加入我的知识星球(线上培训班)后从知识星球下载附件获取~
要了解如何加入,可以阅读关于界面或者添加我的微信咨询。

绘图展示

我使用的是 qlean 主题,关于 Stata 中绘图主题的选择,大家可以参考:这里有 82 个 Stata 绘图主题,你最喜欢那个呢?

中间的部分去哪了?

完整的讲义材料可以在加入我的知识星球(线上培训班)后从知识星球下载附件获取~
要了解如何加入,可以阅读关于界面或者添加我的微信咨询。

作业

从经济数据一览的列表里选择任意一个数据进行爬取和展示。

爬取 2020 年 2 月中华人民共和国县以上行政区划代码

该数据的地址是:http://www.mca.gov.cn/article/sj/xzqh/2020/2020/202003301019.html

爬取代码类似:

中间的部分去哪了?

完整的讲义材料可以在加入我的知识星球(线上培训班)后从知识星球下载附件获取~
要了解如何加入,可以阅读关于界面或者添加我的微信咨询。

是不是也非常简单!

知识星球附件链接:https://t.zsxq.com/2Nvf6Mv

#

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×