Stata版本:谁在管理我们的国家?——2019年全国人民代表大会数据分析与可视化

Stata版本:谁在管理我们的国家?——2019年全国人民代表大会数据分析与可视化

之前有一个小项目作业是一个探索性数据分析的案例。

CGTN 的网站上有一个非常炫酷的项目,是关于 2019 年的全国人民代表大会参会人大代表数据的一个可视化:https://news.cgtn.com/event/2019/whorunschina/index.html 里面从下面的角度探索了这个数据的一些特征:

  1. 参会人员数量:2975 人;
  2. 男女比例:男性 2233 人,女性 742 人;
  3. 年龄分布,90 后 28 个人;
  4. 民族分布:汉族 2538 人;
  5. 学历分布:硕士最多,836 人;
  6. 学科分布:看起来还是经管专业的人最多;
  7. 党派分布:CPC 最多,2172 人;

后面还有好几张图我没有整理数据,所以我们先关注前 7 个图。本次的作业就是对我提供的 NPC.csv 数据进行探索性数据分析。

作业

本周的作业就是对我提供的 NPC.csv 数据进行探索性数据分析,绘制出 7 幅图表并作出一定的解读。

分析工具任选,推荐使用 R、Stata 和 Python;

如果你打算使用 R 语言,可以参考下面的 tips:

  1. 数据处理包:dplyr
  2. 绘图包:ggplot2
  3. 绘制华夫图:waffleggwaffle
  4. 绘制树图:treemapify
  5. 绘制桑基图:sankeywheelggalluvial
  6. 绘制地图:hchinamap、ggplot + sf
  7. 绘制席位分摊图:ggparlggparliamentggpol

Happy Tidying Data on Friday ~

参考结果

首先把数据读入 Stata:

1
2
clear all
import delimited using "NPC.csv", clear encoding(utf8)

概览数据:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
des

*> Contains data
*> obs: 2,975
*> vars: 25
*> size: 1,383,375
*> -----------------------------------------------------------------------------------
*> storage display value
*> variable name type format label variable label
*> -----------------------------------------------------------------------------------
*> delegation str59 %59s Delegation
*> partisan str53 %53s Partisan
*> 党派 str21 %21s
*> name str41 %41s Name
*> 姓名 str43 %43s
*> gender str6 %9s Gender
*> 性别 str3 %9s
*> birthyear int %8.0g Birth year
*> age byte %8.0g Age
*> generation str5 %9s Generation
*> 年代 str5 %9s
*> ethnicity str9 %9s Ethnicity
*> 民族 str15 %15s
*> birthplace str14 %14s Birthplace
*> 籍贯 str9 %9s
*> region str44 %44s Region
*> 区域 str9 %9s
*> subjectdepart~t str30 %30s Subject Department
*> 专业分类 str12 %12s
*> major str18 %18s Major
*> 人文社科拆后~业 str9 %9s
*> educationalba~d str29 %29s Educational background
*> 学历 str15 %15s
*> everstudiedab~d str7 %9s Ever studied abroad
*> 海外留学经验 str6 %9s
*> -----------------------------------------------------------------------------------
*> Sorted by:
*> Note: Dataset has changed since last saved.

总人数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
/* 总人数 */
count

*> 2,975

/* 查看上面的命令的返回值 */
ret list

*> scalars:
*> r(N) = 2975

di as result "2019年全国人民代表大会一共 `r(N)' 名代表。"

*> 2019年全国人民代表大会一共 2975 名代表。

每个代表团的总人数

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

但是上面的结果只能看看,很难在后面的程序中使用,如果想生成每个代表团的人数数据,可以这样:

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

我们可以绘制一幅条形统计图展示人数最多的九个代表团:

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

如果我们想让柱条从高到低排列,我们在生成 delegation2 变量的时候就要麻烦点了:

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

如果我想给每个柱条上不同的颜色该如何操作呢?方法就会一个个柱条的画:

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

性别、年龄分布

性别年龄分布我们可以一起来看:

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

可以看出,60 后是 NPC 的核心,90 后中女性的数量多于男性。人大代表们的平均年龄是 53.77 岁。其中,1672 名代表出生于 20 世纪 60 年代,占总数的一半以上。另外我们还可以看到,代表们越年轻,性别比例越均衡。

是不是觉得女性的比例很少?实际上近几届人大会议上女代表的比例正在稳步上升:

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

民族分布

中国是个有着 56 个民族的多民族国家,55个少数民族 + 汉族,那么人大代表中有多少个民族呢?

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

其中汉族人 2538 人,占总数的 85%。

学历分布

不用想就知道人大代表们的学历应该都挺高的:

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

学科分布

全国人大代表的专业背景怎么样?根据中国教育部的专业分类,管理科学,哲学,文学,历史,教育,艺术,经济,法律和军事科学属于人文社会科学 ; 而科学,工程,农业和医学是自然科学。

代码去哪了?

代码可以加入我的知识星球后从知识星球下载附件获取~
要了解如何加入我的知识星球,可以阅读关于界面或者添加我的微信咨询。

大概完成作业了!大家有任何疑问欢迎在知识星球和微信群里进行提问!

知识星球附件链接:https://t.zsxq.com/qV7eQJq

#

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×