微信公众号 RStata

R 语言：如何为区县名称添加行政区划代码

2023-04-21T11:30:00.000Z

在之前的课程「R 语言：如何整理 2022 年县域统计年鉴：caj 文件转 pdf、文本识别与数据清洗」中我们讲解了如何从 caj 文件中提取表格数据的方法，今天我们再来学习下如何根据区县名称匹配行政区划代码，另外在该过程中还可以检查区县名称的识别错误。最后我们再使用整理得到的数据绘制一幅区县地图。

首先我们使用上次课的代码处理“整理结果3.xlsx”：

# 处理 “整理结果3.xlsx”
library(tidyverse)
readxl::read_xlsx("整理结果3.xlsx", col_names = LETTERS[1:12]) -> df 
df %>% 
  fill(A) %>% 
  dplyr::filter(!(is.na(D) & is.na(E) & is.na(F) 
                  & is.na(G) & is.na(H) & is.na(I)
                  & is.na(J) & is.na(K) & is.na(L))) %>% 
  mutate(B = str_remove_all(B, " ")) %>% 
  mutate(B = str_remove_all(B, ","),
         B = str_remove_all(B, "-"),
         B = str_remove_all(B, "\\."),
         B = str_remove_all(B, "~"),
         B = str_remove_all(B, "・"),
         B = str_remove_all(B, "，"),
         B = str_remove_all(B, "、")) %>% 
  dplyr::filter(!is.na(B) & B != "一、基本情况行政区域面积" & B != "一基本情况行政区域面积") %>% 
  mutate(B = if_else(B %in% c("提供住宿的民政服务机构床位数",
                              "提供住宿的民谢艮务机构床位数",
                              "提供住宿的民政0艮务机构床位数"),
                     "提供住宿的民政服务机构床位数", B),
         B = if_else(B %in% c("提供住宿的民呦艮务机构",
                              "提供住宿的民政^务机构",
                              "提供住宿的民斑艮务机构",
                              "提供住宿的民班艮务机构"),
                     "提供住宿的民政服务机构", B)) %>% 
  mutate(z = if_else(B == "指标", row.names(.), "")) %>% 
  mutate(z = as.numeric(z)) %>% 
  fill(z) %>% 
  select(-C) %>% 
  gather(D:L, key = "variable", value = "value")  %>% 
  spread(B, value) %>% 
  select(z, A, 指标, everything()) %>% 
  dplyr::filter(!is.na(指标)) %>% 
  select(-variable) %>% 
  type_convert() %>% 
  rename(省 = A, 县 = 指标) %>% 
  select(省, 县, 行政区域面积, 乡, 镇, 街道办事处, 户籍人口, 
         地区生产总值, 第一产业增加值, 第二产业增加值, 第三产业增加值, 
         地方一般公共预算收入, 地方一般公共预算支出, 住户存款余额, 
         年末金融机构各项贷款余额, 设施农业种植占地面积, 油料产量, 
         棉花产量, 规模以上工业企业, 固定电话用户, 普通中学在校学生, 
         小学在校学生, 医疗卫生机构床位, 提供住宿的民政服务机构, 
         提供住宿的民政服务机构床位数) -> df4 

df4 

#> # A tibble: 2,054 × 25
#>    省     县     行政区域面积    乡    镇 街道办事处 户籍人口 地区生产总值
#>                                   
#>  1 安徽省 肥东县         2182     6    12         NA    108.       8114070
#>  2 安徽省 肥西县         1695     4     8         NA     85.6     10186781
#>  3 安徽省 庐江县         2344    NA    17         NA    120        5471895
#>  4 安徽省 巢湖市         2046    NA    12          5     85.4      5231019
#>  5 安徽省 湾社区          650    NA     5         NA     35.4      3831248
#>  6 安徽省 长丰县         1841     2    12         NA     81.1      7619440
#>  7 安徽省 繁昌区          585    NA     6         NA     27.2      3641111
#>  8 安徽省 南陵县         1264    NA     8         NA     54.3      3206882
#>  9 安徽省 无为市         2022    NA    20         NA    119.       5770037
#> 10 安徽省 怀远县         2192     1    17         NA    134.       3562589
#> # ℹ 2,044 more rows
#> # ℹ 17 more variables: 第一产业增加值 , 第二产业增加值 ,
#> #   第三产业增加值 , 地方一般公共预算收入 ,
#> #   地方一般公共预算支出 , 住户存款余额 ,
#> #   年末金融机构各项贷款余额 , 设施农业种植占地面积 , 油料产量 ,
#> #   棉花产量 , 规模以上工业企业 , 固定电话用户 ,
#> #   普通中学在校学生 , 小学在校学生 , 医疗卫生机构床位 , …

由于之前我分享的县域统计年鉴数据都是使用的 2020 年行政区划代码，所以这次我们也同样。

2020 年行政区划代码可以从地理矢量数据得到（为了方便绘制地图）：

library(sf)
read_sf("2020行政区划/县.shp") -> county 
# 删除地理信息
county %>% 
  st_drop_geometry() %>% 
  select(-contains("类型")) -> countydb 

# 查看 省-县 的组合有无重复的
countydb %>% 
  group_by(省, 县) %>% 
  mutate(n = n()) %>% 
  arrange(desc(n)) %>% 
  ungroup() -> countydb 

# 这些重复的可能会影响下一步的匹配，所以先删除了
countydb %>% 
  filter(n <= 1) -> countycode1 
countycode1 
#> # A tibble: 2,862 × 7
#>    省     省代码 市     市代码 县     县代码     n
#>                
#>  1 安徽省 340000 安庆市 340800 大观区 340803     1
#>  2 安徽省 340000 安庆市 340800 怀宁县 340822     1
#>  3 安徽省 340000 安庆市 340800 潜山市 340882     1
#>  4 安徽省 340000 安庆市 340800 宿松县 340826     1
#>  5 安徽省 340000 安庆市 340800 太湖县 340825     1
#>  6 安徽省 340000 安庆市 340800 桐城市 340881     1
#>  7 安徽省 340000 安庆市 340800 望江县 340827     1
#>  8 安徽省 340000 安庆市 340800 宜秀区 340811     1
#>  9 安徽省 340000 安庆市 340800 迎江区 340802     1
#> 10 安徽省 340000 安庆市 340800 岳西县 340828     1
#> # ℹ 2,852 more rows

首先匹配下看看能成功多少：

# tidylog 包的 join 族函数可以显示匹配效果：
df4 %>% 
  tidylog::left_join(countycode1) 
#> # A tibble: 2,054 × 30
#>    省     县     行政区域面积    乡    镇 街道办事处 户籍人口 地区生产总值
#>                                   
#>  1 安徽省 肥东县         2182     6    12         NA    108.       8114070
#>  2 安徽省 肥西县         1695     4     8         NA     85.6     10186781
#>  3 安徽省 庐江县         2344    NA    17         NA    120        5471895
#>  4 安徽省 巢湖市         2046    NA    12          5     85.4      5231019
#>  5 安徽省 湾社区          650    NA     5         NA     35.4      3831248
#>  6 安徽省 长丰县         1841     2    12         NA     81.1      7619440
#>  7 安徽省 繁昌区          585    NA     6         NA     27.2      3641111
#>  8 安徽省 南陵县         1264    NA     8         NA     54.3      3206882
#>  9 安徽省 无为市         2022    NA    20         NA    119.       5770037
#> 10 安徽省 怀远县         2192     1    17         NA    134.       3562589
#> # ℹ 2,044 more rows
#> # ℹ 22 more variables: 第一产业增加值 , 第二产业增加值 ,
#> #   第三产业增加值 , 地方一般公共预算收入 ,
#> #   地方一般公共预算支出 , 住户存款余额 ,
#> #   年末金融机构各项贷款余额 , 设施农业种植占地面积 , 油料产量 ,
#> #   棉花产量 , 规模以上工业企业 , 固定电话用户 ,
#> #   普通中学在校学生 , 小学在校学生 , 医疗卫生机构床位 , …

查看匹配失败的：

# 查看匹配失败的 
df4 %>% 
  tidylog::anti_join(countycode1) 
#> # A tibble: 168 × 25
#>    省     县        行政区域面积    乡    镇 街道办事处 户籍人口 地区生产总值
#>                                      
#>  1 安徽省 湾社区             650    NA     5         NA     35.4      3831248
#>  2 安徽省 滩溪县            1982    NA    11         NA    114.       5407788
#>  3 安徽省 板阳县            1473     1    15         NA     78.7      1882758
#>  4 安徽省 夥县               857     3     5         NA      9.2       509979
#>  5 安徽省 扬山县            1197    NA    13         NA    101.       2544835
#>  6 重庆市 由日 忠县         2187     6    19          4     96.2      4885521
#>  7 重庆市 新都区             497    NA     2          7     85.6     10001115
#>  8 福建省 沙县区            1799     4     6          2     27.1      3544375
#>  9 福建省 龙海区            1320     2    11          1     91.2     12657788
#> 10 福建省 长泰区             900     1     4         NA     21.1      3752268
#> # ℹ 158 more rows
#> # ℹ 17 more variables: 第一产业增加值 , 第二产业增加值 ,
#> #   第三产业增加值 , 地方一般公共预算收入 ,
#> #   地方一般公共预算支出 , 住户存款余额 ,
#> #   年末金融机构各项贷款余额 , 设施农业种植占地面积 , 油料产量 ,
#> #   棉花产量 , 规模以上工业企业 , 固定电话用户 ,
#> #   普通中学在校学生 , 小学在校学生 , 医疗卫生机构床位 , …

可以看到很多是由于空格和杂乱字符导致的匹配失败，所以我们先去除：

df4 %>% 
  tidylog::mutate(县 = str_remove_all(县, "[\\s;:]")) -> df4 
然后再匹配：

df4 %>% 
  tidylog::anti_join(countycode1) 
#> # A tibble: 83 × 25
#>    省     县       行政区域面积    乡    镇 街道办事处 户籍人口 地区生产总值
#>                                     
#>  1 安徽省 湾社区            650    NA     5         NA     35.4      3831248
#>  2 安徽省 滩溪县           1982    NA    11         NA    114.       5407788
#>  3 安徽省 板阳县           1473     1    15         NA     78.7      1882758
#>  4 安徽省 夥县              857     3     5         NA      9.2       509979
#>  5 安徽省 扬山县           1197    NA    13         NA    101.       2544835
#>  6 重庆市 由日忠县         2187     6    19          4     96.2      4885521
#>  7 重庆市 新都区            497    NA     2          7     85.6     10001115
#>  8 福建省 沙县区           1799     4     6          2     27.1      3544375
#>  9 福建省 龙海区           1320     2    11          1     91.2     12657788
#> 10 福建省 长泰区            900     1     4         NA     21.1      3752268
#> # ℹ 73 more rows
#> # ℹ 17 more variables: 第一产业增加值 , 第二产业增加值 ,
#> #   第三产业增加值 , 地方一般公共预算收入 ,
#> #   地方一般公共预算支出 , 住户存款余额 ,
#> #   年末金融机构各项贷款余额 , 设施农业种植占地面积 , 油料产量 ,
#> #   棉花产量 , 规模以上工业企业 , 固定电话用户 ,
#> #   普通中学在校学生 , 小学在校学生 , 医疗卫生机构床位 , …

可以看到这个时候匹配不成功的就不是很多了，下面我们需要结合百度和 countycode1.dta 来逐个检查修正：

DT::datatable(countycode1)

这里建议先保存成一个 xlsx 文件，然后在 Excel 里面进行更正：

df4 %>% 
  anti_join(countycode1) %>% 
  writexl::write_xlsx("待修正.xlsx") 

# 待修正2.xlsx 是我手动调整之后得到的结果
readxl::read_xlsx("待修正2.xlsx") -> dftemp 

dftemp %>% 
  tidylog::anti_join(countycode1)
#> # A tibble: 0 × 25
#> # ℹ 25 variables: 省 , 县 , 行政区域面积 , 乡 , 镇 ,
#> #   街道办事处 , 户籍人口 , 地区生产总值 , 第一产业增加值 ,
#> #   第二产业增加值 , 第三产业增加值 , 地方一般公共预算收入 ,
#> #   地方一般公共预算支出 , 住户存款余额 ,
#> #   年末金融机构各项贷款余额 , 设施农业种植占地面积 , 油料产量 ,
#> #   棉花产量 , 规模以上工业企业 , 固定电话用户 ,
#> #   普通中学在校学生 , 小学在校学生 , 医疗卫生机构床位 , …

这个时候就没有不匹配的了：

df4 %>% 
  anti_join(
    df4 %>% 
      select(省, 县) %>% 
      anti_join(countycode1)
  ) %>% 
  bind_rows(dftemp) -> df5 

df5 %>% 
  tidylog::left_join(countycode1) %>% 
  select(省, 省代码, 市, 市代码, 县, 县代码, everything()) -> df5

然后我们再对变量进行重命名（和之前年份的保持一致）：

df5 %>% 
  mutate(乡 = if_else(is.na(乡), 0, 乡),
         镇 = if_else(is.na(镇), 0, 镇)) %>% 
  mutate(乡镇个数_个 = 乡 + 镇) %>% 
  rename(
    乡_个 = 乡, 
    镇_个 = 镇, 
    行政区域土地面积_平方公里 = 行政区域面积, 
    街道办事处个数_个 = 街道办事处, 
    户籍人口_人 = 户籍人口, 
    国内生产总值_万元 = 地区生产总值,
    第一产业增加值_万元 = 第一产业增加值,
    第二产业增加值_万元 = 第二产业增加值, 
    第三产业增加值_万元 = 第三产业增加值,
    一般公共预算收入_万元 = 地方一般公共预算收入,
    一般公共预算支出_万元 = 地方一般公共预算支出,
    住户储蓄存款余额_万元 = 住户存款余额, 
    年末各项贷款余额_万元 = 年末金融机构各项贷款余额, 
    设施农业占地面积_公顷 = 设施农业种植占地面积, 
    油料产量_吨 = 油料产量, 
    棉花产量_吨 = 棉花产量, 
    规模以上工业企业个数_个 = 规模以上工业企业, 
    固定电话用户_户 = 固定电话用户, 
    普通中学在校学生_人 = 普通中学在校学生, 
    小学在校学生数_人 = 小学在校学生, 
    医疗卫生机构床位_床 = 医疗卫生机构床位,
    提供住宿的社会工作机构_个 = 提供住宿的民政服务机构, 
    提供住宿的社会工作机构床位_床 = 提供住宿的民政服务机构床位数
  ) -> df6 

# 保存成 xlsx
df6 %>% 
  writexl::write_xlsx("2021年县市社会经济指标.xlsx")

最后如果你想把该数据和之前年份的合并起来，只需要使用 bind_rows() 合并即可。

最后我们再使用该数据绘制一幅区县地图。这里使用的数据是我之前编辑过的一份 shp 数据。可以用于绘制带九段线小地图的中国地图。

library(ggspatial)
read_sf("chinacounty2020mini/chinacounty2020mini.shp") -> countymap 
read_sf("chinacounty2020mini/chinacounty2020mini_line.shp") -> countyline 

countymap %>% 
  filter(!is.na(objid)) -> countymap

以地区生产总值为例：

df6 %>% 
  select(县代码, 国内生产总值_万元) %>% 
  mutate(v = 国内生产总值_万元 / 10000) -> df7

缺失值使用所在市、所在省的均值填补，实在无法填补的设定为 -1：

countymap %>% 
  left_join(df7) %>% 
  group_by(省, 省代码, 市, 市代码) %>% 
  mutate(mean1 = mean(v, na.rm = T),
         v = if_else(is.na(v), mean1, v)) %>% 
  ungroup() %>% 
  group_by(省, 省代码) %>% 
  mutate(mean2 = mean(v, na.rm = T),
         v = if_else(is.na(v), mean2, v)) %>% 
  ungroup() %>% 
  mutate(v = if_else(is.na(v), -1, v)) -> df8

下面我们将绘制两种地图，一种是使用连续变量绘制，另一种是使用分类变量绘制，为此，我们对地区生产总值变量进行分组：

# v 的范围
range(df8$v) 
#> [1]   -1.00 4748.06
quantile(df8$v, seq(from = 0, to = 1, length = 8)) %>% 
  `[`(2:7) %>% 
  round(digits = 2) -> cuts

df8 %>% 
  mutate(group = cut(v, breaks = c(-1, 0, cuts, 5000), 
                     include.lowest = T,
                     labels = c("无数据", "0 ~ 65.35",
                                "65.35 ~ 109.36", "109.36 ~ 154.74",
                                "154.74 ~ 229.96", "229.96 ~ 328.96",
                                "328.96 ~ 521.38", "> 521.38")))  -> df9

countyline 变量还需要再处理下：

countyline %>% 
  tail(n = 9) %>% 
  select(class) %>% 
  filter(class %in% c("九段线", "海岸线", "小地图框格")) -> countyline

连续变量的绘制：

# 绘制连续变量
ggplot(df9) + 
  geom_sf(aes(fill = v), linewidth = 0.001, color = "black") + 
  geom_sf(data = countyline, aes(color = class, linewidth = class), 
          show.legend = F) + 
  scale_color_manual(values = c(
    "九段线" = "black", 
    "海岸线" = "#0055AA", 
    "小地图框格"= "black"
  )) + 
  scale_linewidth_manual(values = c(
    "九段线" = 0.3, 
    "海岸线" = 0.3, 
    "小地图框格"= 0.2
  )) + 
  scale_fill_viridis_c(option = "A", trans = "log10") + 
  annotation_scale(
    width_hint = 0.2,
    text_family = cnfont 
  ) + 
  annotation_north_arrow(
    location = "tr", 
    width = unit(2, "cm"),
    height = unit(2, "cm"),
    which_north = "false",
    pad_x = unit(0.5, "cm"),
    pad_y = unit(0.5, "cm"),
    style = north_arrow_nautical(
      text_family = cnfont
    )
  ) + 
  guides(fill = guide_colorbar(title = "地区生产总值（亿元）")) + 
  theme_ipsum(base_family = cnfont, grid = F) + 
  theme(axis.text.x = element_blank(),
        axis.text.y = element_blank(),
        legend.position = c(0.12, 0.2),
        plot.background = element_rect(fill = "white", color = "white")) + 
  labs(title = "2021 年中国各县地区生产总值（亿元）",
       subtitle = "数据整理 & 绘制：微信公众号 RStata",
       caption = "数据来源：2022 年中国县域统计年鉴") -> p 

ggsave("pic1.png", width = 10, height = 8, device = png)

分类变量的绘制：

# 绘制分类变量
ggplot(df9) + 
  geom_sf(aes(fill = group), linewidth = 0.001, color = "black") + 
  geom_sf(data = countyline, aes(color = class, linewidth = class), 
          show.legend = F) + 
  scale_color_manual(values = c(
    "九段线" = "black", 
    "海岸线" = "#0055AA", 
    "小地图框格"= "black"
  )) + 
  scale_linewidth_manual(values = c(
    "九段线" = 0.3, 
    "海岸线" = 0.3, 
    "小地图框格"= 0.2
  )) + 
  scale_fill_viridis_d(option = "A") + 
  annotation_scale(
    width_hint = 0.2,
    text_family = cnfont 
  ) + 
  annotation_north_arrow(
    location = "tr", 
    width = unit(2, "cm"),
    height = unit(2, "cm"),
    which_north = "false",
    pad_x = unit(0.5, "cm"),
    pad_y = unit(0.5, "cm"),
    style = north_arrow_nautical(
      text_family = cnfont
    )
  ) + 
  guides(fill = guide_legend(title = "地区生产总值（亿元）",
                             ncol = 2)) + 
  theme_ipsum(base_family = cnfont, grid = F) + 
  theme(axis.text.x = element_blank(), 
        axis.text.y = element_blank(), 
        legend.position = c(0.15, 0.2), 
        plot.background = element_rect(fill = "white", color = "white")) + 
  labs(title = "2021 年中国各县地区生产总值（亿元）",
       subtitle = "数据整理 & 绘制：微信公众号 RStata",
       caption = "数据来源：2022 年中国县域统计年鉴") -> p 

ggsave("pic2.png", width = 10, height = 8, device = png)

2000～2022 年中国县域统计年鉴的数据

2023-04-21T11:25:00.000Z

之前给大家分享过 2000～2021 年中国县域统计年鉴的数据，2000～2021 年中国县域统计年鉴里面的数据实际上是 1999～2020 年的，包含乡镇卷和县市卷，乡镇卷里面的数据不全，使用价值不大，所以仅仅整理了县市社会经济指标：

1999~2020年县市社会经济指标.xlsx
1999~2020年县市社会经济指标.dta

需要注意县域统计年鉴并不包含市辖区的数据，仅仅包含大概 2000 多个县的数据。

最近又给大家分享了 2022 年县域统计年鉴的原始数据和整理课程：

如何整理 2022 年县域统计年鉴：caj 文件转 pdf、文本识别与数据清洗：https://rstata.duanshu.com/#/brief/course/59fbd94072c844d985f0f4fcdbd4c40e
Stata：如何为区县名称添加行政区划代码：https://rstata.duanshu.com/#/brief/course/ff44f63581e94d58bdee05c6998a5a6c

按照上面两个课程的整理方法即可得到 2022 年县域统计年鉴中的县市社会经济指标数据了，然后把处理得到的数据和 1999~2020年县市社会经济指标.dta append 起来即可得到 1999～2021 年的面板数据了。

数据概况

时间范围：1999～2021 年；
变量数：67；
面板格式。

下面选择 2020 年 户籍人口_人、一般公共预算收入_万元 和 一般公共预算支出_万元 三个变量进行绘图展示：

上图中部分缺失值使用了该县所处省份的均值进行了填补。该数据里面并没有市辖区的数据（市辖区的数据在城市统计年鉴中），数据里面的区是之前的县改的。

很久之前就出过一个直播课程讲解如何整理县域统计年鉴数据：

县域统计年鉴是如何整理的？Stata 和 R 齐上阵！：https://rstata.duanshu.com/#/brief/course/ce084094d5ac4a9cbd5fd61960545f47

这一次为了方便大家进行数据核对，还在附件中提供了处理过程和原始数据：

大家在使用过程中遇到的问题可以和原始数据比对下看看是处理的问题还是原始数据就有问题。

行政区划代码

为了方便使用，我把数据中的行政区划（省、省代码、市、市代码、县、县代码）统一到了 2020 年，不过有一些县早已撤销或者合并到其他区县，这些县使用其被撤销年份的行政区划代码，例如：

南汇区：2008 年区划代码
畹町市：1998 年区划代码
陶乐县：2002 年区划代码
长岛县：2019 年区划代码
吴县：2000 年区划代码
江浦县：2001 年区划代码

所以上面的地图也是使用县代码变量和县级地图数据合并绘制的，相关代码也可以从附件中找到。

注意事项

为了跨年份连接数据，我把不同年份相似的指标（可能统计口径不完全一样）重命名成一样的名称，对于细致的研究请注意自行修正这种问题；
由于各年的统计指标并不完全一致，有些指标只有部分年份有，所以缺失严重；
为了方便大家使用，我给数据添加了省、省代码、市、市代码，使用的是 2020 年中国各省市区县行政区划代码，不过有部分县级市已经取消合并了，使用的是早年的行政区划代码，如上文所述。
另外统计年鉴并不是没有错的，实际上包含了很多数据错误和错字！所以大家使用的适合如果发现可错误或者不合理的数据，很可能是统计年鉴的错误，并非整理的错误（当然整理错误也可能有），替换成缺失值即可。

使用 Stata 进行数据可视化：绘图案例合集（一）

2023-04-21T11:21:00.000Z

在过去几年中，我在公众号里面分享了很多使用 Stata 绘图的案例，为了方便大家学习和查阅，我把从这些案例中精选了 40 个汇编成了一本小册子：「使用 Stata 进行数据可视化：绘图案例合集（一）」

该册子一共包含了 40 个 Stata 的绘图案例：

Stata 绘制柱状图中的位置调整
Stata 绘图展示欧洲各国领导人在任时间
Stata：使用 joyplot 绘制峰峦图
使用 Stata 绘制中国省级地图
使用 Stata 绘制中国市级地图
使用 Stata 绘制中国县级地图
图说第七次全国人口普查
图说人口普查：地区人口与性别结构
我们分析了 65.8 万个村名，找到了中国地名的秘密
使用 Stata 绘制太极八卦图
使用 Stata 绘制散点连接图
使用 Stata 绘制人口金字塔
使用 Stata 绘制两个时期的变量取值对比图
使用 Stata 绘制股票交易价量图
使用 Stata 绘制堆叠柱状图
如何使用 Stata 绘制空间网络图？
如何使用 Stata 绘制莫兰散点图、在散点图上添加文本标签以及避免文本标签重叠？
如何使用 Stata 绘制相关系数热力图？
如何使用 Stata 绘制一幅彩色的照片？给你的图表添加一个冰墩墩！
如何使用 Stata 绘制不等宽柱状图
使用 Stata 绘图展示 2021 年俄罗斯与各国（地区）间的进出口额
使用 Stata 提取一大堆文本文件中的词频并绘图展示
使用Stata爬取冬奥会奖牌榜数据并绘图展示
如何删除 Stata 箱线图中的离群值？
核密度曲线相关绘图技巧
msize 选项和 barbsize 选项之间的关系图
1998 ~ 2013 年每年各种专利类型的申请数量和专利总数量的绘图展示
1980 ~ 2017 年美国经历的各种自然灾害的累积损失
rankplot：使用 Stata 绘制排名比对图
RGB 与 HEX 颜色代码的相互转换
Stata 绘图中循环的使用、xtline 用法深入解析以及填充地图的绘制——以新冠疫情数据分析为例
Stata 内置的调色板
Stata 如何创建不重叠标签的散点图 or 将散点标签统一放置在图的右侧并和散点连接起来？
Stata 如何合并多幅图表？合并的图表如何共用一个图例？
Stata 如何绘制带误差棒和文本注释的柱状图
Stata 中各种平滑方法的比较
Stata：如何绘制并列柱状图 + 线图？以上市公司绿色专利数量数据为例
Stata 马科维茨有效前沿的实现
如何使用 Stata 处理第七次人口普查年鉴数据
使用 Stata 分析全国人大代表数据

多数内容带课程讲解，感兴趣的小伙伴可以到平台上观看学习（点击文末的阅读原文即可跳转）：
https://rstata.duanshu.com/#/brief/course/5cc858d3b49e47b99fc9b9f41828da81

为了方便大家翻阅和学习，大家也可以私信我预定打印纸质版（限培训班会员预定）：

其他的讲义材料还有这些：

R 语言地理计算应用与地理数据可视化案例合集

2023-04-21T11:20:00.000Z

在过去几年中，我在公众号里面分享了很多使用 R 语言进行地理计算和地理数据可视化的案例，为了方便大家学习和查阅，我把从这些案例中精选了 36 个汇编成了一本小册子：「R 语言地理计算应用与地理数据可视化案例合集」

该册子一共包含了 36 个 R 语言地理计算与地理数据可视化的案例：

使用 R 语言进行地理编码
中国各省市碳排放量是如何计算的？R 语言栅格数据转面板数据
使用 R 语言绘制夜间灯光地图
QGIS & R 语言：如何从地图图片上提取数据并重新绘图？（使用 QGIS 进行地图配准）
R语言地理计算的应用：泰森多边形面积、周长与质心距离计算
从广州南站到珠江新城怎么走
大城市发展的有多快
哪些县与省界接触？工企业距离省界的距离？｜空间拓扑关系与地理距离计算
气象数据是如何处理的？以降水量为例
如何根据经纬度判断该地点所处的省市区县
如何绘制一幅漂亮的路网地图？网页文本提取、地理编码与可视化
如何绘制一幅圆滚滚的世界地图
如何绘制以太平洋为中心的世界地图
如何计算每个城市或区县距离最近省会城市和距离其所在省的省会城市距离
如何将栅格数据处理成面板数据或时间序列数据？以 PM2.5 浓度数据处理为例
如何判断工企业在南方还是北方
如何使用 R 语言绘制双变量填充中国地图
如何使用 R 语言计算各省份质心到秦岭淮河线的纬度差距离
使用 highcharter 绘制世界地图
使用 R 语言操作地理矢量数据
使用 R 语言绘图展示 2020 年中国各省市地区生产总值
使用 R 语言绘图展示中国土地覆盖类型分布和各省市区县耕地占比分布
使用 R 语言计算各个省市区县的经纬度范围
使用 R 语言计算各省市区县河流密度——基于1-100万公众版基础地理信息数据
使用 R 语言计算秦岭——淮河线两侧的省市区县
使用 R 语言爬取宗教活动场所基本信息
使用 R 语言处理 netCDF 格式的数据（一）
使用 R 语言处理 netCDF 格式的数据（二）
相邻城市共同边界附近的工企与共同边界的距离计算 & 绘图展示
行政区划矢量数据是如何制作的？使用 R 语言处理全国基础地理信息数据
已知某个地点的经纬度，如何判断其是在北方还是南方
中国各城市间的交通距离是如何解析的？——以各城市与上海的驾车交通路线规划为例
GEOJSON 数据的应用案例 & 带九段线小地图的中国地图 GEOJSON 数据
R 语言：百度地图迁徙大数据爬取与可视化
R 语言计算 NDVI 时序数据变异系数栅格
Stata 和 R 语言绘图中如何快速的使用调色板

多数内容带课程讲解，感兴趣的小伙伴可以到平台上观看学习（点击文末的阅读原文即可跳转）：
https://rstata.duanshu.com/#/brief/course/5dee5f29f36344f3be82aca0a20820bd

为了方便大家翻阅和学习，大家也可以私信我预定打印纸质版（限培训班会员预定）：

其他的讲义材料还有这些：

Stata 编程案例合集（一）

2023-04-21T11:18:00.000Z

在过去几年中，我在公众号里面分享了很多使用 Stata 编程解决问题的案例，为了方便大家学习和查阅，我把从这些案例中精选了 38 个汇编成了一本小册子：「使用 Stata 进行数据处理：编程案例合集（一）」

该册子一共包含了 38 个 Stata 编程的案例：

使用 Stata 进行地理编码
使用 Stata 调用百度翻译接口
县域统计年鉴是如何被整理好的——以 2016 年为例
城市统计年鉴是如何整理的？使用 R 语言和 Stata
工企和污染数据是如何匹配的？使用 Stata 完成整个过程
工企数据库与海关数据库的匹配
海关编码国别（地区）代码表爬取
排污权交易机制是否提高了企业全要素生产率
政治等级与区域经济发展：来自中国空间断点回归的证据
如何仿照 Brandt 方法把工企数据匹配成面板？
如何将从 Wind 数据库下载的数据转换成面板
如何使用 Stata 统计历年各省市区县的金融机构数量
如何用 Stata 编程计算行业的多样化集聚程度
使用 Stata 编程计算工企专利知识宽度
使用 Stata 爬取 VINSIGHT 网站上的沪深 300 VIX 和上证 50 VIX 数据
使用 Stata 爬取处理 XML 数据
使用 Stata 提取一大堆文本文件中的词频并绘图展示
使用 Stata 寻找分布中密度为最大密度一半的 X
使用 Stata 进行绿色专利筛选
已知每个公司的注册地，如何生成公司是否注册在同一个城市的零一矩阵？
estout 的使用
Mac：从 Stata 创建桌面通知
R 语言和 Stata 中的数据转换（透视、长宽数据转换）
R语言 & Stata：如何对字符串变量实现分组求和和分组累加？
spatwmat-命令的报错如何解决？
Stata 观测值重新对照
Stata 爬取上市公司高管人物特征和高管简历
Stata 如何导出多元 Logistic 回归的结果？
Stata 如何计算与某个企业位于同一地区、不同行业的其他企业某个变量的均值？
Stata 如何生成一个新变量，这个变量的值是另外一个变量中所有独一无二的值
Stata 中的行计算
Stata 中的中文模糊匹配——以工企数据和境外投资名录数据匹配为例
Stata 中如何对称填充矩阵？
Stata 中如何正确地进行多对多匹配？
Stata 中怎么删除至少有三个缺失值的变量们？
Stata：如何根据自己的需求编程输出代码结果到 word 文档？以 rdrandinf 命令为例
Stata：一次性实现变量的 9 种正态变换
Stata 如何进行加权累加？

多数内容带课程讲解，感兴趣的小伙伴可以到平台上观看学习（点击文末的阅读原文即可跳转）：
https://rstata.duanshu.com/#/brief/course/39341829401b45b99e93ee566ed902c8

为了方便大家翻阅和学习，大家也可以私信我预定打印纸质版（限培训班会员预定）：

其他的讲义材料还有这些：

1998～2014 年工企海关匹配结果

2023-04-21T11:14:00.000Z

前不久给大家分享过工企地理位置信息数据和海关地理位置信息数据：

工企地理位置：1998～2014 年工业企业数据库地理位置数据（含经纬度、所处省市区县、南北方属性以及距离秦岭淮河线的距离）
海关地理位置：2000～2016 年海关地理信息数据（含经纬度及其所处的省市区县）

今天我们分享一份工企与海关数据的匹配结果，借鉴相关文献，工企与海关的匹配可以分为下面 5 个步骤：

清洗工企数据库里面的企业名称、邮政编码和固定电话变量（等下要用这三个变量进行匹配）；
清洗海关数据库里面的企业名称、邮编和电话变量；
在工企数据库里面生成一个 ID 变量用以在匹配过程中识别每个观测值，然后只保留企业名称、邮政编码和固定电话、年份、ID 几个变量（这样可以避免因为数据过大导致匹配过程过慢）；
对海关数据库进行汇总（例如只需要每个公司每年的进出口额的话）；
匹配海关和工企数据然后再根据 ID 变量把工企数据库的其它变量也合并进来。

关于这五个步骤的代码实现，可以学习我们之前推出的 Stata 课程：「如何匹配海关和工企数据？」：

如何匹配中国工业企业数据库和海关数据库？以 2013 年为例：https://rstata.duanshu.com/#/brief/course/5463b8d7afcb438ca1e537fa76c1a45d

这次分享的数据包含下面两种版本的：

先把海关数据汇总成每个公司的进出口额数据，然后和工企数据匹配的结果数据（下面称为汇总版本，其观测值是一个个的公司）；
直接把海关数据和工企数据进行匹配（下面称为完整版本，其观测值是一条条的商品）。

两个版本的结果数据使用的匹配方法是一样的，但是由于细微的差异，结果也有细微的差异，下表展示的是匹配效果。工企数据库中的工企数量 列展示的是匹配使用的工企数据库的每年样本数；汇总版本涉及的工企数量 列展示的是汇总版本匹配结果中涉及的工企数量，最后一列是匹配率（汇总版本涉及的工企数量 / 工企数据库中的工企数量）：

年份	工企数据库中的工企数量	汇总版本涉及的工企数量	匹配率
2000	162872	22310	13.7%
2001	171254	26446	15.4%
2002	181542	29943	16.5%
2003	196206	34096	17.4%
2004	279011	52966	19.0%
2005	270023	53475	19.8%
2006	301930	61467	20.4%
2007	336732	89237	26.5%
2008	412212	73364	17.8%
2009	366130	64562	17.6%
2010	442539	77420	17.5%
2011	302593	59789	19.8%
2012	324604	79824	24.6%
2013	344875	83893	24.3%
2014	309138	60068	19.4%

下图会更直观：

如果大家想自行匹配的话，可以使用文初提到的两个数据，然后参考课程匹配。

为了更好的确认匹配数据的可靠性，我们计算了每年平均各个公司的进口额和出口额，如下图所示：

感觉连续性还不错！

另外这两份数据都非常大，已经拆分成了逐年的数据，可以直接使用 append 进行合并（Stata），数据格式是也是仅提供供 Stata 读取的 dta 格式。

关于汇总版如何合并成面板数据，可以参考这个课程：

如何仿照 Brandt 方法把工企数据匹配成面板？：https://rstata.duanshu.com/#/brief/course/a3e155a19934433ab90913f1547b8300

此次分享的数据还有一份：ID 对照表。提供这份数据的原因在于很多小伙伴的电脑内存不大，没法读取完整版本的结果（很多年份的完整版本有 20多 GB），另外也提供了一份分拆的海关数据（很多年份的完整版本有 20 多 GB，这样把每个年份的也都拆分成小文件更方便大家操作）。

尽管如此，还是担心大家的电脑无法读取这份大数据，所以我还提供了一份完整版的小文件分拆版（每个文件不到 2GB）。

下面再展示下部分的数据预览：

R 语言绘图案例合集（一）

2023-04-21T11:14:00.000Z

在过去几年中，我在公众号里面分享了很多使用 R 语言绘图的案例，为了方便大家学习和查阅，我把从这些案例中精选了 35 个汇编成了一本小册子：「使用 R 语言进行数据可视化：绘图案例合集（一）」

该册子一共包含了 35 个 R 语言绘图的案例：

ggplot2 绘图中关于图例的一些技巧
使用 R 语言绘制桑基图的一些方法
使用R语言分析全国人大代表数据
从原始数据到动态图表 —— 在 R 中完成所有操作
如何使用 R 语言绘制双坐标轴堆叠面积图？
当你说机会不大的时候，你想表达什么？
浏览器和操作系统份额
你最常用哪个表情？在 ggplot2 图表上添加动图
Stata 和 R 语言绘图中如何快速的使用调色板
如何通过储蓄让自己退休后的资产达到 250 万？
如何使用 R 语言绘制相关系数热力图？交互式的更好？
使用 R 语言和 Stata 制作一张装饰画～
使用 R 语言制作城市印象明信片
使用云雨图展现数据分布
使用 sparkline 绘制迷你图
探索其它的 ggplot2 图层
Mac 上 R 语言绘图中的中文问题
mdthemes：在 ggplot2 绘图中应用 Markdown 语法
R 语言绘图展示欧洲各国领导人在任时间
R 语言绘图中如何添加特殊符号文本？
R 语言里面的日期环境设置和绘图中日期的显示
使用 highcharter 绘制交互式词云图
如何使用 R 语言绘制交互式柱状图？
如何使用 R 语言绘制水球图？
如何在 highcharter 绘制的图表上添加标注
使用 highcharter 绘制交互式饼图和环形图
使用 highcharter 绘制交互式气泡填充图和圆堆积图
使用 R 语言绘制交互式面积图
使用 R 语言绘制交互式席位分摊图
使用 R 语言绘制径向条形图
使用 streamgrapher 和 highcharter 绘制溪流图：世界各国新冠肺炎发展趋势
使用 RMarkdown 制作幻灯片
使用 robservable 绘制动态图表展示中国各省新冠疫情确诊人数动态变化
图说二〇二〇年全国姓名报告
全国历年人口状况数据整理和绘图

多数内容带课程讲解，感兴趣的小伙伴可以到平台上观看学习（点击文末的阅读原文即可跳转）：
https://rstata.duanshu.com/#/brief/course/7ae88332ac7845e2a1f78551d394e611

更多精美图表的绘制欢迎购买 RStata 会员学习：

为了方便大家翻阅和学习，大家也可以私信我预定打印纸质版（限培训班会员预定）：

其他的讲义材料还有这些：

Stata：如何为区县名称添加行政区划代码

2023-04-21T11:14:00.000Z

在之前的课程「如何整理 2022 年县域统计年鉴：caj 文件转 pdf、文本识别与数据清洗」中我们讲解了如何从 caj 文件中提取表格数据的方法，今天我们再来学习下如何根据区县名称匹配行政区划代码，另外在该过程中还可以检查区县名称的识别错误。最后我们再使用整理得到的数据绘制一幅区县地图。

首先我们使用上次课的代码处理“整理结果3.xlsx”：

cd "~/Desktop/Stata：如何为区县名称添加行政区划代码" 
*- 处理 “整理结果3.xlsx”
import excel using "整理结果3.xlsx", clear 
carryforward A, replace 
drop if missing(D) & missing(E) & missing(F) ///
    & missing(G) & missing(H) & missing(I) ///
    & missing(J) & missing(K) & missing(L)
replace B = subinstr(B, " ", "", .)
replace B = subinstr(B, ",", "", .)
replace B = subinstr(B, "-", "", .)
replace B = subinstr(B, ".", "", .)
replace B = subinstr(B, "~", "", .)
replace B = subinstr(B, "・", "", .)
replace B = subinstr(B, "，", "", .)
replace B = subinstr(B, "、", "", .)
drop if B == "" | B == "一、基本情况行政区域面积" | B == "一基本情况行政区域面积"
replace B = "提供住宿的民政服务机构床位数" if ///
    inlist(B, "提供住宿的民政0艮务机构床位数", ///
            "提供住宿的民政服务机构床位数", ///
            "提供住宿的民谢艮务机构床位数")

replace B = "提供住宿的民政服务机构" if ///
    inlist(B, "提供住宿的民呦艮务机构", ///
            "提供住宿的民政^务机构", ///
            "提供住宿的民斑艮务机构", ///
            "提供住宿的民班艮务机构")
drop C 
gen z = _n if B == "指标"
order z 
carryforward z, replace
gather D - L 
spread B value 
order z A 指标 
drop if missing(指标) 
drop var 
destring, replace 

*- 删除辅助变量 z
drop z 

ren A 省
ren 指标 县
order 省 县 行政区域面积 乡 镇 街道办事处 户籍人口 ///
    地区生产总值 第一产业增加值 第二产业增加值 第三产业增加值 ///
    地方一般公共预算收入 地方一般公共预算支出 住户存款余额 ///
    年末金融机构各项贷款余额 设施农业种植占地面积 油料产量 ///
    棉花产量 规模以上工业企业 固定电话用户 普通中学在校学生 ///
    小学在校学生 医疗卫生机构床位 提供住宿的民政服务机构 ///
    提供住宿的民政服务机构床位数

*- 紧凑数据
foreach i of varlist _all {
    cap format `i' %10s
}
save data4, replace

由于之前我分享的县域统计年鉴数据都是使用的 2020 年行政区划代码，所以这次我们也同样。

2020 年行政区划代码可以从地理矢量数据得到（为了方便绘制地图）：

*- 由于之前的县域数据都是使用的 2020 年行政区划代码，所以这次我们依然使用 2020 的：
shp2dta using "2020行政区划/县.shp", database(countydb) coordinates(countycoord) replace 

use countydb, clear 
keep 省 省代码 市 市代码 县 县代码 
order 省 省代码 市 市代码 县 县代码 
*- 查看 省-县 的组合有无重复的
duplicates tag 省 县, gen(tags) 
gsort -tags 

*- 这些重复的可能会影响下一步的匹配，所以先删除了
drop if tags > 0 
drop tags
save countycode1, replace

首先匹配下看看能成功多少：

use data4, clear 
merge 1:1 省 县 using countycode1 

*> Result                      Number of obs
*> -----------------------------------------
*> Not matched                         1,116
*>     from master                       171  (_merge==1)
*>     from using                        945  (_merge==2)
*> 
*> Matched                             1,917  (_merge==3)
*> -----------------------------------------

*- 检查没有匹配成功的
keep if _m == 1

可以看到很多是由于空格和杂乱字符导致的匹配失败，所以我们先去除：

use data4, clear 
replace 县 = subinstr(县, " ", "", .)
replace 县 = subinstr(县, ";", "", .)
replace 县 = subinstr(县, ":", "", .)

merge 1:1 省 县 using countycode1 
keep if _m == 1

*> Result                      Number of obs
*> -----------------------------------------
*> Not matched                           946
*>     from master                        86  (_merge==1)
*>     from using                        860  (_merge==2)
*> 
*> Matched                             2,002  (_merge==3)
*> -----------------------------------------

可以看到这个时候匹配不成功的（_merge==1）就不是很多了，下面我们需要结合百度和 countycode1.dta 来逐个检查修正：

*- 然后就要一个个修改了
replace 省 = "江苏省" if 县 == "浦口区"
replace 县 = "勐腊县" if 县 == "^腊县"
replace 县 = "勐海县" if 县 == "劭海县"

*- 此处省略部分代码，详情可以参考附件中的 main.do 

replace 县 = "湟源县" if 县 == "潼源县"
replace 县 = "大箐山县" if 县 == "大箸山县"

然后重新匹配试试：

*- 重新匹配试试
use data4, clear 
replace 县 = subinstr(县, " ", "", .)
replace 县 = subinstr(县, ";", "", .)
replace 县 = subinstr(县, ":", "", .)
replace 省 = "江苏省" if 县 == "浦口区"
replace 县 = "勐腊县" if 县 == "^腊县"
replace 县 = "勐海县" if 县 == "劭海县"
replace 县 = "双江拉祜族佤族布朗族傣族自治县" if 县 == "双江拉祜族值族布朗族傣族自治县"

*- 此处省略部分代码，详情可以参考附件中的 main.do 

replace 县 = "大箐山县" if 县 == "大箸山县"

merge 1:1 省 县 using countycode1 
order 省 省代码 市 市代码 县 县代码 
keep if _m == 3
drop _m 
destring 县代码, replace 
save data5, replace

然后我们再对变量进行重命名（和之前年份的保持一致）：

use data5, clear 
gen 年份 = 2021 
replace 乡 = 0 if missing(乡)
replace 镇 = 0 if missing(镇)
gen 乡镇个数_个 = 乡 + 镇
ren 乡 乡_个
ren 镇 镇_个
ren 行政区域面积 行政区域土地面积_平方公里
ren 街道办事处 街道办事处个数_个
ren 户籍人口 户籍人口_人
ren 地区生产总值 国内生产总值_万元
ren 第一产业增加值 第一产业增加值_万元
ren 第二产业增加值 第二产业增加值_万元
ren 第三产业增加值 第三产业增加值_万元
ren 地方一般公共预算收入 一般公共预算收入_万元
ren 地方一般公共预算支出 一般公共预算支出_万元
ren 住户存款余额 住户储蓄存款余额_万元
ren 年末金融机构各项贷款余额 年末各项贷款余额_万元
ren 设施农业种植占地面积 设施农业占地面积_公顷
ren 油料产量 油料产量_吨
ren 棉花产量 棉花产量_吨
ren 规模以上工业企业 规模以上工业企业个数_个
ren 固定电话用户 固定电话用户_户
ren 普通中学在校学生 普通中学在校学生_人
ren 小学在校学生 小学在校学生数_人
ren 医疗卫生机构床位 医疗卫生机构床位_床
ren 提供住宿的民政服务机构 提供住宿的社会工作机构_个
ren 提供住宿的民政服务机构床位数 提供住宿的社会工作机构床位_床
label data "整理：微信公众号 RStata"
save "2021年县市社会经济指标.dta", replace

最后如果你想把该数据和之前年份的合并起来，只需要 use 之前年份的数据，然后 append using "2021年县市社会经济指标.dta" 即可。

最后我们再使用该数据绘制一幅区县地图：

*- 把 “2021年县市社会经济指标.dta” 文件放到 “使用Stata绘制中国县级地图（版本2020mini）” 文件夹里面：
cd "使用Stata绘制中国县级地图（版本2020mini）"
use chinacounty2020mini_db.dta, clear 
destring 县代码, replace 
merge 1:1 省 省代码 市 市代码 县 县代码 using 2021年县市社会经济指标.dta

replace 国内生产总值_万元 = 国内生产总值_万元/10000

*- 市辖区的值使用该城市的平均值代替
bysort 省 省代码 市 市代码: egen mean = mean(国内生产总值_万元)
replace 国内生产总值_万元 = mean if missing(国内生产总值_万元) 

*- 仍然缺失的使用该省的均值代替
bysort 省 省代码 : egen mean2 = mean(国内生产总值_万元)
replace 国内生产总值_万元 = mean2 if missing(国内生产总值_万元) 

*- 仍然缺失的替换成 -1 
replace 国内生产总值_万元 = -1 if missing(国内生产总值_万元) 

*- 绘图
*- 农林牧渔业人口占比 
nicecut 国内生产总值_万元, n(8) unit(亿元) 
grmap 国内生产总值_万元 using chinacounty2020mini_coord.dta, /// 
    id(ID) osize(vvthin ...) ocolor(white ...) /// 
    clmethod(custom) clbreaks(`r(cutpoints)') /// 
    fcolor(gray "255 198 196" "244 163 168" "227 129 145" /// 
        "204 96 125" "173 70 108" "139 48 88" "103 32 68") /// 
    graphr(margin(medium)) /// 
    leg(order(`r(legorder)')) /// 
    line(data(chinaprov2020mini_line_coord2.dta) by(group) /// 
        size(vvthin *1 *0.5 *0.5 *0.5) pattern(solid ...) /// 
        select(drop if inlist(group, 4, 7)) ///
        color(gs20 /// 省界颜色 
              black /// 国界线颜色 
              "0 85 170" /// 海岸线颜色 
              black /// 小地图框格颜色
              black /// 比例尺和指北针颜色
              )) /// 
    polygon(data(polygon2) fcolor(black) ///
        osize(vvthin)) ///
    label(data(chinacounty2020mini_label2) x(X) y(Y) label(cname) length(20) size(*0.8)) ///
    ti("2021 年中国各县地区生产总值") /// 
    subti("数据整理 & 绘制：微信公众号 RStata") ///
    caption("数据来源：2022 年中国县域统计年鉴", size(*0.8))

gr export "2021年中国各县地区生产总值.png", replace width(2400)

我的收藏夹（第二期）

2022-12-18T14:52:00.000Z

电脑里面收藏夹里面收藏了很多网页，但是经常懒得翻看，而且难以检索，所以整理下都放到这里。

数据

书籍

Spatial Data Science with applications in R
使用 R 进行空间数据编程简介
Big Book of R：各种 R 语言数据汇总
Geospatial Health Data: Modeling and Visualization with R-INLA and Shiny

Maps of racial population change

R 语言

awesome-ggplot2: A curated list of awesome ggplot2 tutorials, packages etc.：ggplot2 的一些教程、包等。
mattflor/chorddiag: R interface to D3 chord diagrams：基于 D3.js 绘制和弦图的 R 包

# devtools::install_github("mattflor/chorddiag")
library(chorddiag)
m <- matrix(c(11975,  5871, 8916, 2868,
              1951, 10048, 2060, 6171,
              8010, 16145, 8090, 8045,
              1013,   990,  940, 6907),
            byrow = TRUE,
            nrow = 4, ncol = 4)
haircolors <- c("black", "blonde", "brown", "red")
dimnames(m) <- list(have = haircolors,
                    prefer = haircolors)
m
groupColors <- c("#000000", "#FFDD89", "#957244", "#F26223")
chorddiag(m, groupColors = groupColors, groupnamePadding = 20)

jmcastagnetto/ggplot2_themes_in_github: A generated list of repos containing themes/styles for ggplot2：ggplot2 的绘图主题列表。
Tutorial to create igraph objects from spatial data and calculate fragmentation indices with riverconn：从空间数据创建 igraph 对象并使用 riverconn 计算碎片指数的教程

ggthreed - 3d geoms and stats for ggplot2

OncoTree Tidygraph | Joshua Cook

dr-harper/ggmapstyles: 🗺️ An R package to easily style ggmap basemaps with over 20,000 designs from Snazzy Maps

sharlagelfand/ggcute: Cute things for ggplot2.

giocomai/ganttrify: Create beautiful Gantt charts with ggplot2

Label Creation for Tracking and Collecting Data from Biological Samples • rOpenSci: baRcodeR

Setting the Graphics Device in a RMarkdown Document - Jumping Rivers

knitr::opts_chunk$set(dev = "cairo_pdf")

The ggforce Awakens (again)

Introduction to gghighlight

IndrajeetPatil/ggstatsplot: Enhancing ggplot2 plots with statistical analysis 📊🎨📣

plotly/rasterly: Rapidly generate raster images from large datasets in R & Plotly

datagistips/geosparklines: An R Package to put SparkLines on a Map

效率工具

TmTheme Editor：Sublime Text 的主题文件编辑器，也可以用来生成 RStudio 的。
在线传图识色，自动识别图片色彩，提取图片主色调

Baby Map：实时展示每时每刻哪些国家有孩子出生。

djnavarro/voronoise: Makes Artwork From Voronoi Tesselations

ecohealthalliance/fasterize: High performance raster conversion for modern spatial data 🚀🌏▦

其他

dbsake 恢复 Mysql 数据

我的收藏夹（第一期）

2022-08-28T14:29:00.000Z

电脑里面收藏夹里面收藏了很多网页，但是经常懒得翻看，而且难以检索，所以整理下都放到这里。

数据

国家青藏高原科学数据中心

里面有很多非常好的地理、环境数据，例如平台上 1984～2020 年中国各省市区县夜间灯光面板数据的原始栅格数据就是从这里下载的：中国长时间序列逐年人造夜间灯光数据集（1984-2020）

HydroSHEDS data products：全球水文数据集（流域、河网、湖泊等）

该数据是免费下载的，介绍可以参考这个推文：干货分享 | 全球水文数据集（流域、河网、湖泊等）

书籍

Introduction to Econometrics with R：一本介绍 R 语言中常见计量经济学模型实现方法的书。
An Introduction to Spatial Data Analysis and Statistics: A Course in R：地理数据分析与统计导论
现代统计图形：Modern Statistical Graphics
Geocomputation with R：使用 R 语言进行地理计算（平台上的 R 语言地理计算系列课程就是根据这本书开设的）
Geospatial Data Science With R: Applications in Environmental Geography：使用 R 的地理空间数据科学：在环境地理学中的应用

R 语言

exaexa/scattermore: very fast scatterplots for R：R 语言中快速绘制散点图的方法，据作者描述，是基础方法的 20 倍速度。
googleVis examples • googleVis：googleVis 包的使用案例，一个用以绘制交互式图表的 R 包。
The sftime Package：处理含有时间维度的空间矢量数据。
Network Visualization Examples with the ggplot2 Package：使用 ggplot2 进行网络可视化的例子。
facetious: Home to some alternate facetting for ggplot2

ggsvg - Use SVG as points in ggplot：把 svg 图片作为 ggplot2 绘图中的散点

Simple Easy Beginners Web Scraping in R with {ralger} · Programming with R：使用 ralger 进行网络数据爬取。
ggbraid: Braid Ribbons in ‘ggplot2’
ztable: Zebra-Striped Tables in LaTeX and HTML Formats

NatParksPalettes: Color palette package inspired by National Parks

效率工具

m3u8 视频在线提取工具：可以自动根据 m3u8 文件链接下载视频文件。

Stata

30DayMapChallenge2021：使用 Stata 绘制的一些精美图表

字体

铁蒺藜体 Tiejili

煮豆黑体 Zhudou Sans

Stata 和 R 语言绘图中如何快速的使用调色板？

2022-08-27T12:29:00.000Z

今天给大家推荐一个我每次绘图都在使用的调色应用！

https://tidyfriday.cn/colors/

建议加入到电脑的收藏夹里面！

这个应用是根据 ColorBrewer 网站修改之后部署到我的服务器上的，特别适合 R 语言和 Stata 用户使用，另外还增加了不少颜色选择，使用起来非常方便。

颜色数量的选择

在左上角有个 Number of data classes，可以下拉选择所需要的颜色数量，不同的调色板最大可选择的颜色数量可能是不同的：

只有少数调色板可以选择 16、34、51 种颜色，例如 scico1 和 scico2 系列的。

调色板类别的选择

比起 ColorBrewer，我增加了很多调色板：

其中只有第一行的 sequential、diverging 和 qualitative 三个是 ColorBrewer 的调色板，其他的都是我增加的，其中 ggsci 和 scico 两个是我最常用的，是两个 R 包的名字，例如 scico 包的调色板有这些：

scico::scico_palette_show()

使用这个网页应用可以快速预览这些调色板的配色效果。例如之前的夜间灯光地图使用的就是 lajolla 调色板：

平台上这个色系的预览效果：

使用选定的色系

这个应用特别针对 Stata 和 R 语言的用户进行了设计。例如对于 Stata 用户，经常需要一系列的 RGB 颜色，可以这样设置：

点击 RStata 就可以展开这个窗口了。

Stata 通常使用 RGB 颜色，所以这里需要选择 RGB，然后点击 RStata 拉出结果窗口就可以复制这些颜色值了。

例如在数据分享中债国债到期收益率期限结构（截止 2021 年 9 月 20 日）数据中有这么一幅图：

这幅图需要很多颜色来表示不同的线条，就可以使用这个网页应用进行颜色选择，例如我们选择 tidyquant 里面的 10-class Light 调色板：

这 10 种颜色的值分别是：”44 62 80” “227 26 28” “24 188 156” “204 190 147” “166 206 227” “31 120 180” “178 223 138” “251 154 153” “253 191 111” “255 127 0”，在 Stata 中可以这样使用：

use "中债国债到期收益率数据(截止2021年9月20日).dta", clear 
line rate1m rate3m rate6m rate1y rate2y ///
rate3y rate5y rate7y rate10y rate20y date, ///
xlabel(#6, ang(20)) xti("日期") yti("国债收益率") ///
leg(order(1 "1 月期" ///
2 "3 月期" ///
3 "6 月期" ///
4 "1 年期" ///
5 "2 年期" ///
6 "3 年期" ///
7 "5 年期" ///
8 "7 年期" ///
9 "10 年期" ///
10 "20 年期") pos(1) ring(0) col(3)) ///
lc("44 62 80" "227 26 28" "24 188 156" "204 190 147" "166 206 227" "31 120 180" "178 223 138" "251 154 153" "253 191 111" "255 127 0") lp(solid ...) ///
ti("中债国债到期收益率期限结构") ///
subti("爬取 & 整理：微信公众号 RStata") ///
caption("数据来源：中国债券信息网")

gr export "中债国债到期收益率期限结构.png", replace width(1200)

也就是直接把 10 中颜色的 RGB 值拷贝到 lc() 选项里面就可以了。

如果你是 R 语言用户，建议使用 HEX 颜色值，这个之后把 RGB 改成 HEX 即可：

R 语言的绘图代码如下：

library(tidyverse)
# 字体设置
library(showtext) 
showtext_auto(enable = TRUE) 
font_add("songti", regular = "song.otf")
cnfont <- "songti" 
library(hrbrthemes)
theme_set( 
  theme_ipsum(base_family = cnfont) + 
    theme(axis.text.x = element_text(angle = 20, vjust = 0.4),
          axis.text.y = element_text(hjust = 0.4),
          axis.line.x = element_line(),
          axis.line.y = element_line(),
          panel.grid.minor = element_blank(),
          axis.ticks.length = unit(1.5, "mm"),
          axis.ticks.x = element_line(size = 0.2),
          axis.ticks.y = element_line(size = 0.2),
          panel.grid.major = element_line(linetype = 3, size = 0.5),
          plot.background = element_rect(color = "white"))
)

haven::read_dta("中债国债到期收益率数据(截止2021年9月20日).dta") -> df 

df %>% 
  select(date, rate1m, rate3m, rate6m, 
         rate1y, rate2y, rate3y, 
         rate5y, rate7y, rate10y, 
         rate20y) %>% 
  gather(-date, key = "key", value = "value") %>% 
  mutate(key = factor(key, 
                      levels = c("rate1m", "rate3m", "rate6m", 
                                 "rate1y", "rate2y", "rate3y", 
                                 "rate5y", "rate7y", "rate10y", 
                                 "rate20y"),
                      labels = c("1 月期", "3 月期", "6 月期",
                                 "1 年期", "2 年期", "3 年期",
                                 "5 年期", "7 年期", "10 年期",
                                 "20 年期"))) %>% 
  ggplot(aes(x = date, y = value, color = key)) + 
  geom_line() + 
  scale_color_manual(values = c("#2c3e50", "#e31a1c", "#18bc9c", "#ccbe93", "#a6cee3", "#1f78b4", "#b2df8a", "#fb9a99", "#fdbf6f", "#ff7f00")) + 
  theme(legend.position = c(0.8, 0.8)) + 
  guides(color = guide_legend(nrow = 4, byrow = T)) + 
  scale_x_date(labels = scales::date_format(),
               breaks = scales::date_breaks(width = "2 years")) + 
  scale_y_continuous(breaks = seq(0, 10, by = 2), limits = c(0, 10)) + 
  labs(title = "中债国债到期收益率期限结构",
       subtitle = "爬取 & 整理：微信公众号 RStata",
       caption = "数据来源：中国债券信息网",
       color = "", x = "日期", y = "国债收益率")

ggsave("中债国债到期收益率期限结构2.png", width = 10, height = 6, device = png)

也就是直接把 HEX 颜色值直接复制粘贴到 scale_color_manual() 里面即可！是不是也很方便。

在绘制地图中使用

例如在 Stata 绘制地图中使用，下面的案例展示了如何使用 Stata 绘图展示 2019 年中国各省市地区生产总值：

这里使用的是 ggsci2 中的 10-class teal_material：

完整的 Stata 绘图代码如下：

import delimited using "2020年中国各省市地区生产总值.csv", clear encoding(utf8)
gen prov = substr(省份, 1, 6)
save 2020年中国各省市地区生产总值, replace 

use chinaprov2019mini_db.dta, clear 
gen prov = substr(省, 1, 6)
merge 1:1 prov using 2020年中国各省市地区生产总值
replace 地区生产总值 = -1 if missing(地区生产总值)
grmap 地区生产总值 using chinaprov2019mini_coord.dta, ///
id(ID) osize(vvthin ...) ocolor(white ...) ///
clmethod(custom) clbreaks(-1 0 20000 40000 60000 80000 120000) ///
fcolor(gray "224 242 241" "178 223 219" "128 203 196" "77 182 172" "38 166 154") ///
leg(order(2 "无数据" 3 "< 2 万亿元" 4 "2～4 万亿元" 5 "4～6 万亿元" 6 "6～8 万亿元" 7 "> 8 万亿元")) ///
graphr(margin(medium)) ///
line(data(chinaprov2019mini_line_coord3.dta) ///
/// 去除秦岭淮河线(4)、胡焕庸线(7)
select(keep if inlist(group, 1, 2, 3, 5, 6)) ///
by(group) size(vvthin *1 *0.5 *0.5 *0.5) ///
pattern(solid ...) ///
color(white /// 省界颜色
  black /// 国界线颜色
  "0 85 170" /// 海岸线颜色
  black /// 小地图框格颜色
  black /// 比例尺和指北针颜色
  )) ///
polygon(data(polygon3) fcolor(black) ///
osize(vvthin)) ///
label(data(chinaprov2019mini_label3) x(X) y(Y) label(cname) length(20) size(*0.8)) ///
ti("2019 年中国各省市地区生产总值") ///
subti("绘制：微信公众号 RStata") ///
caption("数据来源：各地统计局", size(*0.8))
gr export pic3.png, replace width(1200)

上面代码中的 fcolor() 就是使用这个网页应用生成的。

R 语言绘制地图的案例上面就有了：

这个图的绘制方法可以学习课程：「使用 R 语言绘制中国夜间灯光地图」

下载附件

Stata 和 R 语言绘图中如何快速的使用调色板？

专利数据匹配服务

2022-08-26T12:29:00.000Z

专利申请量可以反应一家公司的创新能力，之前给大家分享过工企和专利的匹配结果，不过由于版权的原因，暂时还不打算把专利数据公开分享给大家，不过经常有小伙伴询问是否能帮忙匹配，最近尝试了下，感觉还是可行的，因此特推出专利数据匹配服务，收费如下：

RStata 标准数据服务之专利数据匹配服务来啦！就是您提供一些公司的名称，然后我们帮您使用公司名称从专利数据库里面匹配筛选专利，另外还可以进一步进行绿色专利筛选、专利知识宽度计算！

专利申请量可以反映一家公司的创新能力，之前给大家分享过工企和专利的匹配结果，不过由于完整的专利数据库非常庞大，难以处理，所以暂时还不打算把专利数据公开分享，不过经常有小伙伴询问是否能帮忙匹配，最近尝试了下，感觉还是可行的，因此特推出专利数据匹配服务，收费如下：

该服务仅面向 RStata 会员；
每 10 万个公司名称匹配收费 300 元，低于 10 万个公司名称也是 300 元（300 元起步）；
专利知识宽度计算：每 10 万个公司名称收费 100 元，低于 10 万个公司名称也是 100 元（100 元起步）；
绿色专利筛选：每 10 万个公司名称收费 100 元，低于 10 万个公司名称也是 100 元（100 元起步）；
这里的数量是指匹配使用的数量，而非匹配成功的数量；
时间范围限制在 1985～2017 年，之后年份的专利数据不够全，就不再提供匹配了。

例如您有 20 万家公司想要匹配专利数据，就是 2 * 300 = 600 元，如果还需要计算专利知识宽度，需要再增加 2 * 100 = 200 元，合计 800 元。

注意：不使用模糊匹配，而是去除企业名称中无用的关键词进行精确匹配，例如“有限公司”、“有限责任公司”、“股份有限公司”这样的字眼。之所以这样做，大家可以学习这个课程了解：

Stata 中的中文模糊匹配——以 2014 年工企数据和境外投资名录数据匹配为例：https://rstata.duanshu.com/#/brief/course/d4fb816566244662ab6359fa848f1f1e
R 语言中的中文模糊匹配——以工企数据和境外投资名录数据匹配为例：R 语言中的中文模糊匹配——以工企数据和境外投资名录数据匹配为例

另外平台上已有的专利相关数据有：

工企专利匹配结果：https://rstata.duanshu.com/#/brief/course/6a7afa444a194b59830a648017bbbbff
工企绿色专利匹配结果：https://rstata.duanshu.com/#/brief/course/04f4aea3b97e42289e990e1ced0081bc
上市公司与专利匹配结果：https://rstata.duanshu.com/#/brief/course/b16959c334104e93b8e172a51e28a142
瞪羚企业、独角兽和科技型初创企业数据与专利数据库匹配结果：https://rstata.duanshu.com/#/brief/course/b6e3783ad1534c5a97544fc457ffb54e
工企专利知识宽度计算结果：https://rstata.duanshu.com/#/brief/course/86ed4bed3ea449a4b42d82125b64d154
工企 + 海关 + 专利：https://rstata.duanshu.com/#/brief/course/a0341db950fb406bae4c17367f282bb5
工企 + 污染 + 专利：https://rstata.duanshu.com/#/brief/course/809beadfffdf4bf3a6e434f914abb5d9

中国各省市区县分年、分月、逐日日照时数面板数据

2022-08-26T07:29:00.000Z

之前给大家分享过一份 1960～2020 年中国各省市区县的日照时数数据，很多其他公众号、经管之家的数据贩卖者也都迅速的搬运到他们那里了。很多小伙伴还使用了这份数据发布了论文，结果很理想。最近根据大家的反馈，对这份数据进行了重新处理，主要是进行了如下调整：

之前的数据是使用 2019 年行政区划进行插值处理得到，这次更新的数据使用的是 2020 年的行政区划数据进行处理；
之前的数据使用的插值网格是覆盖中国的 500x500 网格，不够精细，这次处理使用的是 0.1˚x0.1˚ 分辨率的网格，也就是每个格点长宽都是 0.1˚（纬度/经度），更加精细；
之前的数据插值后直接分区域平均得到省市区县的数据，部分区县由于面积太小，没有包含任何格点导致数据缺失。此次重新处理则是先把插值得到的网格数据构建成栅格数据数据，然后再分区域汇总，不再有缺失问题了；
之前的城市和省份数据是通过平均区县的数据得到的，不够准确，这一次的数据中，省份和城市的数据也是直接从栅格数据分区域汇总得到的；
为了避免过度平滑的问题，进行插值的时候仅仅使用每个格点附近的 5 个站点数据；
考虑到过早年份的数据可能用处不大，为了节省处理时间，这次仅仅处理了 1980～2020 年的数据。

简而言之，这次的数据是首先把气象站点的数据插值成 0.1˚x0.1˚ 分辨率的网格数据，然后把网格数据转换成栅格数据再分区域平均得到各省市区县的年度、月度和日度数据。

以 2020 年 6 月 1 日日照时数的处理为例，首先是该天所有气象站点的日照时数数据：

使用 IDW 法插值成 0.1˚x0.1˚ 分辨率的网格数据：

把插值得到的网格数据转换成栅格数据：

栅格数据分区域汇总就可以得到省市区县的数据了，例如区县的：

按照上面的处理思路循环处理 1980年1月1日～2020年12月31日的数据即可得到 1980～2020 年中国各省市区县分年、分月、逐日的日照时数数据了，为了方便大家的使用，我把数据保存成了 xslx 格式的：

每份数据都包含各级行政区划代码，方便大家和其他数据集进行匹配，作为参考，下图展示了 2020 年中国各区县日照时数数据：

2020 年 6 月 1 日各城市日日照时数数据：

2020 年 6 月各省份日照时数：

由于这次处理过程中生成了栅格数据，所以附件中也有每天的栅格数据：

最后的这个图展示了 1980～2020 年中国各省市年日照时数的变化：

从图上可以看到，符合东南少而西北多，从东南向西北增加的特点。百度百科上的介绍如下：

秦岭淮河以北和青藏、云南高原东坡以西的高原地区年平均日照时数都在2200 小时以上。
青岛、兰州一线，即北纬 36°以北地区，除了东北的北部和东部以外，日照时数都在 2600 小时以上。
锡林浩特、呼和浩特、银川、西宁、拉萨一线以西北的内陆地区，年平均日照时数普遍在 3000 小时以上，是中国日照最多的地区，其中局部地区甚至可以达到 3300～3500 小时以上。
淮河、秦岭以南，青藏和云南高原东坡以东的地区，年平均日照时数多在 2000 小时以下，是我国少日照地区。其中四川盆地、贵州大部分地区是少日照的中心地区，年平均日照时数不到 1400 小时。该中心地区中四川盆地西坡、川东南、黔西北、鄂西南交界地区年平均日照时数更在1200 小时以下，有些地方甚至不足1000 小时。
中国日照最少的台站就出现在四川盆地西部和滇东北地区。

注意事项

由于日照时数可能受到地形、植被、水文、人类活动等因素的影响，因此使用上文所说的方法计算得到的各区域均值可能与实际值有所偏差。

处理方法

之前的老版本数据有处理方法讲解：

气象数据是如何被整理好的——以平均降水量为例

新版数据的处理方法讲解课程敬请期待！

下载数据

中国各省、各市、各区县分年、分月、逐日日照时数面板数据（1980 ～ 2020 年）

中国各省市区县分年、分月、逐日降水量面板数据

2022-08-19T08:29:00.000Z

之前给大家分享过一份 1951～2020 年中国各省市区县的降水量数据，很多其他公众号、经管之家的数据贩卖者也都迅速的搬运到他们那里了。很多小伙伴还使用了这份数据发布了论文，结果很理想。最近根据大家的反馈，对这份数据进行了重新处理，主要是进行了如下调整：

之前的数据是使用 2019 年行政区划进行插值处理得到，这次更新的数据使用的是 2020 年的行政区划数据进行处理；
之前的数据使用的插值网格是覆盖中国的 500x500 网格，不够精细，这次处理使用的是 0.1˚x0.1˚ 分辨率的网格，也就是每个格点长宽都是 0.1˚（纬度/经度），更加精细；
之前的数据插值后直接分区域平均得到省市区县的数据，部分区县由于面积太小，没有包含任何格点导致数据缺失。此次重新处理则是先把插值得到的网格数据构建成栅格数据数据，然后再分区域汇总，不再有缺失问题了；
之前的城市和省份数据是通过平均区县的数据得到的，不够准确，这一次的数据中，省份和城市的数据也是直接从栅格数据分区域汇总得到的；
为了避免过度平滑的问题，进行插值的时候仅仅使用每个格点附近的 5 个站点数据；
考虑到过早年份的数据可能用处不大，为了节省处理时间，这次仅仅处理了 1980～2020 年的数据。
简而言之，这次的数据是首先把气象站点的数据插值成 0.1˚x0.1˚ 分辨率的网格数据，然后把网格数据转换成栅格数据再分区域平均得到各省市区县的年度、月度和日度数据。

以 2020 年 6 月 1 日降水量的处理为例，首先是该天所有气象站点的降水量数据：

使用 IDW 法插值成 0.1˚x0.1˚ 分辨率的网格数据：

把插值得到的网格数据转换成栅格数据：

栅格数据分区域汇总就可以得到省市区县的数据了，例如区县的：

按照上面的处理思路循环处理 1980年1月1日～2020年12月31日的数据即可得到 1980～2020 年中国各省市区县分年、分月、逐日的累计降水量数据了，为了方便大家的使用，我把数据保存成了 xslx 格式的：

每份数据都包含各级行政区划代码，方便大家和其他数据集进行匹配，作为参考，下图展示了 2020 年中国各区县平均降水量数据：

2020 年 6 月 1 日各城市平均降水量数据：

2020 年 6 月各省份累计降水量：

由于这次处理过程中生成了栅格数据，所以附件中也有每天的栅格数据：

最后的这个图展示了 1980～2020 年中国各省市年累计降水量的变化：

从图上可以看到，符合南方雨水多，北方雨水少的特点。

注意事项

由于降水量可能受到地形、植被、水文、人类活动等因素的影响，因此使用上文所说的方法计算得到的各区域均值可能与实际值有所偏差。

处理方法

之前的老版本数据有处理方法讲解：

气象数据是如何被整理好的——以平均降水量为例

新版数据的处理方法最近会推出课程讲解，敬请期待！

下载数据

中国各省、各市、各区县分年、分月、逐日降水量面板数据（1980 ～ 2020 年）

R 语言绘图中如何添加特殊符号文本？

2021-12-07T12:29:00.000Z

今天有个培训班的小伙伴问了一个这样的问题：

老师，分面facet的时候，想把每个小图的标题带个特殊符号该怎么操作呢。举个例子，原来分面出来的标题是1/2/3现在想改成1℃/2℃/3℃

解决方法有很多，这里提供一种。

首先我们找个绘制分面图的案例：

library(tidyverse)
iris %>% 
  as_tibble()
#> # A tibble: 150 x 5
#>    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
#>                                    
#>  1          5.1         3.5          1.4         0.2 setosa 
#>  2          4.9         3            1.4         0.2 setosa 
#>  3          4.7         3.2          1.3         0.2 setosa 
#>  4          4.6         3.1          1.5         0.2 setosa 
#>  5          5           3.6          1.4         0.2 setosa 
#>  6          5.4         3.9          1.7         0.4 setosa 
#>  7          4.6         3.4          1.4         0.3 setosa 
#>  8          5           3.4          1.5         0.2 setosa 
#>  9          4.4         2.9          1.4         0.2 setosa 
#> 10          4.9         3.1          1.5         0.1 setosa 
#> # … with 140 more rows

iris %>% 
  ggplot() + 
  geom_point(aes(Sepal.Length, Sepal.Width)) + 
  facet_wrap(~Species)

为了演示如何在小图的标题上添加摄氏度符号，我们把 Species 变量替换下：

unique(iris$Species)
#> [1] setosa     versicolor virginica 
#> Levels: setosa versicolor virginica

iris %>% 
  mutate(Species = case_when(
    Species == "setosa" ~ "1°C",
    Species == "versicolor" ~ "2°C",
    Species == "virginica" ~ "3°C",
  )) -> iris2

这里的 ° 在 HTML 里面表示摄氏度的小圆圈，然后我们可以使用 ggtext 包的 element_textbox() 元素：

iris2 %>% 
  ggplot() + 
  geom_point(aes(Sepal.Length, Sepal.Width)) + 
  facet_wrap(~Species) + 
  theme(strip.text = ggtext::element_textbox())

再例如：

iris2 %>% 
  ggplot() + 
  geom_point(aes(Sepal.Length, Sepal.Width)) + 
  facet_wrap(~Species) + 
  labs(title = "ο¶§×¼π") + 
  theme(strip.text = ggtext::element_textbox(),
        plot.title = ggtext::element_textbox())

下面是一些的 HTML 特殊符号的表示方法：

符号	说明	对应编码(使用时去掉&后的空格)	英文读法
&	AND 符号	& amp;	ampersand
<	小于	& lt;	little
·>	大于	& gt;	great
	不断行的空白格	& nbsp;	number space
	半方大的空白	& ensp;
	全方大的空白	& emsp;
¿	倒问号	& iquest;	inverted question
?	问号	& quest;	question
«	左书名号	& laquo;	left angle quote
»	右书名号	& raquo;	right angle quote
“	引号	& quot;	quote
‘	左单引号	& lsquo;	left single quote
’	右单引号	& rsquo:	right single quote
“	左双引号	& ldquo:	left double quote
”	右双引号	& rdquo:	right double quote
¶	段落符号	& para;	paragraph
§	章节符	& sect;	section
×	乘号	& times;	times
÷	除号	& divide;	divide
±	加减号	& plusmn;	plus minus
ƒ	function	& fnof;
√	根号	& radic;	radic
∞	无穷大	& infin;	infinite
°	度	& deg;	degree
≠	不等号	& ne;	ne
≡	恒等于	& equiv;	equivalent
≤	小于等于	& le;	less than or equal to
≥	大于等于	& ge;	great than or equal to
⊥	垂直符号	& perp;	perpendicular
←	左箭头	& larr;	left arrow
→	右箭头	& rarr;	right arrow
↑	上箭头	& uarr;	up arrow
↓	下箭头	& darr;	down arrow
↔	水平箭头	& harr;	horizontal arrow
↕	竖直箭头	& varr;	vertical arrow
⇐	双线左箭头	& lArr;	left arrow
⇒	双线右箭头	& rArr;	right arrow
⇑	双线上箭头	& uArr;	up arrow
⇓	双线上箭头	& dArr;	down arrow
⇔	双线水平双箭头	& hArr;	horizontal arrow
⇕	双线竖直箭头	& vArr;	vertical arrow
♠	黑桃	& spades; spades
♥	红桃	& hearts;	hearts
♣	梅花	& clubs;	club
♦	方块	& diams;	diamonds
©	版权	& copy;	copy right
®	注册商标	& reg;	registration
™	商标	& trade;	trade
¥	人民币	& yen;
€	欧元	& euro;	euro
¢	美分	& cent;	cent
£	英磅	& pound;	pound
⊕		& oplus;
½	二分之一	& frac12;	fraction
¼	四分之一	& frac14;	fraction
‰	千分符号	& permil;	per mille
∴	所以	& there4;	there fore
π	圆周率	& pi;
¹	商标 1	& sup1;	super 1
α	alpha	& alpha;	alpha
β	beta	& beta;	beta
γ	gamma	& gamma;	gamma
δ	delta	& delta;	delta
θ	theta	& theta;	theta
λ	lambda	& lambda;	lambda
σ	sigma	& sigma;	sigma
τ	tau	& tau;	tau