R语言&Stata:如何对字符串变量实现分组求和和分组累加?
最近有个培训班的小伙伴遇到了这样的问题,他想对字符串变量进行分组求和与分组累加,但是他不知道该如何实现,今天我们就来一起看一下。
最近有个培训班的小伙伴遇到了这样的问题,他想对字符串变量进行分组求和与分组累加,但是他不知道该如何实现,今天我们就来一起看一下。
最近有培训班小伙伴问到了这样一个问题,如何计算每个城市距离所在省的省会城市的距离。这个问题比较简单,我们就一起来解决下。
最近有不少培训班的小伙伴问到类似这样的问题:如何判断工业企业在长江的北边或者南边?如何判断工业企业在秦岭-淮河线的北边或者南边?今天就分享给大家一份 1998~2013 年工业企业数据库距离秦岭-淮河线的距离与南北方属性的数据:
最近各大新闻媒体都在铺天盖地报道有关两会的新闻,我们也来蹭一下热度,虽然找不到今年人大代表的相关数据,但是我们可以从这个网站: https://news.cgtn.com/event/2019/whorunschina/index.html 获取 2019 年的两会人大代表数据。数据我们已经爬好放在本文的附件中了。
这个案例来源于:Holy ifelse() statements Batman! 不过作者的代码比较老了,我重写了爬取代码,另外作者处理数据过程有点错误,所以我最后画的图和作者的不一样。
祝大家新年快乐!希望大家在新的一年里多拿项目、多发 Paper!我们公众号也会在新的一年里给大家带来更多有用的资源和数据分析课程!
这里提供两种方法,方法一是通过 sankeywheel 包,这个包的使用比较简单,但是自定义程度比较低,另外一个是使用 highcharter 包,代码虽然复杂了点,但是自定义程度很高。
使用 R 语言调用股票交易数据的方法很多,但是感觉都不好用(因为很多都是外国人写的),而 Stata 里面有一个非常好用的命令 cntrade 可以用户股票交易数据的获取,为了方便 R 用户的使用,我把这个命令翻译成了 R 语言的函数,然后我们就可以在 R 里面使用这个命令啦!
今天给大家分享三份关于股权质押的数据,数据爬取自东方财富网:http://data.eastmoney.com/gpzy/
昨天公安部户政管理研究中心在公安部官网上发布了《二〇二〇年全国姓名报告》,里面展示了很多有意思的数据,不过大多是通过表格的形式展现的,不是很直观,今天就让小编通过一些精美的可视化图表来为大家深入解读这份报告~
日照时数(小时)是指太阳在一地实际照射的时数。在一给定时间内,日照时数定义为太阳直接辐照度达到或超过 120 瓦/平方米的各段时间的总和。日照时数也可称实照时数。
今天给大家分享的是去年的最后一天晚上(2020年12月31日)从和讯网爬取的所有上市公司基本资料数据,这份数据里面有每个上市公司的注册地址和办公地址:
经过三天三夜的运行,终于把这份数据处理好了!由于数据量较大,所以分一个个指标分享给大家,今天分享给大家的是 2000 年~2019 年中国各省、各市、各县的分年、分月、逐日的平均降水量数据(20-20时累计降水量,单位 0.1mm)
原始数据来源于国家气象科学数据共享服务平台-中国地面气候资料日值数据集(V3.0),原始数据是各个观测站点的日度数据,为了方便大家使用,我使用 Barnes 方法(先使用 IDW 法插值成格点数据(覆盖中国的 500x500 网格,每个网格的大小是 0.1231924经度 x 0.0994549纬度),再分区域平均)计算得到了2000 年~2019 年中国各省、各市、各县的分年、分月、逐日的平均气温数据。
应培训班的一个小伙伴的需要,今天给大家分享一份从中国瞪羚独角兽 网站爬取的瞪羚企业、独角兽和科技型初创企业名录数据(含基本信息和注册地址经纬度)。
之前给大家分享了一份全球各国(地区)的二级行政区划数据:数据 & 代码分享|使用 R 语言绘制全球各国市级行政区划地图数据 & 代码,这一次给大家分享一份全球各国(地区)的一级行政区划数据和 R 语言绘图代码,考虑到这份数据里面和中国相关的地图数据都是不准确的,所以我删除了中国和印度的数据。
今天给大家分享一份面板格式的世界银行世界发展指标数据(WDI),原始数据来源于世界银行,时间跨度为 1960 年 ~ 2020 年,包含了超过 1400 个指标,由于指标都是英语的,可能不方便理解,所以我再分享一份中英文对照(不能完全对应)。
之前转载过徐老师的一篇:三维人口密度分布图的制作和数据分享,感觉很有意思: