- 已编辑
Cloud2016
回头我就琢磨下怎么用 rcrossref 吧,我只会 R,不会 Python。我下载的是 Sci-Hub 2017年的数据集,里面DOI去重以后有28773939个,只看中国的也有8785828,量确实很大。
另,这个数据集没有缺失,每一条数据都有一个DOI,说明可以默认全都是网站的有效浏览。我只取中国的,按城市汇总浏览量,如下:
rank city freq
1 Beijing 3807399
2 Shanghai 2915865
3 Dingxi Shi 2147668
4 Guangzhou Shi 1365568
5 Nanjing Shi 1305058
6 Wuhan Shi 1050703
7 Hangzhou Shi 962155
8 Chengdu Shi 904620
9 Changsha Shi 757669
10 Tianjin 670712
11 Xian Shi 669085
12 Zhengzhou Shi 538862
13 Hefei Shi 512964
那个“Xian Shi”我想了一会,明白是“西安市”。理论上浏览量最高的都是教育大省的省会城市,为撒浏览量第三多的会是定西市咧?