- 已编辑
故事背景是酱紫的,我最近发现了一个很神奇的网站,名为 Sci-Hub,此网站作者提供了一些与网站浏览记录相关的数据集,我把其中一个下载下来,里面有一亿多条数据,差不多长这样:
time doi ip user country city latitude longitude
1: 2017-01-01 00:01:16 10.4028/www.scientific.net/AMM.511-512.286 117 124 China Nanjing Shi 32.060255 118.796877
2: 2017-01-01 00:02:06 10.1111/j.1755-6724.2011.00377.x 177 191 China Guangzhou Shi 23.12911 113.264385
3: 2017-01-01 00:02:19 10.1093/jcr/ucw038 196 214 China Wuhan Shi 30.593099 114.305393
4: 2017-01-01 00:03:27 10.1080/15567036.2015.1057657 271 298 China Shanghai 31.230416 121.473701
5: 2017-01-01 00:03:29 10.1111/j.1755-6724.2011.00378.x 177 191 China Guangzhou Shi 23.12911 113.264385
6: 2017-01-01 00:04:48 10.1111/j.1755-6724.2011.00380.x 177 191 China Guangzhou Shi 23.12911 113.264385
其中,time 是指用户登录网站的时间,格式是“年月日 时分秒”;doi 是一个长字符串,网上搜说是一篇论文的唯一标识编码;ip 是用户IP的唯一标识;user 是用户的唯一标识;country 和 city 是根据GeoIP得到的用户所属国家和城市;latitude 和 longitude 是经度和纬度。
关于此网站的用法举个例子,在叼着钥匙的黑乌鸦下面的白方框中输入一个doi,比如“10.4028/www.scientific.net/AMM.511-512.286”,然后回车就会得到:https://sci-hub.se/10.4028/www.scientific.net/AMM.511-512.286,就能直接看到论文内容。
我想要分析一下这个数据集,但是不知道DOI这个字段应该怎么用,因为无法直接从这个字段得到对应文章的年份、作者、主题等信息。不然就是像https://sci-hub.se/10.1126/science.352.6285.508这篇只统计出下载量最高的前几篇文章。
请问各位路过的小伙伴们有没有什么思路?