感觉要揭晓一个惊天秘密的节奏。
我从Sci-Hub上下载了一个数据集,但是对DOI这个东西感到迷茫
- 已编辑
画了中美日伊四个国家的当天内的访问时间分布( 中美数据太多做了点采样,每个城市10万,日本伊朗没有采样)
结果显示的是所有国家国内城市分布很一致, 中国所有城市的时间分布分为三个波,日本也有三个波的趋势,美国基本都很平均,但Galloway也显示了跟中日差不多的三个峰的形状。
所以目前看来的线索显示:
三峰的解释可能是早上工作(峰1)-午饭+午休 - 下午工作 (峰2) - 晚饭 - 晚上工作(峰3) 来解释可能更合适,这也更接近我在国内研究生阶段的经验。 而访问时间可能如@yufree 所说,服务器在中东附近,凌晨五点时对应北京时间早上十点的上班高峰,10点对应下午两三点, 16对应晚上八九点,另外三餐雷打不动判断应该是由食堂开饭时间决定。
1.1. 定西市跟中国其他市是没有区别的, 依然怀疑定西其实是深圳。日本的三个峰型与中国位置接近,但峰型向米帝的平均化接近,提示饮食习惯介于中西之间(?)
2.1 没仔细算,肉眼判断日本三峰比国内城市左偏一点点,考虑日本与中国1小时时差,算是难判断。米帝的峰型分布提示,全米只有Galloway有食堂。
伊朗凌晨一点有个调皮的小峰,也不知道为什么
中日伊三国的开始和结束的持续时间接近(8~12小时),符合人正常作息,米帝超常待机感觉有点奇怪。
总之又出现了新的问题…
如果流量前十城市没有深圳确实离谱了,确实有可能是定西跟深圳搞混了。如果 scihub 用了trackmyip来确定城市,那么根据他们的 Dingxi IP address report,很多定西IP的ISP竟然是广东或辽宁的。虽然我不知道为啥广东辽宁的ISP会跑到甘肃提供IP,但这种莫名其妙的匹配机制很有可能是定西问题的合理解释,也就是sichub用的IP与地址对应所依赖的数据库更新不及时,甚至到现在都是错的。
看起来定西之谜已经解开了。至于新产生的漂亮国之谜……
Sci-Hub 2017年全年流量的24小时分布确实如 @yufree 所言,有三个峰值。
我注意到美国的流量是在7月暴增了一波,Sci-Hub全年的流量也是在7月增加了许多,于是猜测也许那年7月以前 Sci-Hub 在漂亮国被封了,7月后解封。
漂亮国2017年1-4月的24小时流量分布:
漂亮国2017年7月的24小时流量分布:
漂亮国2017年11月的24小时流量分布:
对比其1-4月和7月的图,看上去好像是图中13点是那边人们睡觉的时间,于是1-4月有过正常的峰值,后来被封了再解封以后13点左右的波谷被填平了,也许那边人们意识到要多存点备份,从7月开始混入不自然的流量。这波不自然的流量使得后来11月本该存在的波谷也被填平了。
七月份增加其实量级不大,可能跟暑期项目或者开学有关