• 新鲜事
  • 我从Sci-Hub上下载了一个数据集,但是对DOI这个东西感到迷茫

感觉要揭晓一个惊天秘密的节奏。

000018.png

画了中美日伊四个国家的当天内的访问时间分布( 中美数据太多做了点采样,每个城市10万,日本伊朗没有采样)

结果显示的是所有国家国内城市分布很一致, 中国所有城市的时间分布分为三个波,日本也有三个波的趋势,美国基本都很平均,但Galloway也显示了跟中日差不多的三个峰的形状。

所以目前看来的线索显示:

  1. 三峰的解释可能是早上工作(峰1)-午饭+午休 - 下午工作 (峰2) - 晚饭 - 晚上工作(峰3) 来解释可能更合适,这也更接近我在国内研究生阶段的经验。 而访问时间可能如@yufree 所说,服务器在中东附近,凌晨五点时对应北京时间早上十点的上班高峰,10点对应下午两三点, 16对应晚上八九点,另外三餐雷打不动判断应该是由食堂开饭时间决定。
    1.1. 定西市跟中国其他市是没有区别的, 依然怀疑定西其实是深圳。

  2. 日本的三个峰型与中国位置接近,但峰型向米帝的平均化接近,提示饮食习惯介于中西之间(?)
    2.1 没仔细算,肉眼判断日本三峰比国内城市左偏一点点,考虑日本与中国1小时时差,算是难判断。

  3. 米帝的峰型分布提示,全米只有Galloway有食堂。

  4. 伊朗凌晨一点有个调皮的小峰,也不知道为什么

  5. 中日伊三国的开始和结束的持续时间接近(8~12小时),符合人正常作息,米帝超常待机感觉有点奇怪。

总之又出现了新的问题…

如果流量前十城市没有深圳确实离谱了,确实有可能是定西跟深圳搞混了。如果 scihub 用了trackmyip来确定城市,那么根据他们的 Dingxi IP address report,很多定西IP的ISP竟然是广东或辽宁的。虽然我不知道为啥广东辽宁的ISP会跑到甘肃提供IP,但这种莫名其妙的匹配机制很有可能是定西问题的合理解释,也就是sichub用的IP与地址对应所依赖的数据库更新不及时,甚至到现在都是错的。

看起来定西之谜已经解开了。至于新产生的漂亮国之谜……

Sci-Hub 2017年全年流量的24小时分布确实如 @yufree 所言,有三个峰值。

我注意到美国的流量是在7月暴增了一波,Sci-Hub全年的流量也是在7月增加了许多,于是猜测也许那年7月以前 Sci-Hub 在漂亮国被封了,7月后解封。

漂亮国2017年1-4月的24小时流量分布:

漂亮国2017年7月的24小时流量分布:

漂亮国2017年11月的24小时流量分布:


对比其1-4月和7月的图,看上去好像是图中13点是那边人们睡觉的时间,于是1-4月有过正常的峰值,后来被封了再解封以后13点左右的波谷被填平了,也许那边人们意识到要多存点备份,从7月开始混入不自然的流量。这波不自然的流量使得后来11月本该存在的波谷也被填平了。

七月份增加其实量级不大,可能跟暑期项目或者开学有关

    tctcab
    也是哦,社畜当久了,都忘了还有暑假这回事了。

    15 天 后