本世界人口最近感觉到蔬菜的价格有点上涨,就想着去武汉市公共数据开发平台下载一些菜市场的蔬菜批发价格来看看。本意是想看看疫情开放以后,在年末蔬菜价格会否受影响。不过政府公开的数据像是做样子的,写的更新日期是昨天,但是实际数据还是截止到半年前的。先随便挑了大白菜的数据来看,发现在2019年3月13日的数据极高,又挑了土豆和冬瓜的数据来看,发现同样是在2019年3月13日的数据出现了极值,此时我猜想该不会是那天的数据因为撒不可抗力录入错误吧。但是看冬瓜的数据,在2019年3月13日以后,很快又出现了一个波峰,难道那其实只是个特殊的日子数据是真实的嘛。接着又看了白萝卜、南瓜、红薯……
楼主的问题是,如何分析2019.3.13的数据是出了错误的异常值还是被什么影响了的真实值呢?
如果是真的,那么这一天白菜、土豆、冬瓜、萝卜、红薯、南瓜大宗价都完全一样,最高价最低价也一样,真是选择障碍患者的地狱。另一种可能,excel的自动填充功能真香。
嗯,三水说得有道理。我试着把异常点都找出来,然后再回来继续盖楼。
借用珍珠哥在因果推断里的观点,想要找原因的话只能跳出数据之外,寻找数据背后的故事,只有数据没有故事那就分析不出原因来。