camelbbs009 请教一下各位大神, 我看有些文章这样做置换检验: 用两组真实的数据去做相关性,得到一个值,然后随机打乱两组的样本,再去做相关性,得到另一个值,打乱1000次之后,看真实的值在这1000个值中的位置是不是前5%,这样得到pvalue 我很好奇,基于真实的数据得到的值不是应该是最准确的么,不管这个值在最后的结果中是不是在前5%,你随机打乱之后的结果有什么意义呢?这样做置换有什么意义吗? 谢谢!
tctcab 看到5%敏感一点就该反应过来这是求置信度了。随机打乱的意义在于打破了数据之间的相关性, 提供一个随机的对照。然后检验是不是在前5%,翻译一下就是 假设x和y完全随机,观察到x和y的相关系数达到或者高于z的概率小于5%,所以x和y的相关性具有统计显著性
fenguoerbian 这2000个数,完全随机打乱再计算相关性,并把这个过程大量重复,你就可以得到这两组原始观测如果真的是完全无关的前提下,计算得到的相关性范围到底在哪里。这时候如果你发现原始数据计算的相关性明显排在左右两侧极端的位置,不正说明了在原假设“两组数据不相关”的假定下,一个小概率事件被你观测到了吗,也就很有信心可以说明原数据不会真的是不相关的了。
camelbbs009 终于想明白了,就好比你觉得自己很美,比大多数人都美,这是真的吗,为了验证你的想法,你去随便找了1000个人来比较,发现你在这1000个人中既不是最美的,也不是最丑的,那你的美就不显著了。谢谢楼上的回复!