我想分析两组有配对关系的数据之间变化的差异大小,有人建议对数据排序后用Wilcoxon signed-rank test 或者 Spearman's rank correlation coefficient。

数据如下:

order1: 1 2 3 4 5 6 7 8 9 10

value1: 200 110 16 15 13 10 9 5 3 2

value2: 198 34 2 17 3 18 4 11 30 10

order2: 1 2 10 5 9 4 8 6 3 7

value1和value2是各样本在第一组和第二组中对应的值的大小(样本丰度),order1 和 order2是对应的排序。用Spearman's rank correlation coefficient可以对排序的变化计算rho值,我的问题是,在计算排序时,可以否加上跟value相关的权重,因为排序靠前的在样本中占的比重大,所以它的变化显得更重要。

先说Wilcoxon signed-rank test。

(1)paired t-test:检验两组均值是否相等

(2)Wilcoxon signed-rank test: 检验两组的中位数是不是相等。这个是paired t-test的非参检验版本的类比。从名字可以看出就是用两组数的rank信息。因为t test是在正态条件下,当数据偏的离谱的时候,就没法用t了。所以只好做出牺牲,用Wilcoxon signed-rank test。 但于此同时,你可以看到,你能得到的结果弱的多了。

(3)感兴趣可以去搜下: sign test。 这个检验配对的两组数之间差别的正负号数目是否相等。

这三个检验可以算一伙的。

再说Spearman's rank correlation coefficient。

不同的correlation coefficient是用来反映变量之间相关性的工具。衡量线性相关性的指标地球人都熟悉,就是传说中的pearson correlation coefficient。 但是它是存在局限性(即:线性相关)的。于是作为互补,有另外两种衡量相关性的方式:rank correlation 和 coefficients of tail dependence。而你说的 Spearman’s rho就是前面那种了。这个 Spearman’s rho可以看成是pearson correlation coefficient相应的非参版本类比(是不是感觉生活在重复[s:13])。这个可以反映的是两组变量之间的单调相关性,这个有进步的地方是可以衡量非线性单调关系。但是对那种非单调的相关性就不管用啦。你可以看看这里:https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php

那关于你这个例子,如果Spearman’s rho高说明了什么呢?说明了value1变大的时候,value2也会相应的变大(或者相应变小)。但是变化多少就不知道了,可能说value1加10%,value2也相应加10%,也可能value1加10%,value2增加50%,但只要它们变化的方向是相关的,那Spearman’s rho就高。

所以,我不认为这里可以加权重。

回复 第2楼 的 happy_rabbit:

谢谢!原理明白了。我看了Spearman’s rho值的计算公式,因为我想加权重的想法就是排名靠前的排序变化希望得到更大的rho值。https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php 这儿提到了两种计算rho值的方法,不知道R中是采取的哪种算法,但我猜应该是第一种,就是基于对应序号差值的平方和。对于这种算法,我想了一个变通的方法,排序时从小往大排,这样值大可以更大的序号,也就起到了我想加权重的目的,不知道是否合理阿。