难道现在搞6 sigma的人都不用学统计学理论么……看来我误会6 sigma了……
我个人从来都是不是象牙塔学派,正好相反,我是应用优先于理论的。但不管你做什么应用,如果理论没通,用起来到处都是陷阱,统计学兼具科学和艺术,我认为提供一些粗略的手指头原则也无妨,但这些原则在有更好的条件的时候应该放弃。就像计算机半秒钟能画出来的Q-Q图,就没必要拿着尺笔在概率纸上描点了。统计的易用性当然很重要,理论不是专为数学家准备的。其实我也是Tukey的大粉丝,不过这并不意味着我认为他的每一种方法都有用。
我说了这个问题可以计算机模拟验证一下,我专挑了个Weibull分布(寿命数据常服从的分布),结果和Tukey的经验相去甚远,下图是t检验和Wilcoxon检验的P值与Tukey计数的对照。
[attachment=201991,94]
话说回来,连统计学专业的人都还在学习一些30年代的纸笔计算技巧,等到工业界更新统计知识就不知道是什么时候了。
附模拟R代码:
set.seed(402)<br />
n = 30<br />
tukeyTest = data.frame(t(replicate(10000, {<br />
x1 = rweibull(n, runif(1, 0.5, 4))<br />
x2 = rweibull(n, runif(1, 1, 5))<br />
c(t.test(x1, x2)$p.value, wilcox.test(x1, x2)$p.value, with(rle(rep(0:1,<br />
each = n)[order(c(x1, x2))]), ifelse(head(values, 1) ==<br />
tail(values, 1), 0, sum(lengths[c(1, length(lengths))]))))<br />
})))<br />
colnames(tukeyTest) = c("t.test", "wilcox.test", "count")<br />
png("tukeyTest.png", width = 500, height = 500)<br />
par(mar = c(4.5, 4, 2, 0.1))<br />
with(tukeyTest, {<br />
boxplot(t.test ~ count, at = unique(count) - 0.2, col = rgb(1,<br />
1, 0, 0.5), xlim = c(min(count) - 1, max(count) + 1),<br />
xaxt = "n", xlab = "Tukey Count", ylab = "P-values",<br />
notch = TRUE, boxwex = 0.5)<br />
boxplot(wilcox.test ~ count, at = unique(count) + 0.2, add = TRUE,<br />
col = rgb(0, 1, 0, 0.5), xaxt = "n", notch = TRUE, boxwex = 0.5)<br />
axis(1, unique(count))<br />
})<br />
dev.off()<br />
</p>