我一直觉得这个很有意思,为什么是0.05或者0.1,假如吃苹果对治疗心脏病有一定的效果,将心脏病人根据年龄、病史、性别分为2组,然后1组每天吃1个苹果(A),另一组不吃(B),假设:H0:A=B,

H1:A>B,得到p=0.2,则我们一般会认为该实验没有确切的证据认为两者有差别。可是在现实生活中,如果一件事的发生概率是0.8,你一定会觉得这件事发生的可能性很大,那我要是心脏病人,一定会认为吃苹果是有效的。
回答楼主题目:



著名的英国统计学家费希尔把小概率的标准定为0.05,虽然费希尔并没有对为什么选择0.05给出充分的解释,但人们还是沿用了这个标准,把0.05或比0.05更小的上成小概率。



——《统计学(第三版)贾俊平 何晓群 金勇进》

中国人民大学出版社(P216-217)



这是我能找到的说法。
[quote]引用第0楼luranguo2009-01-30 04:29发表的“为什么大多数都喜欢将p-value是否大于0.05作为标准呢?”:

我一直觉得这个很有意思,为什么是0.05或者0.1,假如吃苹果对治疗心脏病有一定的效果,将心脏病人根据年龄、病史、性别分为2组,然后1组每天吃1个苹果(A),另一组不吃(B),假设:H0:A=B,

H1:A>B,得到p=0.2,则我们一般会认为该实验没有确切的证据认为两者有差别。可是在现实生活中,如果一件事的发生概率是0.8,你一定会觉得这件事发生的可能性很大,那我要是心脏病人,一定会认为吃苹果是有效的。[/quote]



我个人觉得Fisher只是想相对保守一点吧,或者说求稳。记得原来看过artist说Fisher的思想是反证法,很赞同。就是说如果H0正确,但我们却看到了在H0下极其罕见的现象,那么我们认为H0是错误的。那么多“罕见”才算“罕见”呢?Fisher用了0.05的概率。也就是说,如果H0是正确的,那么我们只有5%的概率观察到手上的这组数据(或者比手上的更加罕见的数据),所以更大的可能不是我们凑巧有了“罕见”的数据,而是我们假设的H0是错误的。



如果用20%的话,我觉得是比较aggressive的做法。在H0的假设下,我们有20%的概率观察到手上的这组数据(或者比手上的更加罕见的数据),那么究竟是因为我们的假设有问题呢还是我们凑巧有了这20%概率的数据呢?我觉得这个矛盾不是很尖锐啊。



对于楼主把0.8解释成H0的概率,这个似乎欠妥。p不是H1发生的概率,1-p也不是H0发生的概率。
[quote]引用第2楼shunqinature2009-01-31 05:39发表的“”:





我个人觉得Fisher只是想相对保守一点吧,或者说求稳。记得原来看过artist说Fisher的思想是反证法,很赞同。就是说如果H0正确,但我们却看到了在H0下极其罕见的现象,那么我们认为H0是错误的。那么多“罕见”才算“罕见”呢?Fisher用了0.05的概率。也就是说,如果H0是正确的,那么我们只有5%的概率观察到手上的这组数据(或者比手上的更加罕见的数据),所以更大的可能不是我们凑巧有了“罕见”的数据,而是我们假设的H0是错误的。



如果用20%的话,我觉得是比较aggressive的做法。在H0的假设下,我们有20%的概率观察到手上的这组数据(或者比手上的更加罕见的数据),那么究竟是因为我们的假设有问题呢还是我们凑巧有了这20%概率的数据呢?我觉得这个矛盾不是很尖锐啊。

.......[/quote]



我觉得各行各业对于p值都有不同的标准,例如对于经济学或者心里学中的检验,p值为0.1或者0.2,已经是很不错的结果了。所以,也许对于医学,正如楼主所言(具体情况我也不清楚),当p=0.2的时候,已经可以做为有效的证据之一。我们平日做的统计题目只是理论上的正确,其实并不一定符合实践的标准。



我同意2楼的话,p不是H1发生的概率,这个在“不得不提的P值”郑冰的文章中有说明。
4 天 后
1) P-value 是 (在H0 = true的情况下)得到和试验数据一样极端(或更极端)的统计量的概率. 它不是H1发生的概率. 假定吃苹果的一组和不吃苹果的一组的差异为D, P-value=0.2的意思是, pure randomly (即H0=true)的情况下, 观察到和D一样或比D更大的差异的概率是20%.



2) p-value 的本质是控制PFR (false positive rate), hypothesis test 的目的是make decision. 传统上把小概率事件的概率定义为0.05或0.01, 但不总是这样. 主要根据研究目的. 在一次试验中(注意:是一次试验, 即single test), 0.05 或0.01的cutoff足够严格了(想象一下, 一个口袋有100个球, 95个白的, 5个红的, 只让你摸一次, 你能摸到红的可能性是多大?). 我刚才强调的是single test, 在multiple test中, 通常不用p-value, 而采用更加严格的q-value. 与p-value 不同, q-value 控制的是FDR (false discovery rate).



3)举个例子.假如有一种诊断艾滋病的试剂, 试验验证其准确性为99%(每100次诊断就有一次false positive). 对于一个被检测的人(single test) 来说, 这种准确性够了. 但对于医院 (multiple test) 来说, 这种准确性远远不够, 因为每诊断10 000个个体, 就会有100个人被误诊为艾滋病.



4)总之, 如果你很care false positive, p-value cutoff 就要很低. 如果你很care false negative (就是"宁可错杀一千, 也不能漏掉一个" 情况), p-value 可以适当放松到 0.1, 0.2 都是可以的.



-本人不是学统计出身, 亦没有数理背景, 错误之处, 请随时更正.
[quote]引用第4楼liguow2009-02-04 12:57发表的“”:

1) P-value 是 (在H0 = true的情况下)得到和试验数据一样极端(或更极端)的统计量的概率. 它不是H1发生的概率. 假定吃苹果的一组和不吃苹果的一组的差异为D, P-value=0.2的意思是, pure randomly (即H0=true)的情况下, 观察到和D一样或比D更大的差异的概率是20%.



2) p-value 的本质是控制PFR (false positive rate), hypothesis test 的目的是make decision. 传统上把小概率事件的概率定义为0.05或0.01, 但不总是这样. 主要根据研究目的. 在一次试验中(注意:是一次试验, 即single test), 0.05 或0.01的cutoff足够严格了(想象一下, 一个口袋有100个球, 95个白的, 5个红的, 只让你摸一次, 你能摸到红的可能性是多大?). 我刚才强调的是single test, 在multiple test中, 通常不用p-value, 而采用更加严格的q-value. 与p-value 不同, q-value 控制的是FDR (false discovery rate).



3)举个例子.假如有一种诊断艾滋病的试剂, 试验验证其准确性为99%(每100次诊断就有一次false positive). 对于一个被检测的人(single test) 来说, 这种准确性够了. 但对于医院 (multiple test) 来说, 这种准确性远远不够, 因为每诊断10 000个个体, 就会有100个人被误诊为艾滋病.

.......[/quote]



Multiple testing的问题最近越来越火了:)



其实我一直有一个问题,从Benjamini开始,现在FDR的控制方法不下10种,为什么Storey的是最流行的?实际应用起来除了Benjamini的方法,其它所有的方法基本上都是一样的。q-value究竟是如何脱颖而出的呢?
[quote]引用第5楼shunqinature2009-02-05 07:22发表的“”:





Multiple testing的问题最近越来越火了:)



其实我一直有一个问题,从Benjamini开始,现在FDR的控制方法不下10种,为什么Storey的是最流行的?实际应用起来除了Benjamini的方法,其它所有的方法基本上都是一样的。q-value究竟是如何脱颖而出的呢?[/quote]



q-value 是随着multipel test 而产生的. 在multiple test (比如10000次), 如果用p-value=0.05去cut. 如果有1000次是显著的, 那么在这1000中, 有10000*0.05=500次是 False positive. 这显然不能接受. 太宽松了.



Bonferroni提出FWER, 在上面的例子中, 就是把cutoff 设为: 0.05/10000 = 0.000005, 这虽然能控制False Positive, 但这只在极少数情况下有用. 因为太严格了, 大量的true alternatives 被miss掉了



q-vlaue 实际上是上述两种方法的折衷. 既能控制FP, 有不会miss掉太多的true alternatives.



For details see Storey's paper published ON PNAS (2003).
[quote]引用第6楼liguow2009-02-05 14:24发表的“”:





q-value 是随着multipel test 而产生的. 在multiple test (比如10000次), 如果用p-value=0.05去cut. 如果有1000次是显著的, 那么在这1000中, 有10000*0.05=500次是 False positive. 这显然不能接受. 太宽松了.



Bonferroni提出FWER, 在上面的例子中, 就是把cutoff 设为: 0.05/10000 = 0.000005, 这虽然能控制False Positive, 但这只在极少数情况下有用. 因为太严格了, 大量的true alternatives 被miss掉了

.......[/quote]



赞同:)不过我的问题并不是关于FWER,而是关于FDR的控制。Benjamini and Hochberg在1995年第一次提出了FDR的概念,其出发点就是基于Bonferroni的保守性,并给出了控制FDR的方法(这算是FDR控制方法的祖师爷了)。不过他们的方法也有其保守性。所以随后人们开始研究更加powerful的方法,现有的方法有Storey的, Broberg的,Dalmasso的,Guan的,Strimmer的等等等等。Benjamini的方法是将FDR控制在一个level以下,而之后所有的方法都在试图精确地估计FDR。所以后来的这些方法都要powerful一些。不过他们所付出的代价就是robustness。



现有FDR控制方法最大的弊端在于,他们假设p-value's under the null hypothesis是(1)independent(2)following uniform (0,1) distribution. 这两点假设从实际观察到的数据来看经常是不合理的,尤其是第二点。(顺便提一句,Storey和Leek在07年的PLOS Genetics发表了一篇文章专门解决第二个假设的合理性问题,很牛,有兴趣可以看一下)



我现在的问题是:Storey的方法没有比后来出现的其它方法更精确,在robustness方面也没有体现其优越性。它究竟是怎么获胜的?为什么它是最流行的FDR control procedure?
15 天 后
[quote]引用第7楼shunqinature2009-02-06 05:03发表的“”:





赞同:)不过我的问题并不是关于FWER,而是关于FDR的控制。Benjamini and Hochberg在1995年第一次提出了FDR的概念,其出发点就是基于Bonferroni的保守性,并给出了控制FDR的方法(这算是FDR控制方法的祖师爷了)。不过他们的方法也有其保守性。所以随后人们开始研究更加powerful的方法,现有的方法有Storey的, Broberg的,Dalmasso的,Guan的,Strimmer的等等等等。Benjamini的方法是将FDR控制在一个level以下,而之后所有的方法都在试图精确地估计FDR。所以后来的这些方法都要powerful一些。不过他们所付出的代价就是robustness。



现有FDR控制方法最大的弊端在于,他们假设p-value's under the null hypothesis是(1)independent(2)following uniform (0,1) distribution. 这两点假设从实际观察到的数据来看经常是不合理的,尤其是第二点。(顺便提一句,Storey和Leek在07年的PLOS Genetics发表了一篇文章专门解决第二个假设的合理性问题,很牛,有兴趣可以看一下)

.......[/quote]



得高人指点了。答案比我想象得简单多了:因为q-value是“最早的”估计FDR的方法。