Msmart
回帖过程中,想起一个我自己关于t值(这里就以t检验为例吧)和p值的学习过程,抛个砖头,希望能引起大家的思考。
大学刚开始学习统计课程时,接受的是中文教材中列出的检验步骤,确定显著性水平,确定t界值,然后用样本t值比较t界值是一个标准的过程,这个时候接触到的还有查表啊,等等一系列前信息时代的操作。到了大三,系里一位水平颇佳的女老师上非参数统计,上来就是“你们老看什么t值啊,为什么不看p值?”,从此第一次听到了p值这个说法。也开始理解t值和p值的等价性,以及判别条件“t值vs. t界值”和“p值vs. 显著性水平”的等价性。但是我当时有一个疑惑,既然统计等价,为什么老师推荐p值呢?可惜她卖了关子,我们就似懂非懂的问道“老师,考试会考这个吗”,呵呵,大学时代啊
后来知道的东西多了一些,尤其是研究生阶段,偶然会听到一些大统计学家八卦,往往收益匪浅。也开始明白Neyman和Pearson的时代,发明了检验方法后,用t值和t界值比较是一个自然的做法,20世纪初的光景啊,能给出t分布表就不错了,p值是一个仅仅存在于理论的概率罢了。后来,就是大家都知道的,随便一个统计软件,哗啦什么都给输出来了,p值往往也是一目了然。
后来有位来自加州Davis老师给MBA上统计,这位老师在商学院中10年有9年拿了年度最佳老师(打败了finance,marketing....),据说把商务统计学教得出神入化,要求学生写得统计分析报告是给家中姥姥都看得懂的,我不知道姥姥是不是看得懂,我是助教,我判final report时常拍案叫绝。第一堂课上,他谈p值,之前谈了一堆祖母做蛋糕如何控制时间的时候,谈到……这个p值可以理解为你下结论的风险。我受过精算学训练,知道什么是风险,可是突然听到这么个词语,有些发闷。有意思的是,当时课堂上做着另外一位当今的大统计学家,时序领域,英国来的。他是路过,来听听。后来我问他,这个解释如何?他说“某种程度上可以这么理解”,我并不知道“哪些情况下不可以这么理解”,但是我喜欢上这个解释。之后,无论是我给咨询师做咨询,还是自己带项目给乙方做解释,还是和其他各个专业的人合作学术论文讨论问题,我都喜欢这么解释我的检验。这个不一定严格,但是make sense,容易理解。大家觉得呢?
这两年看学术文章,尤其是JF,JFQA,JFE等上顶级的金融学术文章,感觉早二十年大家喜欢报告统计量和2倍标准差,近些年的文章,尤其是样本量较小,都是直接报告p值,一目了然。
p值,大家觉得应该如何理解呢?
P.S. 现在人大统计系数理统计是谁教?她怎么解释这个概念。
医者
楼上的兄弟,我QQ是30091409,加我,聊聊
医者
还有就是用EXCEL做的TTEST中双样本等方差T检验的时候返回的P值中表述是:P(T<=t)=0.5325
那么其中的T和t分别代表什么?
医者
The probability value (p-value) of a statistical hypothesis test is the probability of getting a value of the test statistic as extreme as or more extreme than that observed by chance alone, if the null hypothesis H0, is true.
It is the probability of wrongly rejecting the null hypothesis if it is in fact true.
It is equal to the significance level of the test for which we would only just reject the null hypothesis. The p-value is compared with the actual significance level of our test and, if it is smaller, the result is significant. That is, if the null hypothesis were to be rejected at the 5% signficance level, this would be reported as "p < 0.05".
Small p-values suggest that the null hypothesis is unlikely to be true. The smaller it is, the more convincing is the rejection of the null hypothesis. It indicates the strength of evidence for say, rejecting the null hypothesis H0, rather than simply concluding "Reject H0' or "Do not reject H0".
医者
上面的that observed by chance alone是指的什么?指显著水平还是指通过这次样本计算出来的t?
rtist
neyman & pearson和fisher的检验完全是两种东西:fisher的检验里面不会存在备则假设——fisher的理论基础就是反证法。无论想证明什么是正确的,都要先假定它不正确,然后看从这个不正确的假定中可以得到什么奇怪的结果(比如发生了一件本来几乎不会发生的小概率事件),从而推翻原假设。p值得概念就是这样得来的,它就是那个奇怪的结果,如果p值很大,也就是并不奇怪的时候,按照反证法的原理来看,我们不知道原假设是不是正确的,再大的p值也不能说明原假设正确。
neyman & pearson体系里面出现了备则假设,要判断原假设和备则假设哪个正确,显而易见的方法就是看究竟是在原假设成立的情况下更容易观测到手头的数据,还是在备则假设成立的情况下更容易观测到手头的数据——两者相除即得likelihood ratio test。
bayesian体系下面将原假设和备则假设都不看作是固定但未知的事实,而看作是一种不固定的随机变量,变量的分布则由头脑发热的一个猜测(即信仰,主观的)和手头的真实数据(客观的)共同决定的。因为两个假设都不是固定的,所以也谈不上”判断“那个假设正确。所以decision theory下大家常看的是平均情况下那个假设更可能发生(后验概率或者bayes factor)。
在fisher的体系下,使用t检验或者F检验的唯一原因是他们容易计算,在他看来,这些检验都是为了得到真正的p值而进行的”近似“,而真正的p值是由permutation来决定的。那个时代没有现在这么快的计算机,大家需要做permutation检验来找到p值的时候,就是用一大屋子的妇女,让一个人算一两种permutation下统计量的值,然后汇总一大屋子人的结果,得到最后的(通常是nominal)p值。
在neyman & pearson体系下,如果t检验的所有条件都满足,那么fisher用来对真正的p值来进行近似t检验或者F检验恰恰和neyman & pearson的likelihood ratio test是同一个东西的。当然,本质上的区别还是很明显的。前面已经说过,fisher检验下面根本就不存在备则假设;而neyman & pearson则还要在备则假设下最大化似然函数,也就是将观测到数据的概率最大化。
而在bayesian体系下,bayes factor又恰好是观测到数据后的后验likelihood ratio,又与lrt形成了联系。但两者的区别同样很明显,bayesian把每个可能参数按照头脑发热得来的先验概率进行了平均,而LRT则是仅仅挑选两个固定的参数值来使得似然函数最大化。
实际应用中,人们通常不特别在乎这些区别,因为三个体系谁对谁错根本没法说得清,一般只有哲学家才回思考这些问题。幸运的是,只要数据提供证据非常充分,三种体系下进行的检验结论通常是一致的,也就是说,不论那种体系的大样本理论最后都是一样的。但是当数据量很少的时候,三者的结论可能相差甚远。
feifeichen
请问对于一个样本得出来的P有什么意义?
多个呢?
P和a关系呢?
假如已知H0成立,情况下,上面的问题呢?
假如不知呢?
一个未入门的小白的疑惑............
rtist
[quote]引用第6楼feifeichen于2007-07-22 23:32发表的“”:
请问对于一个样本得出来的P有什么意义?
多个呢?
P和a关系呢?
假如已知H0成立,情况下,上面的问题呢?
.......[/quote]
p值可以理解为数据所提供的证据的强度。
p和alpha没关系,alpha是人为随便定的。
fisher当年顺嘴说出了一个1/20吧,结果就被当成圣经传下来了。
p值永远只能在H0下来计算,它是”假定“H0成立的情况下的概率。
Msmart
我回了你消息
[quote]引用第1楼医者于2007-07-23 09:41发表的“”:
楼上的兄弟,我QQ是30091409,加我,聊聊[/quote]
Msmart
NB!狂赞
[quote]引用第5楼rtist于2007-07-23 12:26发表的“”:
neyman & pearson和fisher的检验完全是两种东西:fisher的检验里面不会存在备则假设——fisher的理论基础就是反证法。无论想证明什么是正确的,都要先假定它不正确,然后看从这个不正确的假定中可以得到什么奇怪的结果(比如发生了一件本来几乎不会发生的小概率事件),从而推翻原假设。p值得概念就是这样得来的,它就是那个奇怪的结果,如果p值很大,也就是并不奇怪的时候,按照反证法的原理来看,我们不知道原假设是不是正确的,再大的p值也不能说明原假设正确。
neyman & pearson体系里面出现了备则假设,要判断原假设和备则假设哪个正确,显而易见的方法就是看究竟是在原假设成立的情况下更容易观测到手头的数据,还是在备则假设成立的情况下更容易观测到手头的数据——两者相除即得likelihood ratio test。
bayesian体系下面将原假设和备则假设都不看作是固定但未知的事实,而看作是一种不固定的随机变量,变量的分布则由头脑发热的一个猜测(即信仰,主观的)和手头的真实数据(客观的)共同决定的。因为两个假设都不是固定的,所以也谈不上”判断“那个假设正确。所以decision theory下大家常看的是平均情况下那个假设更可能发生(后验概率或者bayes factor)。
在fisher的体系下,使用t检验或者F检验的唯一原因是他们容易计算,在他看来,这些检验都是为了得到真正的p值而进行的”近似“,而真正的p值是由permutation来决定的。那个时代没有现在这么快的计算机,大家需要做permutation检验来找到p值的时候,就是用一大屋子的妇女,让一个人算一两种permutation下统计量的值,然后汇总一大屋子人的结果,得到最后的(通常是nominal)p值。
.......[/quote]
Msmart
“指通过这次样本计算”,你的这个理解完全正确。这是在定义p值,算p值需要算t值。
不过显著水平是不用算的,是我们自己给的,见rtist上面的回复。
[quote]引用第4楼医者于2007-07-23 11:34发表的“”:
上面的that observed by chance alone是指的什么?指显著水平还是指通过这次样本计算出来的t?[/quote]
Msmart
原来fisher已经从小概率事件思想定义了检验。
我是直接从Neyman和Pearson的理论学起的,我也理解你说"fisher的检验里面不会存在备则假设"是什么意思。不过我一开始就把本科学得假设检验当作NP的特殊情形,因为取非本身也是一种备则对吧。我倒是不知道Fisher那时已经手动去算P值,并把它当作衡量小概率事件概率可能有多么小的一个标准。这也是理解P值的一个很好的方式。
[quote]引用第5楼rtist于2007-07-23 12:26发表的“”:
neyman & pearson和fisher的检验完全是两种东西:fisher的检验里面不会存在备则假设——fisher的理论基础就是反证法。无论想证明什么是正确的,都要先假定它不正确,然后看从这个不正确的假定中可以得到什么奇怪的结果(比如发生了一件本来几乎不会发生的小概率事件),从而推翻原假设。p值得概念就是这样得来的,它就是那个奇怪的结果,如果p值很大,也就是并不奇怪的时候,按照反证法的原理来看,我们不知道原假设是不是正确的,再大的p值也不能说明原假设正确。
neyman & pearson体系里面出现了备则假设,要判断原假设和备则假设哪个正确,显而易见的方法就是看究竟是在原假设成立的情况下更容易观测到手头的数据,还是在备则假设成立的情况下更容易观测到手头的数据——两者相除即得likelihood ratio test。
bayesian体系下面将原假设和备则假设都不看作是固定但未知的事实,而看作是一种不固定的随机变量,变量的分布则由头脑发热的一个猜测(即信仰,主观的)和手头的真实数据(客观的)共同决定的。因为两个假设都不是固定的,所以也谈不上”判断“那个假设正确。所以decision theory下大家常看的是平均情况下那个假设更可能发生(后验概率或者bayes factor)。
在fisher的体系下,使用t检验或者F检验的唯一原因是他们容易计算,在他看来,这些检验都是为了得到真正的p值而进行的”近似“,而真正的p值是由permutation来决定的。那个时代没有现在这么快的计算机,大家需要做permutation检验来找到p值的时候,就是用一大屋子的妇女,让一个人算一两种permutation下统计量的值,然后汇总一大屋子人的结果,得到最后的(通常是nominal)p值。
.......[/quote]
redlou
for a nested set of rejection regions{J},the p-value of an observed statistic T=t is
define to be
p-value(t)=\min_{J: t\in J} {Pr(T \in J | H=0)}.
医者
[quote]引用第12楼redlou于2007-07-23 15:35发表的“”:
for a nested set of rejection regions{J},the p-value of an observed statistic T=t is
define to be
p-value(t)=min_{J: tin J} {Pr(T in J | H=0)}.[/quote]
能不能把他通顺地翻译成中文?
医者
看了一个英文的说明:The significance level of the test is not determined by the p-value.
The significance level of a test is a value that should be decided upon by the agent interpreting the data before the data are viewed, and is compared against the p-value or any other statistic calculated after the test has been performed.
就是说显著水平不适由P值决定的。那么t界值是不是由显著水平α 决定的呢?如果是那样的话,在表述t界值的时候就不该出现P值是不是?
oliyiyi
早就发现rtist是个大牛了,呵呵!
无痕
今年是王星老师教的。呵呵,我们用的John A. Rice 那本Mathematical Statistics and Data Analysis,也就是按上面的定义讲的拉。具体怎么叙述的记不清。
不过应该就是说:p-value是原假设为真的时候,拒绝原假设的概率,就是犯第一类错误的概率。p值越小犯第一类错误的风险就越低。我就这么理解的,不知道对不对。
医者
[quote]引用第16楼无痕于2007-07-24 17:22发表的“”:
今年是王星老师教的。呵呵,我们用的John A. Rice 那本Mathematical Statistics and Data Analysis,也就是按上面的定义讲的拉。具体怎么叙述的记不清。
不过应该就是说:p-value是原假设为真的时候,拒绝原假设的概率,就是犯第一类错误的概率。p值越小犯第一类错误的风险就越低。我就这么理解的,不知道对不对。[/quote]
是对的,但是需要对P值的深层理解!
hexm26
这个太牛了,坛主不加精固顶都对不起全中国人民!!!
[quote]引用第5楼rtist于2007-07-23 12:26发表的“”:
neyman & pearson和fisher的检验完全是两种东西:fisher的检验里面不会存在备则假设——fisher的理论基础就是反证法。无论想证明什么是正确的,都要先假定它不正确,然后看从这个不正确的假定中可以得到什么奇怪的结果(比如发生了一件本来几乎不会发生的小概率事件),从而推翻原假设。p值得概念就是这样得来的,它就是那个奇怪的结果,如果p值很大,也就是并不奇怪的时候,按照反证法的原理来看,我们不知道原假设是不是正确的,再大的p值也不能说明原假设正确。
neyman & pearson体系里面出现了备则假设,要判断原假设和备则假设哪个正确,显而易见的方法就是看究竟是在原假设成立的情况下更容易观测到手头的数据,还是在备则假设成立的情况下更容易观测到手头的数据——两者相除即得likelihood ratio test。
bayesian体系下面将原假设和备则假设都不看作是固定但未知的事实,而看作是一种不固定的随机变量,变量的分布则由头脑发热的一个猜测(即信仰,主观的)和手头的真实数据(客观的)共同决定的。因为两个假设都不是固定的,所以也谈不上”判断“那个假设正确。所以decision theory下大家常看的是平均情况下那个假设更可能发生(后验概率或者bayes factor)。
在fisher的体系下,使用t检验或者F检验的唯一原因是他们容易计算,在他看来,这些检验都是为了得到真正的p值而进行的”近似“,而真正的p值是由permutation来决定的。那个时代没有现在这么快的计算机,大家需要做permutation检验来找到p值的时候,就是用一大屋子的妇女,让一个人算一两种permutation下统计量的值,然后汇总一大屋子人的结果,得到最后的(通常是nominal)p值。
.......[/quote]
rtist
Thanks to Msmart, hexm26, and oliyiyi. I benefited a lot from your (other) posts also.
And also thanks to Yihui, for setting up this forum for ppl to "meet" in this way!