不得不提的P值
通常是以 "H0 与 H1", 或是 "Ho 与 Ha" (此处之 o 系 little o, 而非如前者之 zero), 在式子里表述那 Null 与 Alternative 假设 (Hypothesis), 而这 "0 与 1", 或是 "o 与 a", 在文稿中又都(需)以下标 (subscript) 来呈现; 因此想建议何不就采用 NH 与 AH, 简单明了? ... 野人献曝也.
多谢楼上两位,呵呵
嗬嗬, 好像没人注意到我想建议的其实是以 NH 与 AH 来替代目前所使用的 ... :-)
According to Freedman et al. (1991, pages 494 and A-27),
R. A. Fisher was one of the rst to publish such tables, and it seems to have been his idea to lay them out that way. There is a limited amount of room on a page. Once the number of levels was limited, .05 and .01 stood out as nice round numbers, and they soon acquired a magical life of their own. With computers everywhere, this kind of table is almost obsolete. So are the .05 and .01 levels.
This history is on the authority of G. A. Barnard, formerly professor of statistics, Imperial College of Science and Technology, London; now retired.
Freedman, D., Pisani, R., Purves, R., and Adhikari, A. (1991), Statistics, New York: Norton,
2nd edition.
R. A. Fisher was one of the rst to publish such tables, and it seems to have been his idea to lay them out that way. There is a limited amount of room on a page. Once the number of levels was limited, .05 and .01 stood out as nice round numbers, and they soon acquired a magical life of their own. With computers everywhere, this kind of table is almost obsolete. So are the .05 and .01 levels.
This history is on the authority of G. A. Barnard, formerly professor of statistics, Imperial College of Science and Technology, London; now retired.
Freedman, D., Pisani, R., Purves, R., and Adhikari, A. (1991), Statistics, New York: Norton,
2nd edition.
Wikipedia真是个好东西,要是中文的就更好了……
10 天 后
补充几点关于p值的说法,欢迎大家讨论指正哈
一 p值究竟是否等于evidence?
p值并不等于evidence,这一点是应用统计中经常犯的错误,正如correlation不等于causality一样。严格的来说,只有likelihood才能衡量evidence。 p值小有很多原因,也有可能是样本太少,或者数据问题。这些都还好理解,最需要注意的一点是,p值不具有概率那样的可以拿来比较的性质。就是说,今天我对一个假设检验进行检验,发现p=0.01,明天我重复了一遍,发现p=0.001. 对于这两个结果我们能说他们不一样吗?很难。。。
二 p 值究竟是什么
关于这一点,下面这篇文章是强烈推荐的
dempster (1997) the direct use of likelihood in significance testing, statistics and computing 7。
一个很重要的结论是,在某些特定的假设检验,尤其是likelihood ratio testing上,p值实际上就是p(lrt>1|x)。这是什么呢?这就是说,给定样本x, likelihood ratio>1的概率。
所以说,从这个角度出发,站在我们无敌的likelihood 的理论角度出发,p值跟bayesian theory又联系在了一起。
神奇的地球。。
一 p值究竟是否等于evidence?
p值并不等于evidence,这一点是应用统计中经常犯的错误,正如correlation不等于causality一样。严格的来说,只有likelihood才能衡量evidence。 p值小有很多原因,也有可能是样本太少,或者数据问题。这些都还好理解,最需要注意的一点是,p值不具有概率那样的可以拿来比较的性质。就是说,今天我对一个假设检验进行检验,发现p=0.01,明天我重复了一遍,发现p=0.001. 对于这两个结果我们能说他们不一样吗?很难。。。
二 p 值究竟是什么
关于这一点,下面这篇文章是强烈推荐的
dempster (1997) the direct use of likelihood in significance testing, statistics and computing 7。
一个很重要的结论是,在某些特定的假设检验,尤其是likelihood ratio testing上,p值实际上就是p(lrt>1|x)。这是什么呢?这就是说,给定样本x, likelihood ratio>1的概率。
所以说,从这个角度出发,站在我们无敌的likelihood 的理论角度出发,p值跟bayesian theory又联系在了一起。
神奇的地球。。
to 八楼楼主,
“p值不具有概率那样的可以拿来比较的性质”?我随时接受新看法了,以前我举过一个掷硬币的例子:
http://cos.name/2008/12/p-value-notes/
每次出现的正面数都是50,你就有把握认为这是一枚均匀的硬币;
正面数等于45或者等于55,你就有一点点的怀疑它是均匀的;
正面数等于30或者等于70,比较怀疑;
正面数等于10或者等于90,非常怀疑。
相应地都可以算出一个p值来,其间有程度的区别啊。
“p值不具有概率那样的可以拿来比较的性质”?我随时接受新看法了,以前我举过一个掷硬币的例子:
http://cos.name/2008/12/p-value-notes/
每次出现的正面数都是50,你就有把握认为这是一枚均匀的硬币;
正面数等于45或者等于55,你就有一点点的怀疑它是均匀的;
正面数等于30或者等于70,比较怀疑;
正面数等于10或者等于90,非常怀疑。
相应地都可以算出一个p值来,其间有程度的区别啊。
回楼下的哈:
概率是一个建立在测度论上,满足三大公理的一个衡量证据的严密的“尺子”。但是对于p值,它的原始定义不是概率。
见 statistical inference by george casella and roger berger, p.397
“a p-value p(x) is a test statistic satisfying 0<=p<=1 for every sample x. small values of p(x) give evidence that the alternative model is true.”
之所以要引用这段话不是为了拉虎皮做幌子。有两个值得注意的地方。第一,它说的p值是一个统计量,是x的函数,因此它不是概率,虽然它也是【0,1】上的取值。第二,x是一个随机变量,那么p值同样是一个随机变量。(事实上,p值在原假设成立的情况上是默认为均匀分布的。)所以,同样的假设检验过程放在两次系统的取样上,你得到的只是一个随机变量(p值)的两次观测值,然后拿这两个随机值去比较大小,逻辑上是说不通的。。
另外,如果不好理解的话,可以看fisher的multiple testing, 他把多个假设检验的结果结合在一块来做p值的调整,其中一个假设就是,这多个p值在原假设成立的情况下是均匀分布的,因此他设计的新的统计量就是-2*sum(ln(pi))。那么,如果说p值可以衡量大小的话,为什么fisher不用最小的那个p值直接下结论,而要用这样一个复杂的公式去结合所有的p值,然后重新比较chi square的分位点来做决策呢?
而对于你举的例子,其实你已经默认原假设是错误的,所以根据原假设来看,【10,90】确实比【30,70】发生的概率要小。但是如果你不知道原假设是否成立,你的p值就不知道是从哪个分布算出来的了。比如【10,90】的时候,分布参数=0.4,p值=0.01;在【30,70】的时候,分布参数=0.3《0.4,但是p值却可以是0.1。。
概率是一个建立在测度论上,满足三大公理的一个衡量证据的严密的“尺子”。但是对于p值,它的原始定义不是概率。
见 statistical inference by george casella and roger berger, p.397
“a p-value p(x) is a test statistic satisfying 0<=p<=1 for every sample x. small values of p(x) give evidence that the alternative model is true.”
之所以要引用这段话不是为了拉虎皮做幌子。有两个值得注意的地方。第一,它说的p值是一个统计量,是x的函数,因此它不是概率,虽然它也是【0,1】上的取值。第二,x是一个随机变量,那么p值同样是一个随机变量。(事实上,p值在原假设成立的情况上是默认为均匀分布的。)所以,同样的假设检验过程放在两次系统的取样上,你得到的只是一个随机变量(p值)的两次观测值,然后拿这两个随机值去比较大小,逻辑上是说不通的。。
另外,如果不好理解的话,可以看fisher的multiple testing, 他把多个假设检验的结果结合在一块来做p值的调整,其中一个假设就是,这多个p值在原假设成立的情况下是均匀分布的,因此他设计的新的统计量就是-2*sum(ln(pi))。那么,如果说p值可以衡量大小的话,为什么fisher不用最小的那个p值直接下结论,而要用这样一个复杂的公式去结合所有的p值,然后重新比较chi square的分位点来做决策呢?
而对于你举的例子,其实你已经默认原假设是错误的,所以根据原假设来看,【10,90】确实比【30,70】发生的概率要小。但是如果你不知道原假设是否成立,你的p值就不知道是从哪个分布算出来的了。比如【10,90】的时候,分布参数=0.4,p值=0.01;在【30,70】的时候,分布参数=0.3《0.4,但是p值却可以是0.1。。
25 天 后
向楼上的学习了!
不过,我觉得10楼并没有真正的回答上面的问题。
按照我的理解,p值之所以出现随机性,是由于抽样的随机性导致的,也就是说,对于同一个实验,随机抽样可能导致不同p值的出现,而这些p值是没有可比性,这就是8楼说的0.01和0.001的p值不能说明什么的原因(不过这种现象一般不会出现),也是为什么fisher创造一个新的公式的意义。
而对于不同的实验,p值是粗略比较的,这种可比性也是p值重要的原因。否则,我们大可以用t值和t临界值比较的方法来处理问题。
对于9楼的疑问,一个真正均匀的硬币,几乎是不可能得到正面数等于30或者70的结果。9楼所提的4个实验,可以当成4枚硬币的4个分别实验。而根据4个不同实验的p值,便可得到硬币的均匀程度的合理估量。
不过,我觉得10楼并没有真正的回答上面的问题。
按照我的理解,p值之所以出现随机性,是由于抽样的随机性导致的,也就是说,对于同一个实验,随机抽样可能导致不同p值的出现,而这些p值是没有可比性,这就是8楼说的0.01和0.001的p值不能说明什么的原因(不过这种现象一般不会出现),也是为什么fisher创造一个新的公式的意义。
而对于不同的实验,p值是粗略比较的,这种可比性也是p值重要的原因。否则,我们大可以用t值和t临界值比较的方法来处理问题。
对于9楼的疑问,一个真正均匀的硬币,几乎是不可能得到正面数等于30或者70的结果。9楼所提的4个实验,可以当成4枚硬币的4个分别实验。而根据4个不同实验的p值,便可得到硬币的均匀程度的合理估量。
5 个月 后
[未知用户] 你这个例子是对总体信息的判断,而实际中都是基于样本数据的判断,所以你的例子中P值是确定性变量,而实际中P值是个随机变量.例如你两天用同一个硬币做实验昨天的P值为0.06,今天的P值为0.04,这个差异只是由于随机因素影响产生,我们不能对比后下两个矛盾的结论.
1 年 后
p值定义中的Z和Zc搞反了吧
3 个月 后
看了。。。。。。
学习了。。。。。
糊途了。。。。。
学习了。。。。。
糊途了。。。。。
2 个月 后
有点晕了,好多统计教材都是说p-value是概率,前段时间看到卡塞拉的《统计推断》上面说p-value确实是样本x的函数!
9 年 后
关于P值的定义,教程中的解释都比较拗口,我举一个例子大家就明白了。
关于P值的定义,就是我们假定原假设为真的前提下,由实际观察到的数据与原假设不一致的概率。
举个例子,我们假定硬币是均匀的,掷一枚普通硬币5次,如果硬币是均匀的(假定原假设为真),连抛5次得到都是正面的概率就是0.5的5次方,即0.03125(实际观察到的数据),这就是我们所说的P值,即发生这种事件(5次得到都是正面)的概率为0.03125。
使用P值决策的时候,我们会去拿一个观察到的事件发生概率(P值)与0.05做比较,如果这如果这个值比0.05还要小,那么说明,几乎不可能发生的事情,现在居然就发生了,所以我们就有理由拒绝原假设,不相信它是真的。