有关置信区间问题

daydayup

如果调查结果表明有９５％被访问者有手机，根据完成的样本数量，我们可以认为在９５％置信度下的置信区间是＋－１０％，但是这个区间范围就超出了１００％，成为了，［95%-10%, 95%+10%］，这种情况下，应该怎么处理和解释最后的结果

反之，如果只有５％被访问者有手机，范围就变成了，［5%-10%, 5%+10%］，结果最小下限小于０％，应该怎么处理和解释最后的结果

谢谢

yihui

对于比例数据，取值当然在[0, 1]之间。对于超出这个范围的，取相应的界限就可以了。灵活一点，不要把数学弄得那么死板。

对于比例p，-0.05<p<0.15可以完全等价于0<p<0.15。

robustreg

试试这个公式

下限：r/（r+(n-r+1)F(alpha/2,2(n-r+1),2r)）

上限：（r+1）/（r+1+(n-r)/F(alpha/2,2(r+1),2(n-r))）

hexm26

这个地方要打谢坛主的板子！

通常用的mean +/- stderr的置信空间是针对正态分布的，值域范围是-infinity 到 +infinity；而楼主给的是明显的Binomial 分布，值域范围是［0,1］，已经不能套用常见的那个正态分布公式了。置信边界出现负数或是大于１的理论上就不对，而非死板不死板的问题，你给出0<p<0.15的置信空间也是绝对错误的。

关于Binomial test的那个P的置信空间有很多种方法， robustreg的公式就是最标准的一个，其利用了Binomial和beta distribution之间的关系推导出来的。至于公式来源，就在谢坛主发布的一些ebook里面有。

yihui

嗯我知道二项分布的p置信区间有精确的求法，但我觉得楼主那个95%+/-10%的写法不是按照Beta分布来求的，而是根据大样本近似正态分布的方法求的（这样区间才会对称），这种情况下肯定是有可能小于0或者大于1的，如果真的出现，那只能按照[0, 1]的范围掐断了。

p本身的范围确实是[0, 1]，但是构造置信区间时是用(xbar-p)/(s/sqrt(n))~N(0, 1)来构造的，这个标准正态随机变量的取值范围肯定是(-inf, +inf)啊

hexm26

非也。你所说的(xbar-p)/(s/sqrt(n))~N(0, 1)是在大样本情况下适用，当在小样本的时候，还有一个限制，那就是p必须是在0.5附近。但(p^-p)/(sqrt(p(1-p)/n))从根本上说仍然只是一个近似的公式，它是依据当样本趋近无穷大的时候，p收敛于标准正态分布推出的。这种近似在p趋近0和1的时候开始失效，如果说近似是一种经验判断的话，那么失效的最好判断就是边界出了0或1。统计学家们为此提出了很多的补救方法。譬如说，将p^改成p^+1/(2n)和p^-1/(2n)对应于上下边界；或是robustreg转的那个精确公式。

rtist

First of all, I fully agree with not using a normal approximation here.

But one of my question is whether Yihui's suggestion really decreases coverage probability. Suppose it doesn't, it's still valid, though not best.

One analog is when the method of moment (or ANOVA based) estimate for variance component becomes negative, simply truncating at zero does not decreasing coverage probability, which is often the argument being made by those practitioners who did it that way.

robustreg

Agresti, A. and Coull, B. 1998. “Approximate is Better than ‘Exact’ for Interval Estimation of Binomial Proportions,” American Statistician, Volume 52 Number 2, pages 119-126.

能看到这篇文献的烦请讲一下文中大意