比率估计为什么精确

COSeditor

https://cos.name/2009/06/why-ratio-estimation-is-more-accurate-in-sampling/

jah_et

邱怡轩

这么好的文章只发一个“赞”字岂不是浪费？不引发出一些思考和讨论就可惜了。
关于第一点的最后一段话，我个人其实觉得并不一定是这样。因为在比率估计中真正有用的信息并不只是xbar或Xbar的取值，而应该还包括X与Y之间的相关关系。换句话说，我们持有着这样一种假定，那就是X与Y之间有着很稳定的关系，或者说两者之间有着很强的共性。如果我们通过观察发现xbar跟Xbar很接近，那么我们也会有把握认为ybar跟Ybar很接近，而这就体现了辅助变量的价值。
当然了，我现在说的这些显然也属于定性的范畴，合理与否，也确实还有待定量的验证。
而对于后面t检验的那个例子，我因为看的书太少所以没找到原话，但是就我的理解，这么说的本意应该不是针对理论上的情形，而是对实际的情况来说的。正如本文说的，只要样本服从精确的正态分布，那么毋庸置疑，不管样本方差怎么变，拒绝域包括均值的概率都是恒定不变的。但是实际的情况是，我们根本不可能在现实中得到这样完美的数据，因此只要实际的情况与理论分布有些许差异，那么样本均值就可能偏离真实值，但是理论上推出的结果不允许存在这样的偏差，因为这一点点的偏离就足以拒绝原假设。

yihui

我也隐约记得某本教材是这么说的，理论上这句话肯定是错的，但理论是假设了正态分布的，在这个前提下不存在什么“区间缩小以至于不太可能包含真实参数”的说法，数学公式是严格成立的；关键问题在于，假设前提是否真的成立，感兴趣的同志可以在各种分布的前提下做一下模拟，看这个t区间包含真实均值的概率多大。绝大多数分布的方差都是有限的，因此样本量增大导致区间倾向于缩小是必然的，而[latex]\bar{x}[/latex]是否以同样的速度趋近于[latex]\mu[/latex]则成了问题。如果那本教材能从这个角度解释，我可以接受，若光是简单地看分母趋向于无穷大，未免太鲁莽了。

ZUOCHEN

[未知用户] 确实，比率估计提高的因素主要就是你说的这个原因。模拟结果已经证明了这一点，可以参见三种方差的真实值的比较。
这篇文章主要是讨论了采用近似的方差估计究竟造成多大的低估，即分母波动程度究竟会对方差估计产生多大的影响。所以才做了这个模拟实验。结果验证了在实际情况中这种波动确实是可以忽略的。

miniwhale

“当样本量无限增大的时候，检验结果总是趋向于拒绝”这句话究竟是对是错？
首先左辰的分析是对的，无论n如何变大，“无法拒绝的区间”如何缩小，对应的概率永远为1-a，检验方法永远有效。而且功效曲线越来越陡峭，效果越来越好。

但这句话的意思并非如此，它的本意是指由于“无法拒绝的区间”越来越下，以至于我们随便挑选的常数通常会落在拒绝区间这个现象。
比如，总体u=100，我们随便挑选一个常数103。
当n=10时，无法拒绝的区间为100±5，则无法拒绝u=103的假设
当n=1000时，无法拒绝的区间为100±0.5，则可以拒绝u=103的假设

可见，“当样本量无限增大的时候，检验结果总是趋向于拒绝”这句话的本意是指当样本量无限增大的时候，检验功效越来越好，拒绝区间越来越大，以至于它越来越能够拒绝“近似的假设”。

别忘了，假设检验中，“拒绝”是有力的，“无法拒绝”是无奈的！
通常，应该把我们真正想要的结论定为H1，然后拒绝H0，从而“认为”H1正确。

haiganhongyi

这篇文章我还没看完，但已经发现第一段“比率的方差估计” Var(R^)和var(Y)都是错误的嘛!第一公式简直是错的离谱嘛！平方去哪呢？n怎么又跑到了X均值的下面去了呢？第二个公式，N^2怎么不见了？
难道是zuochen的约等号起的作用？
看了后面几位大神的评论，都是好评。想必都不会看第一段吧，因为都是基础知识哈。
想必后文必定精彩，今晚我来好好SEee.
（抱歉我不知道评论里面如何打公式）

haiganhongyi

[未知用户]

不知天高=1

但知地厚=0

Sampling=不知天高+但知地厚