这么好的文章只发一个“赞”字岂不是浪费?不引发出一些思考和讨论就可惜了。
关于第一点的最后一段话,我个人其实觉得并不一定是这样。因为在比率估计中真正有用的信息并不只是xbar或Xbar的取值,而应该还包括X与Y之间的相关关系。换句话说,我们持有着这样一种假定,那就是X与Y之间有着很稳定的关系,或者说两者之间有着很强的共性。如果我们通过观察发现xbar跟Xbar很接近,那么我们也会有把握认为ybar跟Ybar很接近,而这就体现了辅助变量的价值。
当然了,我现在说的这些显然也属于定性的范畴,合理与否,也确实还有待定量的验证。
而对于后面t检验的那个例子,我因为看的书太少所以没找到原话,但是就我的理解,这么说的本意应该不是针对理论上的情形,而是对实际的情况来说的。正如本文说的,只要样本服从精确的正态分布,那么毋庸置疑,不管样本方差怎么变,拒绝域包括均值的概率都是恒定不变的。但是实际的情况是,我们根本不可能在现实中得到这样完美的数据,因此只要实际的情况与理论分布有些许差异,那么样本均值就可能偏离真实值,但是理论上推出的结果不允许存在这样的偏差,因为这一点点的偏离就足以拒绝原假设。
我也隐约记得某本教材是这么说的,理论上这句话肯定是错的,但理论是假设了正态分布的,在这个前提下不存在什么“区间缩小以至于不太可能包含真实参数”的说法,数学公式是严格成立的;关键问题在于,假设前提是否真的成立,感兴趣的同志可以在各种分布的前提下做一下模拟,看这个t区间包含真实均值的概率多大。绝大多数分布的方差都是有限的,因此样本量增大导致区间倾向于缩小是必然的,而[latex]\bar{x}[/latex]是否以同样的速度趋近于[latex]\mu[/latex]则成了问题。如果那本教材能从这个角度解释,我可以接受,若光是简单地看分母趋向于无穷大,未免太鲁莽了。
[未知用户] 确实,比率估计提高的因素主要就是你说的这个原因。模拟结果已经证明了这一点,可以参见三种方差的真实值的比较。
这篇文章主要是讨论了采用近似的方差估计究竟造成多大的低估,即分母波动程度究竟会对方差估计产生多大的影响。所以才做了这个模拟实验。结果验证了在实际情况中这种波动确实是可以忽略的。
“当样本量无限增大的时候,检验结果总是趋向于拒绝”这句话究竟是对是错?
首先左辰的分析是对的,无论n如何变大,“无法拒绝的区间”如何缩小,对应的概率永远为1-a,检验方法永远有效。而且功效曲线越来越陡峭,效果越来越好。

但这句话的意思并非如此,它的本意是指由于“无法拒绝的区间”越来越下,以至于我们随便挑选的常数通常会落在拒绝区间这个现象。
比如,总体u=100,我们随便挑选一个常数103。
当n=10时,无法拒绝的区间为100±5,则无法拒绝u=103的假设
当n=1000时,无法拒绝的区间为100±0.5,则可以拒绝u=103的假设

可见,“当样本量无限增大的时候,检验结果总是趋向于拒绝”这句话的本意是指当样本量无限增大的时候,检验功效越来越好,拒绝区间越来越大,以至于它越来越能够拒绝“近似的假设”。

别忘了,假设检验中,“拒绝”是有力的,“无法拒绝”是无奈的!
通常,应该把我们真正想要的结论定为H1,然后拒绝H0,从而“认为”H1正确。
4 年 后
这篇文章我还没看完,但已经发现第一段“比率的方差估计” Var(R^)和var(Y)都是错误的嘛!第一公式简直是错的离谱嘛!平方去哪呢?n怎么又跑到了X均值的下面去了呢?第二个公式,N^2怎么不见了?
难道是zuochen的约等号起的作用?
看了后面几位大神的评论,都是好评。想必都不会看第一段吧,因为都是基础知识哈。
想必后文必定精彩,今晚我来好好SEee.
(抱歉我不知道评论里面如何打公式)
[未知用户]
不知天高=1
但知地厚=0
Sampling=不知天高+但知地厚