caizb
实在不知道什么文章,如果教科书的话,我会推荐casella的那本《统计推断》。
独立同分布版本的大数定理:假设个体x
都独立服从相同的分布f
,其均值为\mu
,方差为\sigma^2
,那么样本均值\bar{x}
就会渐近服从一个正态分布,均值依然为\mu
,方差为\sigma^2 / n
。
大数定理的牛逼之处在于并不在意原来的个体分布到底是什么样子,只要个体是独立同分布,那么其均值就会渐近到正态分布。而考虑到t检验本质就是在检验样本均值与你的目标值(或者与另一个对照组的均值)是否有差异,所以独立同分布的大样本t检验是可以不用在意原始的个体分布是否正态的。(总体方差未知的时候,用样本方差代入,此时会渐近t分布,大样本下t分布又会渐近正态)
但实际这样应用的一个问题在于,大数定理给出的是“渐近”正态,即逐渐近似到正态。这个“逐渐”的速度,依赖于样本量n
,和你原本的个体分布f
与正态之间的差异程度。极端例子来说,如果f
本身就是正态,那n=1
的时候的样本“均值”也是精确的正态分布(当然这个时候检验是不够敏锐的,毕竟方差没有压缩);而f
如果是个厚尾或者奇异分布,那n
可能需要很大才能保证均值分布和正态是足够接近的。而这个n
到底多少算足够大,在实际应用中是很有主观性的。
以下内容开始闲扯:
有的书里会说n > 26
或者36
就算大样本了,我不知道怎么定出来的。就像大家都喜欢p
去跟0.05
比,我也不知道缘由。就我所看到的,某些顶尖的药物/化学/代谢的科研机构发出来的文章,n=3
就开始t检验,6就算是大样本,甚至有n=2
就在t检验的。只能说圈子里的人觉得你没问题,那你就没问题。很多领域在使用统计工具的时候也是唯p值结果论的,并不在意p值的计算过程是否合理。就有人对我说过“你啥也别管,就给我把p弄小了就行” / “我为什么要换你说的检验,检完p都变大了不显著了”……所以对于只关心p值这件事,我是心发慌的。
所以,独立同分布的大样本,上t检验不会有什么大问题,哪怕个体分布不是正态。小样本用t检验,就需要个体是正态分布的;但小样本下的分布检验,本身结果可信度不高。最终还是看你的雇主,人家觉得分析结果没问题,那就没问题。