dreamingb
记得有人问过某题 ,关于T检验和Z检验的选择。引发本人以下思考:
我觉得可以做任一选择,然后重要的是自圆其说。
统计本来就没有很多的为什么?(它与相对论似乎有些冲突)
不过想请教,假设考试中依照上述做法,会有什么遭遇?
colinisstudent
重要的是自圆其说,因为统计有很多的为什么
PS:T检验和Z检验的选择可以根据不同条件选择不同的方法,但是我觉得不能任一选择
dreamingb
我说的任意是相对的。就是在那种有争议的情况下,部分人选择Z,部分认为T合适。
colinisstudent
书上还是有一个界线的
dreamingb
yes^
yihui
不妨提个很基础的问题:为什么t检验可以在小样本的情况下使用?(这才是楼主问题的关键所在)
dreamingb
这不是关键所在!
如果你看了那个帖子的话,会知道那是在大样本条件……
又 这个帖子的关键问题是对于题意的理解@
yihui
如果你可以避开“为什么t检验可以在小样本的情况下使用”这个问题而把Z和t的选择问题说清楚的话,我个人对你表示极度崇拜。
Z和t的本质区别在于标准差,前者使用已知的总体标准差,后者是用样本标准差,为什么会有t分布?当年Gosset在酿酒厂提出这么一个分布为什么引起轰动?因为他为统计解决了一大麻烦——往后可以不用费心思去找寻总体的参数了(一般情况下总体的参数也是无法知道的)。
事实上小样本不是t分布/t检验的目的,无论样本大小,都是可以用的(但小样本情况下用正态分布来做检验就很鲁莽,问题就在于总体标准差怎么获得),而且在大样本条件下,服从t分布的随机变量将依分布收敛到正态分布,因此,对于大样本的情况,用t还是用Z都无所谓。
所以,答案不会是“任意选择”,你的问题也不属于“自圆其说”的问题——因为答案是很明确的。这不是语文问题,那么就也不会存在所谓的“题意理解”。
colinisstudent
书上的关于大小样本的区别线是30,我觉得这点也是考试时必须要说明的问题,什么时候是大样本,什么时候是小样本。至于说大样本条件下用t可以解释为在用样本标准差时t更精确,Z可以说是t渐进到Z,因此关键是大小样本,是在考试的时候必须要说清楚的。这个题目要考得也就是这些了
yihui
30这个数字也不知道根源在哪里,没准儿又是像显著性水平0.05那样(原因是:没什么,我就是突然想到的)。
可以看看分布自由度从1到50的t分布95%分位数与标准正态分布的95%分位数差异:
> x=numeric(50);for(j in 1:50)x[j]=qt(.95,i)
> plot(1:50,x,type='l',col='red')
> abline(h=qnorm(.95),lty=2)
> x
[1] 6.313752 2.919986 2.353363 2.131847 2.015048 1.943180 1.894579 1.859548
[9] 1.833113 1.812461 1.795885 1.782288 1.770933 1.761310 1.753050 1.745884
[17] 1.739607 1.734064 1.729133 1.724718 1.720743 1.717144 1.713872 1.710882
[25] 1.708141 1.705618 1.703288 1.701131 1.699127 1.697261 1.695519 1.693889
[33] 1.692360 1.690924 1.689572 1.688298 1.687094 1.685954 1.684875 1.683851
[41] 1.682878 1.681952 1.681071 1.680230 1.679427 1.678660 1.677927 1.677224
[49] 1.676551 1.675905
> qnorm(.95)
[1] 1.644854
自由度为50的t分布95%分位数比标准正态分布大0.031。反过来看P值也一样:
> x=numeric(50);for(i in 1:50)x[j]=2*(1-pt(1.96,j))
> round(x,3)
[1] 0.300 0.189 0.145 0.122 0.107 0.098 0.091 0.086 0.082 0.078 0.076 0.074 0.072
[14] 0.070 0.069 0.068 0.067 0.066 0.065 0.064 0.063 0.063 0.062 0.062 0.061 0.061
[27] 0.060 0.060 0.060 0.059 0.059 0.059 0.058 0.058 0.058 0.058 0.058 0.057 0.057
[40] 0.057 0.057 0.057 0.056 0.056 0.056 0.056 0.056 0.056 0.056 0.056
> round(2*(1-pnorm(1.96)),3)
[1] 0.05
对于x=1.96,t分布的双边P值一直都比正态要大(厚尾)。df要达到多少才算接近呢?
> 2*(1-pnorm(1.96))
[1] 0.04999579
> 2*(1-pt(1.96,100))
[1] 0.0527789
> 2*(1-pt(1.96,1000))
[1] 0.05027318
> 2*(1-pt(1.96,10000))
[1] 0.05002352
> 2*(1-pt(1.96,100000))
[1] 0.04999856
30算大?50?还是100000?所以数字还是说不清楚。答案只能是,在假定总体服从正态分布的条件下,t检验适用于任何样本量(那么当然包括小样本),前面已经说过,t分布的贡献在于把总体方差换成了样本方差;在总体方差未知的情况下,Z检验严格说来是无法使用的(无论样本量大小)。
Peter
既然是不同的统计量有不同的分布,自然有更为精确的区间来逼近应用要求