JT_Tomato
一般零假设会选择认为要比较的二者没有差异(或者说来源于同一个总体),然后根据这个假设计算由于抽样误差导致来自同一总体的两个样本间产生大于或等于观察到的差异的概率(一般就是看差异大小以 sd 表达后里正态分布的中心有多远)。因为认为二者属于同一总体,才能根据其分布来计算由于抽样误差导致大于等于观察到的差异的概率。在你提到的例题里,实际上检测的是该城市的 pm2.5 是否等于81(一般包括显著大于或小于81这两种情况,这时候用双尾巴阈值),只是这次你关心的是是否显著小于81,所以用了左边的单尾巴阈值。你若将零假设变为别的形式,实际计算的还是观察值距离中心(81)有多远。
接受零假设不代表零假设为真,也不代表备择假设为假,仅仅是说没有足够的证据排除零假设的表述。拒绝零假设也不代表备择假设为真,只是说倾向于认为在零假设为真的情况下,不大可能由于抽样误差导致观察值和目标值之间产生如此大的差异。
这个门派的统计检验逻辑有点奇怪,刚接触的时候可能不习惯。
刚看到你问 α/2 是如何计算的,这里补充一下。首先 α/2 不是计算出来的,是你自己选择的;你需要计算的是你的样本均值距离整体均值几个标准差;然后根据这个差异计算出正态分布里距离中心大于等于该差异的部分占总体的比例,再将该值与你定义的 α/2 比较。
每个 Z 检验背后都是一个正态分布。当正态分布的均值和方差确定了,这个正态分布也就确定了。这里的均值采用的是81,方差一般是已知的或者是根据你的样本数据计算出来的。当方差未知,但样本比较大的时候(比如你这里有四十个观察值,可以算是大样本)可以用样本方差来代替总体方差,从而得出总体的分布。当样本量少的时候,从样本里计算出方差,就不能认为符合正态分布了,这时候用 t 分布。
当你确定了总体正态分布均值和方差,再结合你计算的样品均值,就能计算出样品均值离总体均值有多少个标准差,这样通过查表或者硬算都能得出大于等于该标准差的部分站整个正态分布的比例。
为什么主要考虑正态分布呢?是因为当你处理的是均值时,中心极限定理保证了不管原分布如何,反复抽样后的样本均值都会符合正态分布;样本量小的时候,由于方差估算的不确定性,相比于正态分布,所得分布的尾巴部分占的比重会稍微大些,就成了 t 分布了。所以 t 分布在检验方差未知的小样本时更常用。
这些好像书里都会讲,建议在做题之前把这些概念先熟悉下。