假设检验相关问题（贾平俊统计学基于R (第2版）第6章例题6-3）

Liechi

JT_Tomato

一般零假设会选择认为要比较的二者没有差异（或者说来源于同一个总体），然后根据这个假设计算由于抽样误差导致来自同一总体的两个样本间产生大于或等于观察到的差异的概率（一般就是看差异大小以 sd 表达后里正态分布的中心有多远）。因为认为二者属于同一总体，才能根据其分布来计算由于抽样误差导致大于等于观察到的差异的概率。在你提到的例题里，实际上检测的是该城市的 pm2.5 是否等于81（一般包括显著大于或小于81这两种情况，这时候用双尾巴阈值），只是这次你关心的是是否显著小于81，所以用了左边的单尾巴阈值。你若将零假设变为别的形式，实际计算的还是观察值距离中心（81）有多远。

接受零假设不代表零假设为真，也不代表备择假设为假，仅仅是说没有足够的证据排除零假设的表述。拒绝零假设也不代表备择假设为真，只是说倾向于认为在零假设为真的情况下，不大可能由于抽样误差导致观察值和目标值之间产生如此大的差异。

这个门派的统计检验逻辑有点奇怪，刚接触的时候可能不习惯。

刚看到你问 α/2 是如何计算的，这里补充一下。首先 α/2 不是计算出来的，是你自己选择的；你需要计算的是你的样本均值距离整体均值几个标准差；然后根据这个差异计算出正态分布里距离中心大于等于该差异的部分占总体的比例，再将该值与你定义的 α/2 比较。

每个 Z 检验背后都是一个正态分布。当正态分布的均值和方差确定了，这个正态分布也就确定了。这里的均值采用的是81，方差一般是已知的或者是根据你的样本数据计算出来的。当方差未知，但样本比较大的时候（比如你这里有四十个观察值，可以算是大样本）可以用样本方差来代替总体方差，从而得出总体的分布。当样本量少的时候，从样本里计算出方差，就不能认为符合正态分布了，这时候用 t 分布。

当你确定了总体正态分布均值和方差，再结合你计算的样品均值，就能计算出样品均值离总体均值有多少个标准差，这样通过查表或者硬算都能得出大于等于该标准差的部分站整个正态分布的比例。

为什么主要考虑正态分布呢？是因为当你处理的是均值时，中心极限定理保证了不管原分布如何，反复抽样后的样本均值都会符合正态分布；样本量小的时候，由于方差估算的不确定性，相比于正态分布，所得分布的尾巴部分占的比重会稍微大些，就成了 t 分布了。所以 t 分布在检验方差未知的小样本时更常用。

这些好像书里都会讲，建议在做题之前把这些概念先熟悉下。

JT_Tomato

Liechi 有劳高人，写了这么多回复的文字！
只是我有点迷糊：既然题目中关心的是小于 81 的情况，那么在最初做假设的时候，我能否干脆就吧 H0 设为: u <81(显著低于81） H1 设为 u>= 81 呢？如此一来，代码不变的情况下（我没有找到代码中哪里对H0 和 H1做出了限制和定义），最终得到的p 值还是0.1179. 但这样一来，结论却变成了 p > a 不拒绝H0 ：信任u 显著小于81 了（于例题中的结论正好相反了）不是嘛

JT_Tomato

Liechi 多谢指点，关于 Zα/2 的计算和比较的那个疑问大概理解了：我们需要根据题目要求的置信水平来确定α/2的值的，比如在最常见的95%置信区间下，Zα/2的取值一般就是 +1.96 & -1.96. 只需要用我们求出的z值和+1.96 & -1.96比较就可以了。比如例题中求出的Z值是-1.1856 （大于-1.96）因此没有出现在拒绝域中，证明没有足够证据拒绝H0 . 这个理解应该是对的吧嘿嘿~~

tctcab

JT_Tomato

关于 “关心A，假设检验却检验了B”这个逻辑确实有点奇怪，不过你得仔细读一下Liechi 这一段：

接受零假设不代表零假设为真，也不代表备择假设为假，仅仅是说没有足够的证据排除零假设的表述。

假设检验的核心思路是通过打倒H0来支持H1的“显著性”，就如题目里问“pm2.5是否显著低于81”,假设检验的结论是“u<81不显著”，而不是“u>=81显著”

JT_Tomato

CMCai0104 感谢高手！
get: H0 一般都是真面断言型的判断。我觉得这个解释应该被写进教材。

Liechi

JT_Tomato

哈哈，写了这么多回复文字，看来也没起啥作用。统计推定里有很多微妙的表述是反直觉的，想当然地按照直觉去理解容易出错，所以我才写得比较详细，澄清常见误解，建议你看慢点：）。

正如tctcab 指出的，不拒绝 H0 不等价于信任 H0。不拒绝 H0 说的仅仅是现有证据太弱，我不能对该假设可能是真或者伪做出推断，没有任何要信任 H0 的意思。在你这个例子里面，将备择假设当做零假设，计算的结果还是一样，因为实际算的都是样本均值离中心有多远（参看上一回复第一段最后一句）。

统计学家对零假设的态度跟我们对贸易战的态度是类似的：不愿拒绝零假设，不怕拒绝零假设，必要的时候不得不拒绝零假设。为什么要做出这个扭扭捏捏的姿态呢？因为怕犯“第一类错误”。一般做统计检验的人不会将自己感兴趣的那个陈述作为零假设，载欣载奔地接受它，一定要将自己放在一个“不得不”的位置。这跟司法体系里的无罪推定是一个思路：要判一个人有罪，必须先假定他无罪，等有了特别强的证据不再支持他“无罪”这个假定后，再放弃。这样做是为了避免冤假错案（第一类错误）。

JT_Tomato

Liechi 谢大佬！
我来理一下思路哈：
1.题目中的意图是想证明 u <81,这个是我们的目的。然而如果想要证明一个事情是对的，那简直是太难了，因为你要考虑所有的可能性。所以还是把H0 设置成 u >= 81吧，只要能证明它是错的，那他的补集H1（u<81）就自然是对的了。

其实无论我们最初的假设H0 是谁，结果都是不拒绝的。因为代码所计算出来的是一个客观值，那就是样本均值与总体均值之间的距离，在这个题目中这个值恒落在非拒绝域之中。
不拒绝H0 并不表示H0 就是对的，证据不足而已。并不代表H0 就是好人。

如果我的这个理解是正确的话，，，这个题目中的假设检验可以被类比成一个 “仁慈的烂好人法官” ：无论对哪个嫌疑人都不抓不判是不是这样呀~

Liechi

JT_Tomato 二，三点没什么问题。

第一点里提到的“所以还是把H0 设置成 u >= 81吧，只要能证明它是错的，那他的补集H1（u<81）就自然是对的了。”这个表述是错的，通过统计推断你永远不能证明 H0 是错的，你只能拒绝相信它。证明错和拒绝相信对是两个截然不同的表述。

我想你可能对CMCai0104 的回答印象比较深，但是可能也正是这个回答造成了你对统计假设基础的一些误解。CMCai0104 表述的是归纳逻辑的特点：你永远不可能证明一个事情是对的（数学和形式逻辑里的表述除外，因为他们的基础是后边提到的演绎逻辑），但是有可能证明它是错的。

统计的频率派发展出来的统计推断的基础不是归纳逻辑，而是比它更古老的演绎逻辑。你可以自己搜索一下归纳和演绎的区别。在演绎逻辑里，你需要规定一个前提，这个前提就是零假设，然后基于这个前提计算出的一个概率值，根据该值大小做出是否拒绝该前提的推断。如果你能拒绝它，就有理由考虑备择假设了。但是你也可以将原先的备择假设选为零假设，然后展开推理。二者在这个步骤上是对称的---只要有了假设前提，就可以展开统计推理。区别是在后头的计算部分，只有认为二者符合同一分布，你才有可能展开基于该分布的计算；如果你认为二者不属于同一分布，那你计算的时候以哪个分布作为基础呢，特别是在你关心的样本分布未知的情况下？

以类似归纳的思路来做统计推断的是贝叶斯派，通过收集新数据来更新先验概率，收集的证据越多，更新后的概率越能反应真实情况。

CMCai0104

JT_Tomato 我不赞同第二点这样的说法。而且这样没有意义。

想搞明白，建议找本专业的书细读，讨论很难完全说明白，只能简单叙述下，假设检验是非常严谨和科学的，搞明白了对以后数据分析很有意义，你会发现市面上很多数据分析全是扯淡。

1、统计量的是根据原假设的构造的，这里采用均值所以影响不大。统计量的期望等于u。然后根据问题推导出统计量的分布，你这里是z分布，当然实际中构造统计量的时候已经考虑这点。

2、然后根据数据计算统计量的值。

3、根据值和统计量的分布计算出它属于该分布的概率。

4、这个概率跟你实际问题的拒绝概率相比较（常取p=0.05，这里还有上面提到的双边和单边，双边即两边分别0.025，单边则是0.05），如果小于该p值则说明它属于该分布的概率很小，所以上面的假设是不对的，即拒绝原假设；所以你可以看到p值得选取（比如取0.5）会影响你得结果，上面得内容不是简单反过来得。

5、这里得p是什么意思？这跟假设检验得第一类错误和第二类错误有关了。p即第一类错误，也就是原假设真确却被判断为错误，第二类错误相反，原假设错误却判断为正确。其实假设检验得目的是在控制第一类错误得情况下，使得第二类错误达到最小。

CMCai0104

Liechi 第一点这样说更合适。

特意翻了下，我没说不可能证明事情是对的，我说正面说明问题正确很困难，通过反面来找到错误来说明原假设不正确。当然我这个不正确可能用词上不够准确，不可接受可能更合适。

0概率不代表不会发生。

Liechi

你在回答中提到：

因为正确是要在任何条件下都正确，而不正确只要找到一个不正确就可以。

这里你提出来的实际上是归纳逻辑的难点，我是根据你这句话说“你永远不可能证明一个事情是对的”，因为以归纳演绎为基础（试图验证“任何条件下”是否正确，这是归纳的做法），这确实是不可能的。相关的一些论述可以参考休谟和波普尔。

零概率不代表不发生，不过我说的“不可能”是逻辑上的不可能，而不是概率上的不可能，除非人可以站在上帝视角将一切尽收眼底。

CMCai0104

Liechi 从逻辑上确实可以是这样，任何情况包括未知，所以任何得断言都是有前提的。

可能我们分析的角度不同，但是我认为细节上大体是差不多的。

Liechi

CMCai0104 : ) 附议。

Cloud2016

tctcab

Cloud2016

真是好文，之前看过还想有空细读一下结果找不到了，就喜欢这种写个博客都带五十多篇引用的严谨风范。

Cloud2016

tctcab 就喜欢这种写个博客都带五十多篇引用的严谨风范。

我审这篇文章的时候正值国庆，花了几天时间把他参考的文章基本浏览了一遍，看看后台的审稿记录，特别是统计之都海外沙龙之后，大家都叫他默神