（急）请教关于skewness偏度和正态分布的问题

Emma9191

我是菜鸟，问的问题要是太白，请不要笑我。

我现在非常着急，我是在一家制造业工厂工作。这几天，我们老板闹腾着说，我们平时收集和分析量测数据的方法都不对，他觉得我们应该先做正态性分析，于是他提出的方法是所有的parameter，我们都计算它的那些样本的skewness, 当-0.2<skewness<0.2时，就认为是正态的。我只听说偏度检验，可是我从没听过有0.2这个标准。之前我们都没对数据做什么正态检验，一是因为这些方法业内运用已久，我相信前人一定证明了这些parameter是正态分布才会大量运用这些方法，二来我们的样本量较大，每个参数起码都在几百个点以上，我觉得应该接近于正态分布了。

于是我试着计算了一些，sample size我都取在300左右，发现基本没有几个skewness是在-0.2到0.2之间的，按他的结论，就都不是正态分布了？那么该怎办呢。到底他这种理论是对的吗。因为我们是非常大量的参数需要每时每刻监控，所以太复杂的方法也不可能用。有什么参考的资料可以介绍一下吗

bjt

没有关系吧。你这个是不是已知参数条件下的结果？

如果仅仅检验正态性，有

shapiro.test

Kolmogorov-Smirnov 检验

jarque.bera.test

abel

检验是否正态分布，我国有国家标准，你查下资料哈。

你们老板还不错哈，建议你们先检验是不是正态分布。

bjt提供的思路多半都是通用方法，当然是可行的了，都尝试下，多种方法都比较来做；考察分布的时候，没什么好办法，只能多观察比较。

yihui

先告诉大家，你们究竟用了什么统计方法，不是所有的统计方法都要求正态分布的。其次，我还很少听说用偏度来做正态性检验的，明明有现成的检验方法，为什么要用如此不精确的方法？（0.2的标准没道理）

Emma9191

可能是我没说清楚吧。我指的是SPC(statistical process control)，这是工业界很常用的process control 方法，我们有成千上万得control chart, 一般我们都用Xbar-S or Xbar-S chart，根据假设，如果这个参数是服从正态分布的，那么一个点out of +/- 3sigma得可能性只有0.27%，所以一切正常的情况下1000点里面只会有2.7个点会out of control, 如果还有其它的点out，就说明有assingnable cause. 就要停机检查。这是SPC的基本原理。

且不说正态性不正态性，如果一个分布的skewness很太，它左偏或者右偏，那么落在+/-3 Sigma之间的概率就不是99.73%，那么那么out的点就很可能找不到原因。从这点来说，我觉得我的老板也是有一定道理的

但是我觉得理论归理论，实际上到底要怎么做呢，生产线上是不可能去做什么统计检验的，也没有那些软件，就算有也不可能让人每个图都弄到excel里面去算。skewness是刚好我们的系统里面可以算，所以他就。。。

可是我不明白为什么是+/—0.2呢。

bjt

举个例子：

m <- 1:300 # from 1 to 300

skewness(m) # the result is 0

yihui

偏度=0仅仅只是正态分布的众多特征中的一种而已，所以用这种准则判断正态分布没什么道理。偏度只是反映了分布是否对称，而对称的分布多了去了。

如果是判断outlier，其实跟正态分布本来是毫不相干的，只是SPC教科书偏偏用正态分布做了例子（我现在真是恨死当年把Gauss distribution翻译成“正态分布”的人了），弄得大家以为统计分布就只有正态分布才是“正常”的，事实上哪个分布不是关于概率的呢？t分布、F分布、chi-square等等，当然都可以说变量落在均值+/-多少倍的标准差之外的概率为2.7%。好好的SPC，让正态分布独霸了天下……

losttemple

质量控制图的基本原理就是：当影响某一指标的随机因素很多，而每个因素所起的作用均不大时，这个指标的波动属于随机误差，往往服从正态分布。

如果除随机误差外，还存在某些影响较大的因素（如环境、设备或人为因素）导致的误差（系统误差），这时指标的波动不再服从正态分布。

依时间顺序记录观察指标，在控制图上一次描点，有8种情况判断异常（存在系统误差）

检验正态性干什么。话说回来，如果样本正态性检验拒绝正态性你又能做什么，只可能提示这批生产出来的产品不合格。

我的理解就是指标的波动不服从正态分布，就可能有系统误差的影响，你生产的东西不合格。质量控制图的目的就是通过8种情况就能直观的进行质量控制，并且一旦出现异常马上停止生产。而不用等生产出一批产品出来在对某写指标检查其是否正态性，这时候再控制已经晚了。

你这不是把简单问题复杂化吗

Emma9191

楼上的同志，我产品合不合格取决于规格（specification) ，和正态不正态的不相关。质量控制图也不是就一定通过什么8种情况就能进行质量控制，只要是小概率事件，都可以作为判断异常的标准。我们不是要等生产出一批产品出来再对指标检查其是否正态性，事实上我们的系统都是实时的，一有异常，比如违反某些rule, （例如很有名的WECO rules），就会停止生产的。很多书上写的东西，你要理解它，还要想想为什么，不是背下来就知道实际怎么做的。不过还是谢谢你的回答。

楼上的楼上说的有理，可是我也不是要判断outlier，我现在在这里求教的问题是，我们发现在这些超过控制线的点中，我们能找出异常得原因（比如机器故障，原料有问题，操作失误）很少，因为我们是把所有的参数都当作近似正态处理的，所以我们的控制线都在+/- 3sigma左右甚至更大，那我的老板就认为，会不会就是因为这些参数都不是正态分布，所以根本那个概率也不是0.27%,所以很多点跑出去了工程师就是找不到原因。这点我是同意的。可是问题就是他老人家非要用skewness在+/-0.2来判断，我就吃不消了，因为我一算，基本所有都大于0.2，这样我都没辙了不是，一个两个得我还可以开始下手研究，比如改变一下样本收集的subgroup,研究有没其他变量的因素，成千上万得我就晕菜了，觉得大家都回家歇着算了。

不过楼上的楼上还是给出了我要的回答：偏度=0仅仅只是正态分布的众多特征中的一种而已，所以用这种准则判断正态分布没什么道理。偏度只是反映了分布是否对称，而对称的分布多了去了。我统计知识很一般，总是似是而非的，你说的我也觉得有道理，可是我怎么和我的老板说呢，总的有个证明阿，要是书本啊，论文就更好了，我哪能直接和老板说，这样没道理，我不做了。博士都是要看这个得，有没什么资料呢，最好是英文的，我估计他们看不懂中文。拜托了！

yihui

不知道你能否上Wikipedia：www.wikipedia.org；在国内似乎上不了，不过也可以通过代理上，比如：http://www.proxyhub.co.uk/index.php?hl=0011110001&q=uggc%3A%2F%2Fra.jvxvcrqvn.bet%2F，可以看看其中的概率分布，好几十种，随便瞅瞅就能发现好多对称的分布，比如t分布等：http://www.proxyhub.co.uk/index.php?hl=0011110001&q=uggc%3A%2F%2Fra.jvxvcrqvn.bet%2Fjvxv%2FCebonovyvgl_qvfgevohgvba

你老板是美国人or香港人or台湾人？不是大陆的就好，能看英文就更好了。

Emma9191

我在国外可以上，先看看去，不行再来请教，谢了，

Emma9191

哦，原来是传说中的维基百科啊，不过，我觉得我以前看过中文版的。是这个： http://zh.wikipedia.org/wiki/%E9%A6%96%E9%A1%B5

yihui

嗯，国外比国内在网络方面要自由得多，国内动不动就封这个封那个，搞得很不方便。Wikipedia里面列出了大部分分布的详细介绍。有什么统计方面的名词不懂尽管查就是了。