Emma9191
我是菜鸟,问的问题要是太白,请不要笑我。
我现在非常着急,我是在一家制造业工厂工作。这几天,我们老板闹腾着说,我们平时收集和分析量测数据的方法都不对,他觉得我们应该先做正态性分析,于是他提出的方法是所有的parameter,我们都计算它的那些样本的skewness, 当-0.2<skewness<0.2时,就认为是正态的。我只听说偏度检验,可是我从没听过有0.2这个标准。之前我们都没对数据做什么正态检验 ,一是因为这些方法业内运用已久,我相信前人一定证明了这些parameter是正态分布才会大量运用这些方法,二来我们的样本量较大,每个参数起码都在几百个点以上,我觉得应该接近于正态分布了。
于是我试着计算了一些,sample size我都取在300左右,发现基本没有几个skewness是在-0.2到0.2之间的,按他的结论,就都不是正态分布了?那么该怎办呢。 到底他这种理论是对的吗。因为我们是非常大量的参数需要每时每刻监控,所以太复杂的方法也不可能用。有什么参考的资料可以介绍一下吗
bjt
没有关系吧。你这个是不是已知参数条件下的结果?
如果仅仅检验正态性,有
shapiro.test
Kolmogorov-Smirnov 检验
jarque.bera.test
abel
检验是否正态分布,我国有国家标准,你查下资料哈。
你们老板还不错哈,建议你们先检验是不是正态分布。
bjt提供的思路多半都是通用方法,当然是可行的了,都尝试下,多种方法都比较来做;考察分布的时候,没什么好办法,只能多观察比较。
yihui
先告诉大家,你们究竟用了什么统计方法,不是所有的统计方法都要求正态分布的。其次,我还很少听说用偏度来做正态性检验的,明明有现成的检验方法,为什么要用如此不精确的方法?(0.2的标准没道理)
Emma9191
可能是我没说清楚吧。我指的是SPC(statistical process control),这是工业界很常用的process control 方法,我们有成千上万得control chart, 一般我们都用Xbar-S or Xbar-S chart,根据假设,如果这个参数是服从正态分布的,那么一个点out of +/- 3sigma得可能性只有0.27%, 所以一切正常的情况下1000点里面只会有2.7个点会out of control, 如果还有其它的点out,就说明有assingnable cause. 就要停机检查。 这是SPC的基本原理。
且不说正态性不正态性,如果一个分布的skewness很太,它左偏或者右偏,那么落在+/-3 Sigma之间的概率就不是99.73%,那么那么out的点就很可能找不到原因。从这点来说,我觉得我的老板也是有一定道理的
但是我觉得理论归理论,实际上到底要怎么做呢,生产线上是不可能去做什么统计检验的,也没有那些软件,就算有也不可能让人每个图都弄到excel里面去算。skewness是刚好我们的系统里面可以算,所以他就。。。
可是我不明白为什么是+/—0.2呢。
bjt
举个例子:
m <- 1:300 # from 1 to 300
skewness(m) # the result is 0
yihui
偏度=0仅仅只是正态分布的众多特征中的一种而已,所以用这种准则判断正态分布没什么道理。偏度只是反映了分布是否对称,而对称的分布多了去了。
如果是判断outlier,其实跟正态分布本来是毫不相干的,只是SPC教科书偏偏用正态分布做了例子(我现在真是恨死当年把Gauss distribution翻译成“正态分布”的人了),弄得大家以为统计分布就只有正态分布才是“正常”的,事实上哪个分布不是关于概率的呢?t分布、F分布、chi-square等等,当然都可以说变量落在均值+/-多少倍的标准差之外的概率为2.7%。好好的SPC,让正态分布独霸了天下……
losttemple
质量控制图的基本原理就是:当影响某一指标的随机因素很多,而每个因素所起的作用均不大时,这个指标的波动属于随机误差,往往服从正态分布。
如果除随机误差外,还存在某些影响较大的因素(如环境、设备或人为因素)导致的误差(系统误差),这时指标的波动不再服从正态分布。
依时间顺序记录观察指标,在控制图上一次描点,有8种情况判断异常(存在系统误差)
检验正态性干什么。话说回来,如果样本正态性检验拒绝正态性你又能做什么,只可能提示这批生产出来的产品不合格。
我的理解就是指标的波动不服从正态分布,就可能有系统误差的影响,你生产的东西不合格。质量控制图的目的就是通过8种情况就能直观的进行质量控制,并且一旦出现异常马上停止生产。而不用等生产出一批产品出来在对某写指标检查其是否正态性,这时候再控制已经晚了。
你这不是把简单问题复杂化吗
Emma9191
楼上的同志,我产品合不合格取决于规格(specification) ,和正态不正态的不相关。 质量控制图也不是就一定通过什么8种情况就能进行质量控制,只要是小概率事件,都可以作为判断异常的标准。 我们不是要等生产出一批产品出来再对指标检查其是否正态性,事实上我们的系统都是实时的,一有异常,比如违反某些rule, (例如很有名的WECO rules),就会停止生产的。很多书上写的东西,你要理解它,还要想想为什么,不是背下来就知道实际怎么做的。不过还是谢谢你的回答。
楼上的楼上说的有理,可是我也不是要判断outlier,我现在在这里求教的问题是,我们发现在这些超过控制线的点中,我们能找出异常得原因(比如机器故障,原料有问题,操作失误)很少,因为我们是把所有的参数都当作近似正态处理的,所以我们的控制线都在+/- 3sigma左右甚至更大,那我的老板就认为,会不会就是因为这些参数都不是正态分布,所以根本那个概率也不是0.27%,所以很多点跑出去了工程师就是找不到原因。这点我是同意的。 可是问题就是他老人家非要用skewness在+/-0.2来判断,我就吃不消了,因为我一算,基本所有都大于0.2,这样我都没辙了不是,一个两个得我还可以开始下手研究,比如改变一下样本收集的subgroup,研究有没其他变量的因素,成千上万得我就晕菜了,觉得大家都回家歇着算了。
不过楼上的楼上还是给出了我要的回答: 偏度=0仅仅只是正态分布的众多特征中的一种而已,所以用这种准则判断正态分布没什么道理。偏度只是反映了分布是否对称,而对称的分布多了去了。 我统计知识很一般,总是似是而非的,你说的我也觉得有道理,可是我怎么和我的老板说呢,总的有个证明阿,要是书本啊,论文就更好了,我哪能直接和老板说, 这样没道理,我不做了。博士都是要看这个得,有没什么资料呢,最好是英文的,我估计他们看不懂中文。拜托了!
yihui
Emma9191
我在国外可以上,先看看去,不行再来请教,谢了,
Emma9191
yihui
嗯,国外比国内在网络方面要自由得多,国内动不动就封这个封那个,搞得很不方便。Wikipedia里面列出了大部分分布的详细介绍。有什么统计方面的名词不懂尽管查就是了。