有关K-S检验问题请教高手

whyhzj

如果编程做正态性的K-S 检验，理论累计分布函数值F值是应该用密度函数积分获得，还是通过查表获得？从理论上奖，两种办法所获得的值应该是相同的吧？

rtist

KS检验哪儿来的F值？？

colinisstudent

是不是那个F(x)值？

whyhzj

是的，是F（x）值，K-S检验的思想不是要求出理论分布函数值与经验分布之差绝对值的最大值吗？这里F（x）指的是正态分布的理论分布函数值。

rtist

原来是这个F啊。

colinisstudent

[quote]引用第3楼whyhzj于2007-08-27 09:17发表的“”:

是的，是F（x）值，K-S检验的思想不是要求出理论分布函数值与经验分布之差绝对值的最大值吗？这里F（x）指的是正态分布的理论分布函数值。[/quote]

似乎只能用积分了吧，能编程编一张表进去？

whyhzj

呵呵，编表是不可能的了。但是可以通过标准正态分布表查得F（x）值呀！

colinisstudent

那多麻烦，查了表再输入计算机求D值和P值？

让电脑自己积分似乎更方便，但是能不能在SPSS下面进行我就不知道了

yihui

那不是正态分布！http://en.wikipedia.org/wiki/Kolmogorov-Smirnov_test

rtist

我也没想明白怎么检验的正态。这里显然没有两个样本，所以用不上smirnov的贡献。

我的问题是，就算和一个理论上的正态分布函数比较，真正的均值和方差从哪儿来啊？

是要把数据标准化之后，然后和t分布的分布函数比较？那也不对啊，似乎仍然需要真正的均值啊？

colinisstudent

[quote]引用第9楼rtist于2007-08-28 18:51发表的“”:

我的问题是，就算和一个理论上的正态分布函数比较，真正的均值和方差从哪儿来啊？

[/quote]

我的理解是一个字：猜

colinisstudent

[quote]引用第8楼谢益辉于2007-08-28 16:25发表的“”:

那不是正态分布！http://en.wikipedia.org/wiki/Kolmogorov-Smirnov_test[/quote]

你没看楼主的帖子，他做的就是正态性检验，那个理论分布自然也就是正态分布了。

但是真正要检验正态性的话我所知道的A-D检验似乎power还要大一点。

rtist

[quote]引用第11楼colinisstudent于2007-08-29 20:04发表的“”:

你没看楼主的帖子，他做的就是正态性检验，那个理论分布自然也就是正态分布了。

但是真正要检验正态性的话我所知道的A-D检验似乎power还要大一点。[/quote]

anderson-darling和shapiro-wilk都比ks的power大。

rtist

[quote]引用第10楼colinisstudent于2007-08-29 20:03发表的“”:

我的理解是一个字：猜[/quote]

怎么可能阿？检验某一个正态分布很容易，总不可能把所有的正态分布都猜一遍吧？那样的话这个检验就几乎没有任何存在的价值了。

colinisstudent

比如说我就是要检验数据是不是服从N（0，1），于是用KS一检验，得到了一个检验结果，这里的0，1从某种意义上就是猜得，没有从样本里面得到任何的信息，直接从别的知识里面来的。

rtist

[quote]引用第14楼colinisstudent于2007-08-29 21:52发表的“”:

比如说我就是要检验数据是不是服从N（0，1），于是用KS一检验，得到了一个检验结果，这里的0，1从某种意义上就是猜得，没有从样本里面得到任何的信息，直接从别的知识里面来的。[/quote]

我说的也是这个意思。这根本就没有多少价值阿！

通常人们需要检验的都是N(mu,sigma>0)，参数都是未知的，只是想检验分布函数的形式。

rtist

比如像检验qqplot上面的相关系数一样，并不需要指定均值和方差。

colinisstudent

[quote]引用第15楼rtist于2007-08-30 11:54发表的“”:

我说的也是这个意思。这根本就没有多少价值阿！

通常人们需要检验的都是N(mu,sigma>0)，参数都是未知的，只是想检验分布函数的形式。[/quote]

我看SPSS里面那个KS检验的意思好像是先用正态分布的参数估计方法估计出mu和sigma，把它当成是理论分布，再带入检验。但是这种做法在理论上又是不行的。

yihui

KS检验必然要知道理论分布的具体形式，因为仅仅是笼统的“正态性”恐怕KS并不好做，要是自己手工制定mu和sigma，那么最后的结果可能出现这样的情况：经过检验，不能拒绝该样本服从N(0, 2)，但拒绝服从N(1, 3)、N(0, 1)、N(9, 100)……那到底是说有正态性还是没正态性？

colinisstudent

算有吧，好歹还能找出个不拒绝的，所以说“SPSS里面那个KS检验的意思好像是先用正态分布的参数估计方法估计出mu和sigma，把它当成是理论分布，再带入检验”这种做法虽然理论上不正确，实际操作上还是可取的，估计出来的参数构建的理论分布似乎是最不会拒绝原假设的了（没证明过），如果这样都被拒绝了，那肯定没有正态性。