jiaopj
利用ANOVA进行单因素方差分析时,如果不同水平的方差差异较大时,如何处理,还能使用ANOVA吗?如果不能,还有什么方法供选择?
谢谢!
yihui
非参数方法等
hexm26
你试一下进行例如logarithmic的转换,看看能不能通过homogeneity test。如果不行了再用非参数分析。
平面人
转换后还是方差不齐怎么办?所有方差不齐都能用非参数检验代替吗?
friend
[quote]引用第3楼平面人于2007-07-30 10:44发表的“”:
转换后还是方差不齐怎么办?所有方差不齐都能用非参数检验代替吗? [/quote]
当然...
rtist
[quote]引用第4楼friend于2007-07-30 02:47发表的“”:
当然...[/quote]
这个。。。
很“当然”么?我可没看出来。
one-way的时候应该还好说,复杂的实验设计下用非参不是很容易的。
rtist
搜索一下论坛里的帖子,以前应该讨论过的。
我的意见是,尽量给方差一个合理的model——事实上,常见的变换都是由model推导出来的,比如log或者更一般的power transformation,实际上是根据方差是均值的幂这个model得到的。
但是有很多情况下,方差不齐意味着均值得比较有时候根本就不合理(数学上显然没有什么不合理,但实际解释中经常不是我们真正需要的东西)。
abel
方差不齐,本身就包含诸多信息啊
比如现在似乎比较流行的GARCH模型等,当然和方差分析有点远了;但是基于已有模型再深入下,说不定就有新发现了
hexm26
当你在应用ANOVA分析的时候,你对你的数据是要做3个基本假定:(1)各观测值之间独立;(2)它们都是正态分布;(3)它们之间有同方差。除了第一个假定是依据数据和实验性质来回答,后面2个都要通过检验来确定。如果数据不是正态分布的,你能处理的方式只有2个:将数据转换正态分布,或是只能用非正态分布的方法(比如说非参数法)。齐方差检验也是一个道理,你如果用了各种转换,还是达不到效果,ANOVA肯定就是失效了,所以你必须寻求其他的解法。比如说,你仍然假定各个观测值是正态的,但各组的方差不同情况下比较均值(Abel提出的GARCH模型可否处理这个问题?);或是你干脆什么分布都不假定,直接用Rank来进行非参数分析。
rtist
[quote]引用第8楼hexm26于2007-07-30 09:06发表的“”:
当你在应用ANOVA分析的时候,你对你的数据是要做3个基本假定:(1)各观测值之间独立;(2)它们都是正态分布;(3)它们之间有同方差。除了第一个假定是依据数据和实验性质来回答,后面2个都要通过检验来确定。如果数据不是正态分布的,你能处理的方式只有2个:将数据转换正态分布,或是只能用非正态分布的方法(比如说非参数法)。齐方差检验也是一个道理,你如果用了各种转换,还是达不到效果,ANOVA肯定就是失效了,所以你必须寻求其他的解法。比如说,你仍然假定各个观测值是正态的,但各组的方差不同情况下比较均值(Abel提出的GARCH模型可否处理这个问题?);或是你干脆什么分布都不假定,直接用Rank来进行非参数分析。[/quote]
这个可不好说。。。
hexm26
[quote]引用第9楼rtist于2007-07-30 22:56发表的“”:
这个可不好说。。。[/quote]
那你说说看吧。因为楼主提出的是ANOVA问题,而关于ANOVA的这三点假设是绝对不允许违背的,否则就不是ANOVA了,虽然其它方法可以解决问题。
rtist
[quote]引用第10楼hexm26于2007-07-30 11:08发表的“”
关于ANOVA的这三点假设是绝对不允许违背的[/quote]I think this is probably a misunderstanding. It might be true mathematically, but it's NEVER true in practice. There is nothing normally distributed in this real world. Normality is simply an abstract concept in mathematics. ANY real data set will fail in some of the mathematical assumptions or other. The goal is not to find a perfect mathematical model, but to find a useful model that guides our appreciation about the nature. To this end, the problem is not to identify "whether" the assumptions fail - as it always fails - but to identify how much the failure of assumptions affect our appreciation on the world. As long as it is mild or it only affects some aspect(s) of the model that are not of particular interest to us, it IS a useful model.
hexm26
[quote]引用第11楼rtist于2007-07-31 01:30发表的“”:
I think this is probably a misunderstanding. It might be true mathematically, but it's NEVER true in practice. There is nothing normally distributed in this real world. Normality is simply an abstract concept in mathematics. ANY real data set will fail in some of the mathematical assumptions or other. The goal is not to find a perfect mathematical model, but to find a useful model that guides our appreciation about the nature. To this end, the problem is not to identify "whether" the assumptions fail - as it always fails - but to identify how much the failure of assumptions affect our appreciation on the world. As long as it is mild or it only affects some aspect(s) of the model that are not of particular interest to us, it IS a useful model.[/quote]
哈,这又回到了如何看待这个“it is mild or it only affects some aspect(s) of the model”了。如果已经经过了多种转换的测试,homogeinity test仍然通不过,我与其死守住这个“useful”的ANOVA model,还不如用其他的方法来的跟更稳健(robust)一些。
rtist
任何假定都不可能满足的,稳健又怎么样?最后还不是用大样本性质么?可是什么是大样本,只有无穷大的样本才是数学意义上真正的大样本。在实际应用不是照样不可能的?那么稳健的假定不是又不满足了?
方差齐性检验我以前在另外一个帖子里面说过了,就我所检查过的检验方法中,根本就没有一个既能在数学上满足要求,又能在实际中广泛应用的。normality检验也是同样。
退一万步说,就算什么检验都通过了,又能怎么样?通过那些检验也照样没法说明假定就满足了,因为检验的原假设是最终想要接受的东西,而且是一个simple hypothesis,所以数学上严格意义的这种检验根本就不存在。稍微理想一点点的检验是做equivalence test,可是这个时候还是要确定多大程度的方差不齐是可以接受的——还是一个样,多大程度的assumption violation是可以接受的。
所以,诸如此类的检验只能充其量提供那么一点点参考信息而已。
rtist
数据转换永远是最后的选择。盲目的尝试什么转换好,远不如根据数据性质来给定方差的模型,前面已经说过,任何转换都是根据模型得到的。
hexm26
现在到了讨论统计分析对试验结论的可能性贡献问题。
是呀,到底这些统计上的检验通过或是失败了,对试验最后的结论有多大的影响力作用呢?试验者关心的是他的结论,统计分析不过是一个辅助的工具,统计结论可能会证实,加强试验者的经验结论,也有可能会不支持,甚至推翻他的推断。我还接过一个只有2组数据,而每组数据只有6个观测值的Trial。无论从哪个方面来看,统计出来的结果都有不可行的成分。但没有办法,不行也得上,就目前的数据而言,我必须找出个最符合试验数据类型的方法来解释它,分析它,做出一个基于现有数据的结论。各种方法相比较,取其最拟合试验数据的Model,或是假定最不容易被攻击的方法,(你也可以理解为锉子里面拔将军),来做出结论。必需说明一点,统计结论好比法官下了判决书:我们现在判一个嫌疑犯无罪,并不是真正的他就没有罪,只是在现在的证据和现有的司法结构下,我们没有办法给他定罪;但就现在的证据和现有的司法结构下,我们的判决和推理程序是最合理,最符合司法精神的!
至于转换问题,我觉得没有必要在这个帖子讨论,毕竟我们都知道,转换是在样本均值和样本方差之间存在某种线性或非线性的关系下进行的,没有什么盲目转换的问题。至于转换是到了分析的最后阶段进行,还是早点进行(当然不可能一开始就数据转换),应该是个统计者的偏好问题。
还是回到楼主的主题来。既然楼主认为尝试用ANOVA来解决问题,就应该先检查ANOVA的假设条件,实践允许和理论有一定的偏差,但这种偏差一定不能以牺牲太多的power, robust, 以及efficiency为代价。
shenshen0455
在国内,先数据转换,后考虑非参检验,在医学上是通用的办法
不太清楚国外的情况,很高兴看到rtist给我们带来很多国外的思路,学习中
shenshen0455
rtist 的看法在理论上无可挑剔,但在具体操作上,好像hexm26的做法更多些,至少国内这样的
无忧子
一般来说,方差分析的统计活性还是比较强的,违反一点假设没得什么关系啦。哈哈。
fanshiqing
hexm26和rtist的讨论让人很受启发,呵呵