• 统计学
  • 请教回归分析中变量的正态分布的问题

1,在做回归分析前,总是要检验因变量是否正态分布,这是什么原因?



2,如果样本量比较大的时候(>200),因变量如果不符合正态分布,还需要做变量转换来修正吗?



3,如果残差项正态分布,那么可以认为所有的在回归方程中的变量符合正态分布吗?



4,如果对变量做了修整,假设取LOG之后,(例如Y=销量,X1=价格)。那么解释的时候该从哪方面解释?



5,因变量要在什么程度上接近正态分布才可以接受?



统计学的很差,希望同学们帮帮我。这里先谢谢大家了。



附加问题:谢益辉老师和谢邦昌老师有亲属关系吗?
[quote]引用第0楼xiaoli07062006-12-12 23:59发表的“请教回归分析中变量的正态分布的问题”:

1,在做回归分析前,总是要检验因变量是否正态分布,这是什么原因?



2,如果样本量比较大的时候(>200),因变量如果不符合正态分布,还需要做变量转换来修正吗?



3,如果残差项正态分布,那么可以认为所有的在回归方程中的变量符合正态分布吗?

.......[/quote]





I have to go back and check relevant literature. But I remember whether independent variables are normal distributed is one essential assumption in multivariate analysis techniques (i.e. your first question), I think, if my brain is not completely exploded yet. There is suggestion that if this assumption is violated, the outcomes of the technique can be serious. Can't remember more, come back to you later when I get a fresher mind.
先回答附加问题:我和谢老师独立,是否同分布就不知道了。ft,怎么问这个……



1、经典回归的假设是误差项服从正态分布。



2、估计你的意思又要与中心极限定理扯上关系了……样本量大与正态分布没有必然联系。如果转换之后正态性较好那么就转吧。



3、显然不可以。自变量不必服从正态分布。



4、对数变换是一种常用的手法,其解释的妙处就在于对数求导会变成分母,经常用来解释“弹性系数”的问题。微分:d(ln(x))=d(x)/x,就是x的增量除以x本身。



5、实际操作时这问题说不清,理论上当然必须得服从正态分布。
这个问题困饶了我好久,我们学校前一阵子有一个讲座,一位老师给我们讲多元回归。我第一节课没去,第二节课去了。然后发现老师给自变量(价格)做直方图,检验是否是正态分布。如果不是,就取LOG。我也没敢问,寻思自己回家查书吧。查了好多的书,也没有找到根据。大家都是在说残差的假设。然而那位老师应该还是比较权威的,而且我们老师也在台下啊(我们老师学统计出身),那他取LOG的原因是什么呢?能不能帮我解释一下,这个问题几乎要把我摧残的崩溃了,已经N天了(N>=7)。
在MULTIVARIATE DATA ANALYSIS 里曾说过,多元分析中数据检查的四个方面,第一个就是正态性,而且应用很广。他后面的解释是因为要用到F检验和T检验。但是这两个检验我记得是对回归系数的检验,与自变量的分布存在关系吗?
    能不转的都不转,不要为了得到正态分布而作任何转化;除非转化还能带来其他好处。

    数据不是正态的,就不应该用正态下的模型,应该是模型跟着数据变,而不是让数据跟着模型走。
    现在的关键是回归模型的因变量如果没有正态分布的要求,那么为什么那位老师在做回归的时候还要将连续型数值变量尽量转成接近正态分布的形式。



    让模型跟着数据走,我个人不太赞同这个想法。你做回归模型能解释变量之间的关系,和预测一个区间,即使有什么假设的话,你也要尽量满足,然后想解释的途径。你所能改动的也只是变量的组合。不用回归很难到达一样的效果。
    不是正态地怎么推检验统计量和其他理论呢?不都是在正态的前提下推到的吗
    2.样本量大时,正态性可放宽。

    3.可以

    5.做检验看结果了
    [quote]引用第6楼xiaoli07062006-12-13 08:27发表的“”:

    现在的关键是回归模型的因变量如果没有正态分布的要求,那么为什么那位老师在做回归的时候还要将连续型数值变量尽量转成接近正态分布的形式。



    让模型跟着数据走,我个人不太赞同这个想法。你做回归模型能解释变量之间的关系,和预测一个区间,即使有什么假设的话,你也要尽量满足,然后想解释的途径。你所能改动的也只是变量的组合。不用回归很难到达一样的效果。[/quote]



    数据转换是一个委曲求全的办法,“实在”没有别的办法的时候才去做。至于你老师怎么讲课,我想这和本问题无关。





    回归不代表一定要正态分布,这个我已经说过很多次了。



    显著性也并不一定只有在正态分布下才能得到精确结果;更何况精确的显著性在绝大多数情况下根本就毫无必要。本例中样本量很大,几乎任何分布都可以得到不错的渐进分布,那为什么还要局限在正态分布下思考?为什么不用更加符合数据的分布?



    模型是你假想并相信的数据产生机制,当你的数据和你的模型不匹配的时候,显然说明你不应该相信模型,而不是你的数据不对——数据永远是正确的,即使有极端值也是正确的。如果有极端值,说明数据的分布就是那样,除非你有足够理由说明那个极端值是个异常值,否则绝不能把它删除掉。做变换的道理是一样的,如果你愿意做转换,我几乎可以把任何极端的分布转换成正态的,可是除非你有“数据之外”的理由支持转换(这个时候我不反对做变换),否则转换数据就和篡改数据差不多少了(当然还没那么严重)。



    模型和数据的关系不能本末倒置,不能因为我学过正态分布,我就要把拿到的数据全都变成正态分布。如果说身高是正态分布的,我难道还要把姚明的腿砍掉么?
    世界上永远不会存在正确的模型,只要提到模型,就已经承认了人类对世界认识的无知;可是人类永远离不开模型。
    支持rtist的说法,模型是死的,人是活的。
    14 天 后
    他问附加问题是感觉到两位谢老师的姓氏相关
    9 天 后
    回归时,要求因变量是非确定变量,也就是对它而言要服从一定的统计分布,而自变量被假定在重复样本中具有固定值。回归的经典假设都是针对估计模型残差而言的,假定残差与自变量之间不相关,意味着自变量不存在抽样变化,它的值是由模型之外的因素决定的。

    所以,回归时对于变量的分布要求不严格,对残差的分布要求严格。
    [quote]引用第13楼hwtatm2007-01-05 16:41发表的“”:

    回归时,要求因变量是非确定变量,也就是对它而言要服从一定的统计分布,而自变量被假定在重复样本中具有固定值。回归的经典假设都是针对估计模型残差而言的,假定残差与自变量之间不相关,意味着自变量不存在抽样变化,它的值是由模型之外的因素决定的。

    所以,回归时对于变量的分布要求不严格,对残差的分布要求严格。[/quote]

    模型的假设是针对误差的,不是针对残差的。
    嗯,error和residual的概念不要弄混了
    7 天 后
    近日拜读了一下陈先生的《近代回归分析》,第一章的内容似乎对这个问题有一点启发。谢学长已经将此书贡献出来很久了,在此再次感谢学长!
    《近代回归分析》这书论坛有吗?残差和误差的区别老大可不可以简单的介绍一下啊。
    做回归分析时,一些前提假定并不是非检验不可,回归分析本来就是摸着石头过河,你可以先做出回归模型,再接受实际的检验,如果符合实际,那么就可以认为你的假定前提是成立的,否则,即使你做了前提假定的一些检验,也并不意味着你的回归模型是正确的,何况前提假定又很难检验呢?