• 统计学
  • 请教回归分析中变量的正态分布的问题

[quote]引用第19楼daz09122007-01-16 20:21发表的“”:

做回归分析时,一些前提假定并不是非检验不可,回归分析本来就是摸着石头过河,你可以先做出回归模型,再接受实际的检验,如果符合实际,那么就可以认为你的假定前提是成立的,否则,即使你做了前提假定的一些检验,也并不意味着你的回归模型是正确的,何况前提假定又很难检验呢?[/quote]

模型诊断从来没有人要求找到这确的模型,模型从来就不是正确的,也永远不可能正确——统计学的存在就已经默认了人类的无知。但是不检查模型是肯定不正确的,因为推断是基于这些假定的。模型诊断并不一定做什么假设检验,但是这不代表不做诊断。我不知道你怎么定义符合实际这个词的,如果定义得合理,那么它就是模型诊断的一部分。我们也不一定找到所有假定都满足的模型,事实上也永远找不到,比如世界上从来没有过什么现实数据是正态分布的,问题是假定对于分析结论的影响有多大,如果没有影响或者影响很小的时候,才可以接受模型。总而言之,数据分析最终总要对模型有一个针对分析目的的评价。
2 个月 后
各位大侠的讨论已经到了方法甚至方法论的高度了,有没有人以指导实践那样的思路来讨论或回答问题的?通常发问的人统计的功底未必深厚,大侠们也该予以体谅
2 个月 后
14 天 后
同感21楼22楼的。。。



还打算学学回归分析的,回到论坛突然看到高手们过招的情景,心都掉冰箱第二个门里面去了。。。



这么难学啊。。。





附:rtist 你不是说过不用这个名字了??怎么又改回来了
2 个月 后
请提问的同学注意一下,是条件正态分布,不是整个Y正态分布,是事后用残差来检查理论上的误差是否正态分布,也就是说先有模型假定(这个假定最好有合理性,比如散点图或专业理论支持),事后再来诊断前面的假定是否成立,如果有问题,解决的方法要看情况而定,可能要修正模型(比如有专业解释的变量变换,增加自变量或其它项,改变线性关系,使用非参数方法等等),也可能要改变算法(如稳健估计,前提是确认模型无误,当然这一点比较难肯定),,,,,
[quote]引用第23楼laurayan2007-05-25 08:11发表的“”:

rtist 你不是说过不用这个名字了??怎么又改回来了

.......[/quote]

当时说的不定期封号,没说永远封号。

气消了自然就改回来了。。。。不过对于原来那个问题的态度不会改变。
[quote]引用第24楼robustreg2007-07-24 11:52发表的“”:也可能要改变算法(如稳健估计,前提是确认模型无误,当然这一点比较难肯定),,,,,[/quote]

good point.
6 天 后
误差是没法测量的,只能用残差去估计误差。







[quote]引用第14楼rtist2007-01-07 05:46发表的“”:



模型的假设是针对误差的,不是针对残差的。[/quote]
9 天 后
模型永远是错误的,但是有的模型是有用的------不是我说的哦
25 天 后
可不可以认为对数据做变换也是对改变模型的一种方法。“白猫黑猫捉到老鼠就是好猫!”
[quote]引用第29楼njhui2007-09-02 22:54发表的“”:

可不可以认为对数据做变换也是对改变模型的一种方法。“白猫黑猫捉到老鼠就是好猫!”[/quote]

是。但是通常都不是很有价值的办法。
1 个月 后
I don't agree some people's comments that checking on assumptions on linear regression is not relavent and trivial. As long as you want to build a linear model and you would like to test you parameters and model fit, you have to check you underline assumption. If you throw away the normality assumption in errors, by what probability density function you could build your tests to prove you have a resonable model. You can't just say: "I built a model! it was built by computer and it was good".



Regression itself has no requirement of noramily. The normality will only come into play when you would like to know how good is your model, either by itself or among several models. I think the most important assumption is not normality. It should be independence of errors. A slight deviation from noramlity in linear regression is well tolerated as long as you have big enough sample size.
I mostly agree with outsider. But you might see that it's just not so easy to pursuade some others to adopt the proper practice...
18 天 后
《近代回归分析》在哪能下载啊??
1 年 后
12 天 后
其实关键在于残差。。。记得在学习residual plot的时候,一本书上特别强调了对残差的分析是回归问题的核心。。。
5 天 后
以下比喻不知合适与否

一个城市里有各种的交通工具。有公交、私家车、出租、自行车,其中最为规范和便捷的就是地铁。

经典的统计学中的正态模型上建立的一系列的推断、检验等方法就是地铁系统。

非经典的统计学里这套系统不如经典的完备。

怎么办?

如果数据经过变换之后,满足经典统计学的条件,那么就有一系列的成熟手段可用。具体到回归问题来说,是模型残差服从正态。

不符合怎么办?数据变换,这变换的方法没有限制,唯一要满足的是残差分布正态,满足了它,就有一大堆经典统计学的推断、检测手段可用了。

构造回归模型的目的,就是把数据中的确定性因素集中到模型中去,而把不确定性因素集中到残差中去,而这个残差是否是真正的随机的不确定的因素

判断标准就是能否服从正态。不服从的话,就说明可能模型还遗漏了一些确定性因素,它们隐藏在残差中间。
假如老师真的在讲回归的课上要求自变量服从正态,并认为那是回归对数据的要求,我觉得那对学生是一种误导
9 天 后
[quote]引用第24楼robustreg于2007-07-25 00:52发表的 :

请提问的同学注意一下,是条件正态分布,不是整个Y正态分布,是事后用残差来检查理论上的误差是否正态分布,也就是说先有模型假定(这个假定最好有合理性,比如散点图或专业理论支持),事后再来诊断前面的假定是否成立,如果有问题,解决的方法要看情况而定,可能要修正模型(比如有专业解释的变量变换,增加自变量或其它项,改变线性关系,使用非参数方法等等),也可能要改变算法(如稳健估计,前提是确认模型无误,当然这一点比较难肯定),,,,,

[/quote]

支持!

大家讨论的都是均值回归,而且是(1)自变量X非随机情况下,Y关于X下的条件分布是正态分布,(2)X随机,但(X,Y)是二元正态分布情况

在这两种情况下Y关于X的均值回归函数是线性函数。
3 年 后

看完这个帖子,我大脑的熵指数增长。

还是稀里糊涂的。

y取不取log的优缺点是?