rtist
[quote]引用第6楼xiaoli0706于2006-12-13 08:27发表的“”:
现在的关键是回归模型的因变量如果没有正态分布的要求,那么为什么那位老师在做回归的时候还要将连续型数值变量尽量转成接近正态分布的形式。
让模型跟着数据走,我个人不太赞同这个想法。你做回归模型能解释变量之间的关系,和预测一个区间,即使有什么假设的话,你也要尽量满足,然后想解释的途径。你所能改动的也只是变量的组合。不用回归很难到达一样的效果。[/quote]
数据转换是一个委曲求全的办法,“实在”没有别的办法的时候才去做。至于你老师怎么讲课,我想这和本问题无关。
回归不代表一定要正态分布,这个我已经说过很多次了。
显著性也并不一定只有在正态分布下才能得到精确结果;更何况精确的显著性在绝大多数情况下根本就毫无必要。本例中样本量很大,几乎任何分布都可以得到不错的渐进分布,那为什么还要局限在正态分布下思考?为什么不用更加符合数据的分布?
模型是你假想并相信的数据产生机制,当你的数据和你的模型不匹配的时候,显然说明你不应该相信模型,而不是你的数据不对——数据永远是正确的,即使有极端值也是正确的。如果有极端值,说明数据的分布就是那样,除非你有足够理由说明那个极端值是个异常值,否则绝不能把它删除掉。做变换的道理是一样的,如果你愿意做转换,我几乎可以把任何极端的分布转换成正态的,可是除非你有“数据之外”的理由支持转换(这个时候我不反对做变换),否则转换数据就和篡改数据差不多少了(当然还没那么严重)。
模型和数据的关系不能本末倒置,不能因为我学过正态分布,我就要把拿到的数据全都变成正态分布。如果说身高是正态分布的,我难道还要把姚明的腿砍掉么?
rtist
世界上永远不会存在正确的模型,只要提到模型,就已经承认了人类对世界认识的无知;可是人类永远离不开模型。
ilikemath
支持rtist的说法,模型是死的,人是活的。
ryanliu
他问附加问题是感觉到两位谢老师的姓氏相关
hwtatm
回归时,要求因变量是非确定变量,也就是对它而言要服从一定的统计分布,而自变量被假定在重复样本中具有固定值。回归的经典假设都是针对估计模型残差而言的,假定残差与自变量之间不相关,意味着自变量不存在抽样变化,它的值是由模型之外的因素决定的。
所以,回归时对于变量的分布要求不严格,对残差的分布要求严格。
rtist
[quote]引用第13楼hwtatm于2007-01-05 16:41发表的“”:
回归时,要求因变量是非确定变量,也就是对它而言要服从一定的统计分布,而自变量被假定在重复样本中具有固定值。回归的经典假设都是针对估计模型残差而言的,假定残差与自变量之间不相关,意味着自变量不存在抽样变化,它的值是由模型之外的因素决定的。
所以,回归时对于变量的分布要求不严格,对残差的分布要求严格。[/quote]
模型的假设是针对误差的,不是针对残差的。
yihui
嗯,error和residual的概念不要弄混了
hwtatm
thanks!
hwtatm
近日拜读了一下陈先生的《近代回归分析》,第一章的内容似乎对这个问题有一点启发。谢学长已经将此书贡献出来很久了,在此再次感谢学长!
sober
《近代回归分析》这书论坛有吗?残差和误差的区别老大可不可以简单的介绍一下啊。
daz0912
做回归分析时,一些前提假定并不是非检验不可,回归分析本来就是摸着石头过河,你可以先做出回归模型,再接受实际的检验,如果符合实际,那么就可以认为你的假定前提是成立的,否则,即使你做了前提假定的一些检验,也并不意味着你的回归模型是正确的,何况前提假定又很难检验呢?
rtist
[quote]引用第19楼daz0912于2007-01-16 20:21发表的“”:
做回归分析时,一些前提假定并不是非检验不可,回归分析本来就是摸着石头过河,你可以先做出回归模型,再接受实际的检验,如果符合实际,那么就可以认为你的假定前提是成立的,否则,即使你做了前提假定的一些检验,也并不意味着你的回归模型是正确的,何况前提假定又很难检验呢?[/quote]
模型诊断从来没有人要求找到这确的模型,模型从来就不是正确的,也永远不可能正确——统计学的存在就已经默认了人类的无知。但是不检查模型是肯定不正确的,因为推断是基于这些假定的。模型诊断并不一定做什么假设检验,但是这不代表不做诊断。我不知道你怎么定义符合实际这个词的,如果定义得合理,那么它就是模型诊断的一部分。我们也不一定找到所有假定都满足的模型,事实上也永远找不到,比如世界上从来没有过什么现实数据是正态分布的,问题是假定对于分析结论的影响有多大,如果没有影响或者影响很小的时候,才可以接受模型。总而言之,数据分析最终总要对模型有一个针对分析目的的评价。
waterball
各位大侠的讨论已经到了方法甚至方法论的高度了,有没有人以指导实践那样的思路来讨论或回答问题的?通常发问的人统计的功底未必深厚,大侠们也该予以体谅
李未希
太深奥了
laurayan
同感21楼22楼的。。。
还打算学学回归分析的,回到论坛突然看到高手们过招的情景,心都掉冰箱第二个门里面去了。。。
这么难学啊。。。
附:rtist 你不是说过不用这个名字了??怎么又改回来了
robustreg
请提问的同学注意一下,是条件正态分布,不是整个Y正态分布,是事后用残差来检查理论上的误差是否正态分布,也就是说先有模型假定(这个假定最好有合理性,比如散点图或专业理论支持),事后再来诊断前面的假定是否成立,如果有问题,解决的方法要看情况而定,可能要修正模型(比如有专业解释的变量变换,增加自变量或其它项,改变线性关系,使用非参数方法等等),也可能要改变算法(如稳健估计,前提是确认模型无误,当然这一点比较难肯定),,,,,
rtist
[quote]引用第23楼laurayan于2007-05-25 08:11发表的“”:
rtist 你不是说过不用这个名字了??怎么又改回来了
.......[/quote]
当时说的不定期封号,没说永远封号。
气消了自然就改回来了。。。。不过对于原来那个问题的态度不会改变。
rtist
[quote]引用第24楼robustreg于2007-07-24 11:52发表的“”:也可能要改变算法(如稳健估计,前提是确认模型无误,当然这一点比较难肯定),,,,,[/quote]
good point.
mittie
误差是没法测量的,只能用残差去估计误差。
[quote]引用第14楼rtist于2007-01-07 05:46发表的“”:
模型的假设是针对误差的,不是针对残差的。[/quote]
Statsfu
模型永远是错误的,但是有的模型是有用的------不是我说的哦