eshanzi 请教一个有关面板数据(panel data)分析的问题:如何去掉面板数据中离位值(也称野值:outlier)的影响?有位教授说:在固定效应模型中用中值代替均值,但在随机效应模型中呢?请大家明示!谢谢。
eshanzi 谢谢大家,但还是有疑问:首先识别野值不太容易,似乎传统方法有些问题,因为直接看residual及直方图都不一定好。所以他借用了统计里面的LMS或者LTS,但我统计功底差,在面板数据随机效应模型中不知道怎么处理,感觉他不是直接去掉野值,而是尽量避免野值的影响。可惜他不留资料给学生
yihui 本来Panel Data的模型我就没太搞明白,所以也不敢乱说。涉及到Outlier的问题肯定要参考Robust Statistics,不妨参考这方面的书,Modern Applied Statistics with S-Plus (/S)那本书中讲了一章Robust的内容,比较粗略,这本书专门讲Robust Statistics的:http://cos.name/bbs/read.php?tid=2444
abel [quote]引用第0楼eshanzi于2007-06-06 08:34发表的“请教有关面板数据分析的问题”: 请教一个有关面板数据(panel data)分析的问题:如何去掉面板数据中离位值(也称野值:outlier)的影响?有位教授说:在固定效应模型中用中值代替均值,但在随机效应模型中呢?请大家明示!谢谢。[/quote] 我同意首先看看数据是否准确。 面板数据中尤为涉及到时间序列分析中的概念,删除某些判定为outlier的样本会存在一些问题。 随机效应模型中,一样可以适用各种插值方法补齐,至于适用哪种方法,看数据背景了,不一定要用平均值 当然也可以考虑借鉴robust的思路,将面板数据分析处理过程中的局部环节调整下,获得robust意义下的结果。 MASS这本书中主要正对lm来做robust回归的,思路应该大致都差不多。
eshanzi 谢谢,似乎设计时序数据一般不宜删样本,野值有时候是某一或某几个自变量值与绝大多数相差很大,而因变量值还是很接近其他数值;但有的则是自变量看不出差异,但因变量值相差很大;再就是自变量和因变量值都与其他样本相差很大,因此识别并不是很容易。
abel [quote]引用第7楼eshanzi于2007-06-09 11:35发表的“”: 谢谢,似乎设计时序数据一般不宜删样本,野值有时候是某一或某几个自变量值与绝大多数相差很大,而因变量值还是很接近其他数值;但有的则是自变量看不出差异,但因变量值相差很大;再就是自变量和因变量值都与其他样本相差很大,因此识别并不是很容易。[/quote] 不管是自变量还是因变量,只要有和“模型”不一致的地方,出现特别离谱的值,那么相应的残差也是离谱的,一样可以把这些点诊断出来,robust可以直接用于这个含义上,而不是仅仅对自变量或者应变量而言的吧。
eshanzi [quote]引用第9楼xifan于2007-06-10 13:59发表的“”: 如果x比较反常,而y的值是蛮符合模型的,这样的话它也不是异常值,诊断不出来。[/quote] 这样也会影响模型的准确性呀,谢谢