请教有关面板数据分析的问题

eshanzi

请教一个有关面板数据（panel data)分析的问题：如何去掉面板数据中离位值（也称野值：outlier)的影响？有位教授说：在固定效应模型中用中值代替均值，但在随机效应模型中呢？请大家明示！谢谢。

yihui

仅仅从outlier的角度来说，我一向认为如果样本量足够大，那么直接删掉野值就好了，如果样本量太小，那么就要首先研究一下为什么会出现野值，尤其是计量经济学，它不仅仅是个数学问题。

蓝色

同意上面的说法

eshanzi

谢谢大家，但还是有疑问：首先识别野值不太容易，似乎传统方法有些问题，因为直接看residual及直方图都不一定好。所以他借用了统计里面的LMS或者LTS，但我统计功底差，在面板数据随机效应模型中不知道怎么处理，感觉他不是直接去掉野值，而是尽量避免野值的影响。可惜他不留资料给学生

yihui

本来Panel Data的模型我就没太搞明白，所以也不敢乱说。涉及到Outlier的问题肯定要参考Robust Statistics，不妨参考这方面的书，Modern Applied Statistics with S-Plus (/S)那本书中讲了一章Robust的内容，比较粗略，这本书专门讲Robust Statistics的：http://cos.name/bbs/read.php?tid=2444

eshanzi

谢谢

abel

[quote]引用第0楼eshanzi于2007-06-06 08:34发表的“请教有关面板数据分析的问题”:

请教一个有关面板数据（panel data)分析的问题：如何去掉面板数据中离位值（也称野值：outlier)的影响？有位教授说：在固定效应模型中用中值代替均值，但在随机效应模型中呢？请大家明示！谢谢。[/quote]

我同意首先看看数据是否准确。

面板数据中尤为涉及到时间序列分析中的概念，删除某些判定为outlier的样本会存在一些问题。

随机效应模型中，一样可以适用各种插值方法补齐，至于适用哪种方法，看数据背景了，不一定要用平均值

当然也可以考虑借鉴robust的思路，将面板数据分析处理过程中的局部环节调整下，获得robust意义下的结果。

MASS这本书中主要正对lm来做robust回归的，思路应该大致都差不多。

eshanzi

谢谢，似乎设计时序数据一般不宜删样本，野值有时候是某一或某几个自变量值与绝大多数相差很大，而因变量值还是很接近其他数值；但有的则是自变量看不出差异，但因变量值相差很大；再就是自变量和因变量值都与其他样本相差很大，因此识别并不是很容易。

abel

[quote]引用第7楼eshanzi于2007-06-09 11:35发表的“”:

谢谢，似乎设计时序数据一般不宜删样本，野值有时候是某一或某几个自变量值与绝大多数相差很大，而因变量值还是很接近其他数值；但有的则是自变量看不出差异，但因变量值相差很大；再就是自变量和因变量值都与其他样本相差很大，因此识别并不是很容易。[/quote]

不管是自变量还是因变量，只要有和“模型”不一致的地方，出现特别离谱的值，那么相应的残差也是离谱的，一样可以把这些点诊断出来，robust可以直接用于这个含义上，而不是仅仅对自变量或者应变量而言的吧。

xifan

是可以诊断出来，楼上的楼上是不是这个意思，如果x比较反常，而y的值是蛮符合模型的，这样的话它也不是异常值，诊断不出来，也没必要诊断出来吧。

eshanzi

[quote]引用第9楼xifan于2007-06-10 13:59发表的“”:

如果x比较反常，而y的值是蛮符合模型的，这样的话它也不是异常值，诊断不出来。[/quote]

这样也会影响模型的准确性呀，谢谢