我的数据有2000多条记录,每记录有80多个属性。属性几乎都有缺失值,也没有一条记录的所有属性都有值。有的属性缺失的值在80%以上。我如何处理呢?

那些缺失的值是不可能通过其他方法得到,只能自己处理了。

我初步有个想法就是用正态模拟。对那些符合正态分布的属性进行处理,其他的就不处理,删除。

正态模拟的过程:设属性A符合正态分布,有n个不为空的值,m个空值。用n个数据诸得到平均值M与标准差S,然后用了函数Rand(m,s)得到随机数,用此数填充到空的地方。共取m个随机数。Rand(m,s)是产生基于M与S的符合正态分布的随机数。

大家说说这个方法可行吗?如果可行,得到的随机数有什么指标评价?
我对缺失数据处理了解也不深入,你的方法应该是可行的。不过首先要通过别的途径知道你要插补的变量是否真的是服从正态分布。



插补的方法有很多种,你也可以借鉴别的方法
2 个月 后
你可以用均值代替缺失值,这个方法有时候有用,不知对你的数据如何呢!
6 个月 后
没有经验,印象中SAS里有MI(multiple imputation)。也可以single imputatuon,最简单的就是mean,0,极值,mode。