我的数据有2000多条记录,每记录有80多个属性。属性几乎都有缺失值,也没有一条记录的所有属性都有值。有的属性缺失的值在80%以上。我如何处理呢?
那些缺失的值是不可能通过其他方法得到,只能自己处理了。
我初步有个想法就是用正态模拟。对那些符合正态分布的属性进行处理,其他的就不处理,删除。
正态模拟的过程:设属性A符合正态分布,有n个不为空的值,m个空值。用n个数据诸得到平均值M与标准差S,然后用了函数Rand(m,s)得到随机数,用此数填充到空的地方。共取m个随机数。Rand(m,s)是产生基于M与S的符合正态分布的随机数。
大家说说这个方法可行吗?如果可行,得到的随机数有什么指标评价?
那些缺失的值是不可能通过其他方法得到,只能自己处理了。
我初步有个想法就是用正态模拟。对那些符合正态分布的属性进行处理,其他的就不处理,删除。
正态模拟的过程:设属性A符合正态分布,有n个不为空的值,m个空值。用n个数据诸得到平均值M与标准差S,然后用了函数Rand(m,s)得到随机数,用此数填充到空的地方。共取m个随机数。Rand(m,s)是产生基于M与S的符合正态分布的随机数。
大家说说这个方法可行吗?如果可行,得到的随机数有什么指标评价?