OwenDelphi
我想用正态模拟的方法对空缺值进行补全。
正态模拟的过程:设有n个非空值,m个空值。用n个数据计算得到平均值M与标准差S,然后用函数Rand(m,s)得到随机数,用此数填充到空的地方。共取m个随机数。Rand(m,s)是产生基于M与S的符合正态分布的随机数。
大家说说这个方法可行吗?如果可行,得到的随机数有什么指标评价?
yihui
OwenDelphi
知道了,下次不了
rtist
[quote]引用第0楼OwenDelphi于2006-07-29 17:15发表的“空缺值处理”:
我想用正态模拟的方法对空缺值进行补全。
正态模拟的过程:设有n个非空值,m个空值。用n个数据计算得到平均值M与标准差S,然后用函数Rand(m,s)得到随机数,用此数填充到空的地方。共取m个随机数。Rand(m,s)是产生基于M与S的符合正态分布的随机数。
大家说说这个方法可行吗?如果可行,得到的随机数有什么指标评价?[/quote]
应该用预测分布的方差,而不是原始数据的方差。我记得这个问题至少在n个论坛都贴过了,不知道楼主究竟看没看大家的回答?
OwenDelphi
对不起,我是新手,所以不知道了,其它论坛上也有一些回答,但都还不够。请问你说的预测分布的方差是怎么知道的呢?
rtist
首先,为什么说你的数据就是正态的??检查过么??
其次,如果是正态的,通常可以得到exact theory的结果,预测分布方差看一下常见的线性回归的书都有。
再次,如果不是正态的,而你用正态的数据区模拟,显然不合适。虽然也有可能得到exact theory结果,通常人们比较喜欢求助于asymptotic的结果。
最后,在综合每个模拟数据集的结果过程中,数据集之间的covariance是不得以不忽略掉的(我的理解是这样,就像bootstrap里面covariance根本没有计算进去),所以最终结论仍然是有点liberal的。
amzon007
缺失值填补的方法很多,基于分布的方法其前提是总体数据必须满足已知分布的假设,你的数据能保证这一点吗?Multiple imputation是目前较为前沿的方法,其具体填充方法又细分为好几种。你可参考一下SAS 9中MI过程的手册,可从SAS网站上下载到。
leehman
应为缺失值