缺失值处理:我的数据缺失太多,有些过半了,有什么好方法处理啊?

连续数据离散化问题:我想把连续性数据分成5级,老板提到了M(平均数)+delata(标准差),但具体如何操作呢?请大家帮帮忙[p:4]
There's a translated book. The original authors includes Rubin, the guru of this area.
生存分析中有处理这一问题的办法吧
第二个问题是不是一个Recode的问题?(SPSS中有)



第一个问题实在是一个很大的issue,缺失值的处理方法现在越来越复杂高深了……
[quote]引用第2楼ypchen2006-06-23 18:34发表的“”:

生存分析中有处理这一问题的办法吧[/quote]

I guess those are mainly for censored data, which is a specific mode of general missing values.
Second question might need some underlying knowledge in your field. Why do you need to do that? What can you gain from that in terms of your subject? W/O such information, there could be infinite # ways to discretize data.



A simple example would be using a k-means clustering with k=5.
16 天 后
《缺失数据分析》

Roderick J. A.Little, Donald B.Rubin 著

孙山泽 译

中国统计出版社
[quote]引用第6楼ypchen2006-07-09 15:05发表的“”:

《缺失数据分析》

Roderick J. A.Little, Donald B.Rubin 著

孙山泽 译

中国统计出版社[/quote]

yes,that's the one I was recommending. I forgot the title.
20 天 后
谢谢大家的指点!

我是要自己写代码实现这个功能。离散化的问题我是想用统计学的方法进行,当然有些可以用专业的标准进行。我需要一个统一的方式,那样就有通用性了。