OwenDelphi
缺失值处理:我的数据缺失太多,有些过半了,有什么好方法处理啊?
连续数据离散化问题:我想把连续性数据分成5级,老板提到了M(平均数)+delata(标准差),但具体如何操作呢?请大家帮帮忙[p:4]
rtist
There's a translated book. The original authors includes Rubin, the guru of this area.
ypchen
生存分析中有处理这一问题的办法吧
yihui
第二个问题是不是一个Recode的问题?(SPSS中有)
第一个问题实在是一个很大的issue,缺失值的处理方法现在越来越复杂高深了……
micro@
[quote]引用第2楼ypchen于2006-06-23 18:34发表的“”:
生存分析中有处理这一问题的办法吧[/quote]
I guess those are mainly for censored data, which is a specific mode of general missing values.
micro@
Second question might need some underlying knowledge in your field. Why do you need to do that? What can you gain from that in terms of your subject? W/O such information, there could be infinite # ways to discretize data.
A simple example would be using a k-means clustering with k=5.
ypchen
《缺失数据分析》
Roderick J. A.Little, Donald B.Rubin 著
孙山泽 译
中国统计出版社
rtist
[quote]引用第6楼ypchen于2006-07-09 15:05发表的“”:
《缺失数据分析》
Roderick J. A.Little, Donald B.Rubin 著
孙山泽 译
中国统计出版社[/quote]
yes,that's the one I was recommending. I forgot the title.
OwenDelphi
谢谢大家的指点!
我是要自己写代码实现这个功能。离散化的问题我是想用统计学的方法进行,当然有些可以用专业的标准进行。我需要一个统一的方式,那样就有通用性了。
rtist
无语