慕古 最近接了一个调查统计过后的数据表,进行统计分析,代课老师叫我们先提出研究主题,然后通过数据分析来验证.有50多个变量,而且有几个变量的缺省值还很多,比如说N本来有100个,有数据显示的只有4个,那么如何处理这个变量呢?因为变量太多,基本上是定序的和定类的,怎样缩小变量的数量呢?
fairy 先理解一下各变量的的含义吧,找找变量之间可能的联系,由此确定研究主题; 然后对各变量做一个数据诊断,看看有效值占比,挑选品质较好的变量作相应分析就行了。 50个变量不是很多啦,呵呵 这种分析,简单的话,频数分析和交叉分析就可以了,简单明了 想复杂的话,就看你要分析的具体问题和深度了,在了解变量含义以及变量间关系的基础上,你可以运用Logistic回归啊、神经网络啊、关联规则啊分类回归树啊这些模型进行分析
kuhasu 用DT先分下把变量找出来就行了,其他reject quotation: 这种分析,简单的话,频数分析和交叉分析就可以了,简单明了 想复杂的话,就看你要分析的具体问题和深度了,在了解变量含义以及变量间关系的基础上,你可以运用Logistic回归啊、神经网络啊、关联规则啊分类回归树啊这些模型进行分析 What's your purpose for analysing!!