kobe5689 请教各位大神, 在刚拿到一份较复杂的数据时,比如有几十个Predictor,几十万个data point,有的是numerical的,有的是dummy variable,在知道response variable的情况下,在进行任何回归分析或更高阶分析前,大家是如何发掘已有数据中的规律或者特性以提升后续分析的效率和质量的? 十分感谢.
nan.xiao 相对于直接做预处理,更合理的方式是先上一个简单模型或者黑箱模型看下情况。确定了你要用的方法后,根据这些方法的情况来调整数据。 简单的说,在这个过程中,你对各个变量的意义和它们之间的关系都要有所认识,对于观测也一样。其中一个相对重要的问题是变量选择,其实这也暗示着预处理和实际建模过程是密不可分的。 我们说数据预处理是一项艺术而不仅仅是一项或几项技术,有一些固定的手段,有时更需要经验,灵感和技巧。
kobe5689 回复 第2楼 的 肖楠:谢谢肖楠版主~~预处理了数据之后直接上GLM也许是个不错的选择吧~~~然后再根据结果和变量之间的关系调整~~~看来这项艺术需要很丰富的处理经验做支撑呢~~~~继续努力去了~