问题一:如果做数据分析我觉得其实没必要进行编码预处理,特别是多分类的变量,如果进行one-hot
编码之后大量增加了特征,并且使得数据分析很不方便,也不利于观测。最好是分步进行,编码放在构建模型前就好了。
问题二:个人认为得看情况,得看数据特点和采用什么填充缺失值和training data, test data如何分割。例如是时间序列的数据则往往采用前一日往后填充,所以先填充再分割数据;如果采用均值、中位数(通过多个样本计算获得)按理应该先分割数据集,通过training data计算获得并同时填充training data和test data, 应该和标准话的方法一样的,因为test其实是一个预测的过程。
不过其实实际操作起来差别也不会很大,因为大多数情况特别是比赛的数据集都不错,training data和test data的一样也采用随机抽样的方法,所以在training data和整体的均值(或中位数等)差别不会太大的。
感觉现在kaggle不好玩,可能主要是玩不过他们吧😄😭