kaggle2017房价预测问题——关于变量选择的小疑问

BlueberryAgent

本人kaggle萌新，在做2017年房价预测问题遇到了一些麻烦，就是对缺失的指标插补完之后，大概有70多个指标，有的是类型指标有的是数值指标，想问问大家遇到这种问题是应该将类型指标转换为哑变量，连同数值指标进行回归，然后根据相关性进行指标选择；还是应该先进行分析选择一部分指标，然后再去修正呢？

还有一个问题，就是之前做了泰坦尼克号的那个预测，我看到很多做法都是将train与test连在一起同时进行缺失值插补，但是这样test里面是不是就混入了本来不属于teat集的信息？我的做法是先处理train然后再处理test，但是这样又过于繁琐，所以想问问大家应该如何处理这类问题？

tctcab

BlueberryAgent

把test混进train进行插值那还是test吗靠，这种做法不严谨

songxiao

BlueberryAgent

将train和test连在一起处理的方法叫 label leakage，严格来说是应该避免的，但在Kaggle比赛中这么做的人很多。

不过这让我想到了Machine Learning中的“半监督学习”方法。这种方法适用于处理大量的未标记样本（就是不知道标记，只知道特征的样本）。它可以利用未标记样本的信息提升学习器性能。在Kaggle比赛中的话，test数据都是标记未知的，它们也许能够看做“未标记样本”。当然啦，半监督学习是假定训练集的一些样本标记缺失了而不是测试集。

顺便打个广告哈，我也是Kaggle萌新，而且也做了这个House Prices: Advanced Regression Techniques比赛。这是我的Kaggle个人主页，欢迎交流和关注！

BlueberryAgent

tctcab 是的，我觉得这个办法也有点不靠谱，这不就是人为添加噪声，所以说还是需要分开处理呗

nan.xiao

第一个问题，主要看你做变量选择和做预测模型的方法（也有可能是同一个方法）能不能直接处理类别型变量，至于先后顺序，具体怎么转换，影响不会很大。个人实践，数据预处理最好都在最开始一步全部处理完。

第二个问题，把训练集和（独立）测试集拼在一起做插补这样做不仅没有问题，甚至有点合理 —— 只要你保证没有用到这个独立测试集的 y 的信息来做插补，而只用了 X 部分。独立测试集的含义就是，即使知道 y 也假设完全不知道 y，这部分数据完全不参与训练。

BlueberryAgent

nan.xiao 所以您的意思就是，先进行变量选择，然后建立模型吧

tctcab

nan.xiao

对于问题2, 我的理解是x部分的信息应该也跟训练集分开来。理由还是过训练。

一个极端的例子，我训练模型时完全可以做手脚，把训练集合的样本按与测试集合X的相似度加权，人为将模型“过拟合”到符合测试集的模型空间去。个人觉得这种做法还是不严谨，不知你怎么看。

这让我想起了大学考试时期末试卷总能从前几届搞到八九不离十的题目。那么带着真题，哪怕没有答案，考出来的分数那肯定练得过度

nan.xiao

tctcab

楼主这里做的是缺失值插补，按照楼主的描述，这个过程和训练过程是独立的。即使这个过程和训练不独立（端到端学习），假设这个插补过程可以从不同样本间 borrow strength，并且不会用到 y 的信息（非常重要），那么问题的本质就回到了：是否认为训练集和测试集的 X 是同分布的。可以看到，这个假设是很弱很基本的，和训练过程毫无关系。

当然，回到楼主的问题，最差情况，如果这个插补方法对数据中模式的假设太强或者设计不合理以至于让插补后数据中的噪音掩盖了信号，那在理论上是有可能导致会对训练过程产生影响 —— 只是这种假设只存在于理论中，并且在这种情况下，无论是合并还是分开做插补都会产生类似的影响。所以我的结论就是，合并起来做插补不仅没关系，而且合理 —— 只要不用到 y 中的信息。

BlueberryAgent

tctcab 确实有过拟合的嫌疑

BlueberryAgent

nan.xiao 嗯嗯，您说这个问题确实是，上一次做泰坦尼克号的那个，我按照遇难者幸存者头衔，进行分组插补的时候，发现train和test的分组均值有一点点差别，其余的还好，是不是可以这样理解：就是不涉及具体分布时，可以连在一起；如果和train自身属性高度相关的化，就各差各的

BlueberryAgent

songxiao okkkk，kaggle上的大佬太多了，纯看他们的notebook自闭了

CMCai0104

问题一：如果做数据分析我觉得其实没必要进行编码预处理，特别是多分类的变量，如果进行one-hot
编码之后大量增加了特征，并且使得数据分析很不方便，也不利于观测。最好是分步进行，编码放在构建模型前就好了。
问题二：个人认为得看情况，得看数据特点和采用什么填充缺失值和training data, test data如何分割。例如是时间序列的数据则往往采用前一日往后填充，所以先填充再分割数据；如果采用均值、中位数（通过多个样本计算获得）按理应该先分割数据集，通过training data计算获得并同时填充training data和test data, 应该和标准话的方法一样的，因为test其实是一个预测的过程。

不过其实实际操作起来差别也不会很大，因为大多数情况特别是比赛的数据集都不错，training data和test data的一样也采用随机抽样的方法，所以在training data和整体的均值（或中位数等）差别不会太大的。

感觉现在kaggle不好玩，可能主要是玩不过他们吧😄😭

BlueberryAgent

CMCai0104 嗯呢，感觉房价那个一做哑变量的话，至少扩充两倍，其实我好奇这种情况下，您是怎么选择的变量呢，根据分析理论推断一下还是说看相关系数之类的呢？

tctcab

嘛看了这个training test的讨论给我的感觉就是kaggle真是鱼龙混杂啥人都有啊。

这种做法我估计投文章的话不到review那步，导师这关就打回来让我重做了w

BlueberryAgent

tctcab kaggle感觉有的做的分数确实高，但是问为啥这么做，呃呃呃，感觉有点为了准确率而训练，很多感觉类比计量的话，就是模型未通过经济学检验……