想请教一下oversampling/undersampling为什么可以解决稀缺类别？

ls108j

比如你的数据 1000:1 1000个好人 1 个坏人利用oversample 1个坏人就可以多多复制。这样不是操纵数据么？如果从预测方面来说你做oversample/undersample 对预测有什么影响？假设你用logistic 去给一个概率这个概率是要调整的吧为什么？

FangGong

一点个人理解。

我也觉得从“将占比较小的类别的样本进行复制“这个角度理解会让人很费解。
所以我理解的方式是提高目标函数中占比较小类别样本的权重，这个和上面的表达的数学形式其实是一样的，但是会更符合常识一些（99个人跟我说炒股票能挣大钱，1个人跟我说炒股票就是去做韭菜，那我肯定要仔细考察一下这个做韭菜的老哥的经历以免做第二个韭菜的）

回到问题，对坏人的数据复制必然会导致模型对坏人数据过拟合了，如果这一个坏人数据中噪音太大，那模型的泛化能力会极差。回到那个做韭菜的老哥，这老哥如果做韭菜的原因是在疫情前全仓买入了上海机场，然后我们仔细考察他得出一个结论，疫情导致利空的股票不能买，这很明显就过拟合了，毕竟疫情本就不是一个大概率事件，疫情总有结束的一天。所以一般在过采样时会选择带正则的模型增加泛化能力，在韭菜老哥的身上就是我们不能过于夸大疫情对是否会称为韭菜的影响。

最后关于”假设你用logistic 去给一个概率这个概率是要调整的吧为什么？“这个问题，个人觉得是不需要的，但是为什么呢，我也说不出个所以然来...

ls108j

FangGong 我看网上最后不是要调整概率么？比如你用你oversample的概率是0.5 要改成原始数据修改