问个关于bagging的问题。

Sunysu_colck

为什么bagging一般选取树来作为它bag的对象？

micro@

because it rarely works well for other less variable methods...

nan.xiao

这样问就没逻辑了. 应该是 B 叔搞了 CART，但是精度差又不稳定，于是只能苦逼的想方设法在这方法基础上提高精度，后来就鼓捣出了 bagging. 是树找到 bagging, 而不是 bagging 找到树.

而它对树这样的弱分类器有效的理论原因是。。。还是抄段书吧:

Bagging 通过降低基分类器方差改善了泛化误差. Bagging 的性能依赖于基分类器的稳定性. 如果基分类器是不稳定的, 则 bagging 有助于减低训练数据的随机波动导致的误差; 如果基分类器是稳定的, 即对训练集中的微小变化是稳健的, 则组合分类器的误差主要是由基分类器的偏倚所引起的. 在这种情况下，bagging 可能不会对基分类器的性能有显著改善, 甚至可能降低分类器的性能, 因为每个训练集的有效容量比原数据集大约小 37%.

当然，因为这和数据有关, 你也可以对其他弱分类器甚至强分类器做 bagging，只要效果好就行.

我想是不是也因为树的速度比较快呢, 建一个强分类器一般都很慢哎, 再一组合速度就难以接受了.

twinsken

因为树特别容易overfitting,其他有类似特征的model用bagging往往也能提升性能