tangboyun 会的,不过我觉得这问题本身没意义。一个更好的问题应该是如何减少或者防止过拟合。 因为如果训练数据和总体有较大偏差的话,无论分类器如何优秀,都会导致过拟合现象。 这个时候可以考虑 1、降维,主要是特征选择。 2、使用bootstrap之类的ensemble方法。
nan.xiao 回复 第5楼 的 oldbeggar: 赞同,看数据。某些数据用树好些,某些用核好些,也看使用者喜欢哪个,用得好,终归不会差太多。 至于 M 级的变量(很多都是生物数据吧)又比较稀疏,可以做个 feature hashing 看看。 对 feature 做预处理对后期精度的提高和避免过拟合是特别重要的,这个阶段可以大大发挥想象力,非常灵活。以至于后期的代入分类器调参阶段显得有些无足轻重了。