支持向量机会不会过拟合?特别是当样本中变量很多的时候。

不明白,不说话。

个人认为SVM只是个分类器,实际中需要结合DAG(Directed acyclic graph )一类的算法使用。

24 天 后

会的,不过我觉得这问题本身没意义。一个更好的问题应该是如何减少或者防止过拟合。

因为如果训练数据和总体有较大偏差的话,无论分类器如何优秀,都会导致过拟合现象。

这个时候可以考虑

1、降维,主要是特征选择。

2、使用bootstrap之类的ensemble方法。

在现实中会过拟合,但不是很容易。一般是参数 C 调得太大时会出现。

至于大 p 小 n 问题,与核的选取有一定关系。

20 天 后

回复 第4楼 的 肖楠:我觉得是看数据,有些数据要过拟合太容易了,SVM很彪悍的。做特征选择时,cross-validation过程不合适,变量又很多(M级这种),过拟合更容易~~

回复 第5楼 的 oldbeggar:

赞同,看数据。某些数据用树好些,某些用核好些,也看使用者喜欢哪个,用得好,终归不会差太多。

至于 M 级的变量(很多都是生物数据吧)又比较稀疏,可以做个 feature hashing 看看。

对 feature 做预处理对后期精度的提高和避免过拟合是特别重要的,这个阶段可以大大发挥想象力,非常灵活。以至于后期的代入分类器调参阶段显得有些无足轻重了。

回复 第6楼 的 肖楠:所以很多问题都得针对具体数据和目的来解答,坑太多了~