支持向量机会不会过拟合?特别是当样本中变量很多的时候。
请教个支持向量机的问题
不明白,不说话。
个人认为SVM只是个分类器,实际中需要结合DAG(Directed acyclic graph )一类的算法使用。
24 天 后
会的,不过我觉得这问题本身没意义。一个更好的问题应该是如何减少或者防止过拟合。
因为如果训练数据和总体有较大偏差的话,无论分类器如何优秀,都会导致过拟合现象。
这个时候可以考虑
1、降维,主要是特征选择。
2、使用bootstrap之类的ensemble方法。
在现实中会过拟合,但不是很容易。一般是参数 C 调得太大时会出现。
至于大 p 小 n 问题,与核的选取有一定关系。
20 天 后
回复 第4楼 的 肖楠:我觉得是看数据,有些数据要过拟合太容易了,SVM很彪悍的。做特征选择时,cross-validation过程不合适,变量又很多(M级这种),过拟合更容易~~
回复 第5楼 的 oldbeggar:
赞同,看数据。某些数据用树好些,某些用核好些,也看使用者喜欢哪个,用得好,终归不会差太多。
至于 M 级的变量(很多都是生物数据吧)又比较稀疏,可以做个 feature hashing 看看。
对 feature 做预处理对后期精度的提高和避免过拟合是特别重要的,这个阶段可以大大发挥想象力,非常灵活。以至于后期的代入分类器调参阶段显得有些无足轻重了。
回复 第6楼 的 肖楠:所以很多问题都得针对具体数据和目的来解答,坑太多了~