请教个支持向量机的问题

Sunysu_colck · 2012年12月6日

支持向量机会不会过拟合？特别是当样本中变量很多的时候。

lyxmoo · 2012年12月7日

不明白，不说话。

个人认为SVM只是个分类器，实际中需要结合DAG（Directed acyclic graph ）一类的算法使用。

tangboyun · 2012年12月31日

会的，不过我觉得这问题本身没意义。一个更好的问题应该是如何减少或者防止过拟合。

因为如果训练数据和总体有较大偏差的话，无论分类器如何优秀，都会导致过拟合现象。

这个时候可以考虑

1、降维，主要是特征选择。

2、使用bootstrap之类的ensemble方法。

nan.xiao · 2012年12月31日

在现实中会过拟合，但不是很容易。一般是参数 C 调得太大时会出现。

至于大 p 小 n 问题，与核的选取有一定关系。

oldbeggar · 2013年1月19日

回复第4楼的肖楠：我觉得是看数据，有些数据要过拟合太容易了，SVM很彪悍的。做特征选择时，cross-validation过程不合适，变量又很多（M级这种），过拟合更容易~~

nan.xiao · 2013年1月19日

回复第5楼的 oldbeggar：

赞同，看数据。某些数据用树好些，某些用核好些，也看使用者喜欢哪个，用得好，终归不会差太多。

至于 M 级的变量（很多都是生物数据吧）又比较稀疏，可以做个 feature hashing 看看。

对 feature 做预处理对后期精度的提高和避免过拟合是特别重要的，这个阶段可以大大发挥想象力，非常灵活。以至于后期的代入分类器调参阶段显得有些无足轻重了。

oldbeggar · 2013年1月20日

回复第6楼的肖楠：所以很多问题都得针对具体数据和目的来解答，坑太多了~