xifan
最近学习SVM,查到一下资料:
1、SVM模型选择方法
基于结构交叉确认
处罚(Penalize)模型的复杂性:
–Akaike信息标准(AIC)
– Bayesian信息标准
结构风险最小化
其中结构风险最小化又包含VC confidence,据我理解它的目的也是控制模型的capacity和complexity,这里的三个选择模型的标准中在计算过程中是一起考虑的还是只考虑其中的一个?
如果说是一起考虑的,那么AIC和BIC准则与结构风险最小化一起考虑会不会过多考虑模型复杂性的惩罚?
VC维数如果没有使用kernel,是否就是由输入变量x的维数确定?如果是由x完全决定,模型结构风险最小化这个准则有什么意义么?因为我觉得控制模型的复杂性除了模型的维数之外还有模型的次数,比如二维平面中直线就比曲线简单得多,而结构风险最小化没有考虑这方面的因素,就是说在没有使用kernel时,所有的模型的VC维数都是一样的,这样风险结构最小化就退化成了经验风险最小化。
我觉得我肯定有混淆什么概念,但是文献看得还不够多,还没有发现错误在哪里,请高手指教。
xifan
2、Linearly inseparable
在这种情况下,需要reduce convex hulls,涉及到的参数姑且叫D,我的问题是D的作用及D的取值。
我的理解是D控制的是比较稀疏的区域的点是否能够被取到。如果D非常小,那么只有分布很密集的地方的点才会考虑构建模型,这样D太小自然会造成过大的误差,过大的话不能解决不可分的问题,所以D应该选择一个不大不小的值。一般提供的选择是让计算机去选择D,我总觉得这种东西不是那么可靠(感觉,没有研究过),是不是可以根据数据的不可分程度或者数据分布密集程度来事先给出D的一个区间,至少可以缩小范围。是否可行呢?
初涉此类东西,还没有弄懂,谢谢指教
jyma
建议看 generalized error, 可查 Leo Breiman, Robert Tibshirani等的相关文章.
好像这方面有关于SVM的文章.