假设使用SVM训练和预测数据,得到分类准确率为0.8,如果想要获得这个准确率的95%置信区间,那么应该选择什么方法呢?
我也在网上搜索了一下,看到一篇博客:https://sebastianraschka.com/blog/2022/confidence-intervals-for-ml.html#method-2-bootstrapping-training-sets--setup-step,里面大概总结了3种方法:(1)根据指标的分布;(2)使用bootstrap的方法,可以对训练集或测试集进行bootstrap;(3)改变随机种子点。
我的问题是:(1)我个人比较倾向于bootstrap,因为方法1适用的情况太局限,可能有很多统计量分布是不清楚的,方法3感觉会高估这个置信区间(因为如果用bootstrap自然会用到不同的随机种子点)?(2)如果用bootstrap,那么是应该bootstrap训练集,bootstrap测试集,还是训练集和测试集都bootstrap?(3)根据bootstrap的结果,在计算置信区间的时候,可以假设正态分布或者T分布来计算标准误,或者用percentile方法,或者更复杂的方法。我个人比较倾向于正态分布的方法,因为比较简单,percentile方法也很简单,但是有时候计算出来的置信区间不能够包含真实观测值?
因为我自己对机器学习只是非常非常粗浅的了解,所以想听听各位老师对上述问题或相关无问题的意见?