目前情况是 我有8000条数据 但是里面只有200例阳性数据,有15列左右的变量,想要用机器学习或者深度学习(正在学习)的方法,建模预测阳性。看了网上处理这部分问题的方法,比如欠采样、SMOTE过采样等。
我想请教的问题是:1.这个smote过采样适合我的这个阳性率2.5%的数据吗?2.如果欠采样应该怎么操作呢3.后续会不会被质疑结果,比如夸大了模型的预测效果等。
真诚寻求老师同学各位帮助!

    BOBO2333 小数据集上用大而复杂的模型往往实际效果不太好,应用场景清晰的数据往往需要先探查各个变量的情况,之后再定方法,楼主的问题,可能广义线性模型就可以了,神经网络可以用来暴力拟合。

      Cloud2016 好的谢谢您,您的意思是用广义线性模型或者神经网络是不需要考虑这个不均衡的问题了?
      之前我用逻辑回归的方法试了一下,最后的accuracy是100%,感觉这个数字是不正常的,所以想会不会是因为分类里阴性太多的原因。

        6 天 后

        你也可以尝试换个角度来看待你的数据,比如:使用异常值检测的目标,来看待你的数据和面对的问题。

        BOBO2333 GLM也要考虑数据不均衡的问题。如果你觉得测试accuracy不对头的话,可以考虑交叉验证多做几次试试,另外随机分组的时候也要采用分层抽样的方法确保训练、测试集合里两类样本的比例基本与总体基本一致。