目前情况是 我有8000条数据 但是里面只有200例阳性数据,有15列左右的变量,想要用机器学习或者深度学习(正在学习)的方法,建模预测阳性。看了网上处理这部分问题的方法,比如欠采样、SMOTE过采样等。
我想请教的问题是:1.这个smote过采样适合我的这个阳性率2.5%的数据吗?2.如果欠采样应该怎么操作呢3.后续会不会被质疑结果,比如夸大了模型的预测效果等。
真诚寻求老师同学各位帮助!
【求助】不均衡数据处理方法以及弊端
6 天 后
你也可以尝试换个角度来看待你的数据,比如:使用异常值检测的目标,来看待你的数据和面对的问题。
BOBO2333 GLM也要考虑数据不均衡的问题。如果你觉得测试accuracy不对头的话,可以考虑交叉验证多做几次试试,另外随机分组的时候也要采用分层抽样的方法确保训练、测试集合里两类样本的比例基本与总体基本一致。