Ihavenothing 回复 第5楼 的 raygod2: Applied predictive modeling这本书的第16章是专门讲这个问题的,后面也讲到了计算,主要是caret包的downSample()和upSample()函数,希望对你有用。
huhao2476 主要看你所研究的问题。 如果你想做预测模型,普通的logistic回归,multinomial regression都可以做,而且精确度应该在99%以上。其他比如CART,神经网络,随机树林,SVM,也可以尝试。 如果你研究的是那1%,或者需要提高模型对这1%的敏感度(想问一下你研究的是哪一方面数据,会有这样的样本间的失衡?),那么你需要重新1:1:1抽样,去用同样一套方法。 保险中预测模型有时会考虑zero inflated modeling或者hurdle regression。在伯努利分布上嫁接了一个logistic model或者Poisson model。安装应该是install.packages(hurdle) ,超神奇的方法,能同时给出两个模型的参数估计。
raygod2 回复 第7楼 的 huhao2476:是说普通的logistic归回就不会面临数据不平衡的问题了么? 我只知道CART这种经典的分类器会受到不平衡数据的很大影响 其实我想问的就是如果对样本重新抽样还能尽量保留不同类别样本的信息 我手头的是邮件营销的用户数据 分类是以用户收到邮件后是否下单 所以 类间数据严重失衡。。。
lyxmoo 强迫症犯了,看到一个抽样文档,总也想不起名字,大概 Book Draft - Introduction to Graphic Models - M Jordan 是的,要是哪位高人看到比我这个文档更新的版本,请不吝赏赐我一份。 我把它放在这里了。请观摩一下sampling Methods . <br /> http://pan.baidu.com/s/1hql2SBi<br /> </p>
enthumelon 回复 第15楼 的 lyxmoo:bishop chap 11. one pdf: http://www.hua.edu.vn/khoa/fita/wp-content/uploads/2013/08/Pattern-Recognition-and-Machine-Learning-Christophe-M-Bishop.pdf