如何使用pROC包进行多分类ROC分析？

Wanderer

我想做一个多分类的ROC分析，使用pROC包，链接如下：

http://www.inside-r.org/packages/cran/pROC/docs/multiclass.roc

用的数据例子是iris，分类器是随机森林。以下是代码：

<br />
# randomForest & pROC packages should be installed:<br />
# install.packages(c('randomForest', 'pROC'))<br />
data(iris)<br />
library(randomForest)<br />
library(pROC)<br />
set.seed(1000)<br />
# 3-class in response variable<br />
rf = randomForest(Species~., data = iris, ntree = 100)<br />
# predict(.., type = 'prob') returns a probability matrix<br />
multiclass.roc(iris$Species, predict(rf, iris, type = 'prob'))<br />

结果是：

<br />
# Call:<br />
# multiclass.roc.default(response = iris$Species, predictor = predict(rf,<br />
# iris, type = "prob"))<br />
# Data: predict(rf, iris, type = "prob") with 3 levels of iris$Species: setosa,<br />
# versicolor, virginica.<br />
# Multi-class area under the curve: 0.5142<br />

我个人感觉这个不对，但是不知道怎么处理。

另外一个关于这个问题的链接是：

http://stackoverflow.com/questions/20507108/how-to-deal-with-multiple-class-roc-analysis-in-r-proc-package

希望高手帮我看看，谢谢啦！！！
</p>

Wanderer

木有人理我啊，呵呵。我自己又琢磨了一下，写了下面的R代码，还是麻烦大牛们帮我看看对不对。

数据是iris，分类器是multinomial logistic regression在nnet包里面，ROC分析使用的是pROC包，目的是求出AUC的值。和原始帖子的区别就是分别使用了最后预测概率矩阵的每一列，而不是全部3列.

代码：

<br />
# iris data (3-class ROC)<br />
library(nnet)<br />
library(pROC) # should be installed first: install.packages('pROC')<br />
data(iris)<br />
# 3-class logistic regression<br />
model = multinom(Species~., data = iris, trace = F)<br />
# confusion matrix (z1) & accuracy (E1)<br />
z1 = table(iris[, 5], predict(model, data = iris))<br />
E1 = sum(diag(z1)) / sum(z1)<br />
z1;E1<br />
#             setosa versicolor virginica<br />
#  setosa         50          0         0<br />
#  versicolor      0         49         1<br />
#  virginica       0          1        49<br />
#[1] 0.9866667<br />
# prediction model (still training data set)<br />
pre = predict(model, data = iris, type='probs')<br />
# AUC measure<br />
modelroc = mean(<br />
    c(as.numeric(multiclass.roc(iris$Species, pre[,1])$auc),<br />
        as.numeric(multiclass.roc(iris$Species, pre[,2])$auc),<br />
        as.numeric(multiclass.roc(iris$Species, pre[,3])$auc)<br />
    )<br />
)<br />
modelroc<br />
## RESULT ##<br />
# [1] 0.9803556<br />

这个结果貌似很靠谱了，但还是心里没底，我觉得和Hand & Till （2001）的文章还是不符合，帮忙看看啊。多谢大牛们了！！！！

P.S.

相关的参考链接：

pROC package:

http://www.inside-r.org/packages/cran/pROC/docs/multiclass.roc

Hand & Till (2001) original paper:

http://link.springer.com/article/10.1023%2FA%3A1010920819831

StackOverflow:

http://stackoverflow.com/questions/20527711/3-class-roc-analysis-in-r-proc-package
</p>

liulunyang

[s:17]