分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
写得不错,说得很清楚,赞!
to Sunstone:
多谢多谢。这几年来我是一直跟踪你的博客,受益匪浅。
多谢多谢。这几年来我是一直跟踪你的博客,受益匪浅。
很好的文章,多谢多谢啊。
不知关于Lift(提升)和Gain(增益)的文章出来了没有?我找了很长时间,没有找到,呵呵
不知关于Lift(提升)和Gain(增益)的文章出来了没有?我找了很长时间,没有找到,呵呵
to simon,多谢捧场哈。Lift和Gains,计划是在下一篇,但时间不定,不妨先看看这里,http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!308.entry,关于lift的,前年做的一个读书笔记,但愿有用。
1 个月 后
Receiver Operating Characteristic Curve的叫法是因为比较了TPR和FPR
1 个月 后
不知用SPSS能做出ROC曲线吗?我不是专业的,冒犯了。
2 个月 后
所谓的ROC曲线,是不是可以这么理解:
假定对于一个两类分类问题,根据预测模型,可以得出一个预测概率,选取不同的阈值,判定为正例或副例,得到不同的Sensitivity和Specificity。选取不同的阈值,画出Sensitivity和1-Specificity的关系曲线,就是ROC曲线了。
还有些问题不清楚:
(1)是不是所有的分类器都可以作出ROC曲线,如决策树、SVM。有些分类器没有这样的预测概率表达式,例如k近邻分类器,是根据紧邻样本占多数的类别判决的,怎样转化出ROC曲线?
(2)ROC曲线对最佳阈值选定有没有参考作用,应该如何考虑?
假定对于一个两类分类问题,根据预测模型,可以得出一个预测概率,选取不同的阈值,判定为正例或副例,得到不同的Sensitivity和Specificity。选取不同的阈值,画出Sensitivity和1-Specificity的关系曲线,就是ROC曲线了。
还有些问题不清楚:
(1)是不是所有的分类器都可以作出ROC曲线,如决策树、SVM。有些分类器没有这样的预测概率表达式,例如k近邻分类器,是根据紧邻样本占多数的类别判决的,怎样转化出ROC曲线?
(2)ROC曲线对最佳阈值选定有没有参考作用,应该如何考虑?
24 天 后
总的不错,只是LZ对医学诊断试验不清楚,有些名词就译的不够专业,如Sensitivity是灵敏度、Specificity是特异度。
ROC曲线纵轴是真阳性率(即灵敏度),横轴是假阳性率(1-特异度);
AUC(曲线下的面积)反映了诊断试验效率好坏的重要指标,其可以计算标准误(反映抽样误差),两个诊断试验的比较就是比较两个AUC。
ROC曲线纵轴是真阳性率(即灵敏度),横轴是假阳性率(1-特异度);
AUC(曲线下的面积)反映了诊断试验效率好坏的重要指标,其可以计算标准误(反映抽样误差),两个诊断试验的比较就是比较两个AUC。
1 年 后
现在正在研究ROC曲线,有一个问题想请教博主,就是两条ROC曲线如何绘制在同一个坐标图里面呢?用STATA操作的话,程序怎样写?或者用sas或者R怎样实现呢?非常感谢。
1 年 后
[未知用户] 哈哈...
推荐一个基础的关于如何计算的这些指标的:
http://cos.name/2008/12/measure-classification-model-performance-roc-auc/
另,我们论坛可以考虑支持群众上传,
推荐一个基础的关于如何计算的这些指标的:
http://cos.name/2008/12/measure-classification-model-performance-roc-auc/
另,我们论坛可以考虑支持群众上传,
[未知用户] 不好意思错了,是下面这个
http://bbs.vsharing.com/Information/EI/1330521-1.html
http://bbs.vsharing.com/Information/EI/1330521-1.html
3 年 后
《医学研究中的logistic回归分析及sas实现》,书中第7章“诊断试验中的logistic回归”,详细介绍了如何用sas 的proc logistic做诊断试验,包括ROC曲线,包括多个指标的联合诊断方法,不同诊断方法的比较等等。有兴趣的不妨一看。
6 个月 后
“我们用logistic回归模型,再给每个客户算了一个bad的概率,这个概率是用模型加以修正的概率,叫做“后验概率”(Posterior Probability)。”这里,好像讲错了。后验概率是一个条件概率,但是这里的预测概率并非条件概率,不能称为后验概率。
SAS一步到位给出的ROC曲线及AUC统计量是根据训练样本重代入模型预测得出的,那要求解验证样本的ROC曲线和AUC统计量,怎么求?或者引入ROC曲线和AUC统计量的本意只是针对训练集精度进一步补充描述?另外,SAS建立LOGISTIC回归后如何用验证样本进行验证,这一块很少提及,哪位高手可以详解?在建模时验证样本与训练样本放在同一数据集但验证样本的因变量设置为缺失是一个方法,但是后续的数据集处理麻烦。有没有一步到位的方法呢?
[未知用户] 如果像这一系列的《混淆矩阵》一文介绍的方法——把模型求解出来再用data步求验证结果,这样针对属性为多类别的自变量数据,貌似不可行(针对这种数据,在建模时,logistic过程步会自动引入哑变量)。
如果像这一系列的《混淆矩阵》一文介绍的方法——把模型求解出来再用data步求验证结果,这样针对属性为多类别的自变量数据,貌似不可行(针对这种数据,在建模时,logistic过程步会自动引入哑变量)。