kappa value的计算和文章作者的结果不一致

hagiaatcos

文章给出的数据和 kappa 计算结果

我自己做了一下，和文章的 kappa 计算结果不一样。代码如下

install.packages('psych')
library(psych)
ob <- c(rep(0,196),rep(1,88),rep(0,90),rep(1,23))
pr <- c(rep(0,196),rep(1,88),rep(1,90),rep(0,23))
x <- cbind(ob,pr)
cohen.kappa(x)

结果是

Call: cohen.kappa1(x = x, w = w, n.obs = n.obs, alpha = alpha, levels = levels)

Cohen Kappa and Weighted Kappa correlation coefficients and confidence boundaries
lower estimate upper
unweighted kappa 0.32 0.4 0.49
weighted kappa 0.32 0.4 0.49

Number of subjects = 397

cosyongwh

就所给数据而言, 经R手工计算和代包计算, kappa的结果和hagiaatcos一样, 和文章也对不上

注意: 混淆矩阵(confused matrix)有的是预测在上, 真实在左, 如wiki; 有的是真实在上,预测在左, 如本例

测试如下:

原帖数据及`library(psych)`计算

library(psych)
ob = c(rep(0,196),rep(1,88),rep(0,90),rep(1,23))
pr = c(rep(0,196),rep(1,88),rep(1,90),rep(0,23))
x = cbind(ob,pr)
ck = cohen.kappa(x)
ck$kappa
# [1] 0.403579

根据wiki定义手工计算

# https://en.wikipedia.org/wiki/Confusion_matrix 
# https://en.wikipedia.org/wiki/Cohen's_kappa
# https://stats.stackexchange.com/questions/373995/
cohens_kappa = function(TP, FN, FP, TN) {
  return(2 * (TP * TN - FN * FP) / (TP * FN + TP * FP + 2 * TP * TN + FN^2 + FN * TN + FP^2 + FP * TN))
}
TP = 88; FN = 23; FP = 90; TN = 196 #此处请自行check, 注意wiki是[预测在上,真实在左], 和本例转置
cohens_kappa(TP, FN, FP, TN)
# [1] 0.403579

代包library(caret)计算

ob = factor(ob); pr = factor(pr)
cc = caret::confusionMatrix(pr,ob)
cc$overall["Kappa"]
# Kappa 
# 0.403579

至于结果对不上, 个人谈几点可能的原因:

hagiaatcos可能没有理解文章的细节, 数据和方法没有对应上; 因为就贴的内容而言, 缺少上下文
文章本身计算可能有问题, 尽信书不如无书; 何况很多时候发论文只是为糊口, 疏忽之处难免
文章可能采用别的软件计算kappa, 公式可能和R不一样: 里面有比例系数或者权重系数之类的

Cloud2016

cosyongwh 关于第二点让我一下子想到东北师范大学的白志东院士（一位泰斗级的统计学家）说他一生写了约 2/3 的 [Survival Papers]，当时让我震惊😱，后来又觉得真实、真诚，对他更加肃然起敬，果然大师风范！

Liechi

Cloud2016
文章千古事，得失寸心知。

其实，一生有三分之一的文章可引以为傲，已经是极为难得了。

Cloud2016

Liechi 是呀是呀。但是大师能这么说自己还是觉得了不起！