请问有人知道R MLmetrics包中的Gini系数计算的公式怎么理解的么?,这个包计算特征排名的时候是先对每个合适的特征,构造一个把分类标签作为目标变量的逻辑回归模型 ,然后加载 MLmetrics,利用Gini()计算基尼系数,具体计算步骤如下,
model <-glm(default ~get(feature),data=data,family=binomial(link="logit"));
predicted_values <-predict.glm(model,newdata=data,type="response");
Gini_value <-Gini(predicted_values,data$default);
performance_metric_gini <-rbind(performance_metric_gini,cbind(feature,Gini_value))
最后特征选取的时候,是Gini_value越大的特征解释能力越强,为什么是Gini_value越大解释能力越强呢?因为有些算法是选取基尼系数越小的特征作为解释能力强的特征。