请问在用随机森林计算特征重要度时,分类变量还需要做转换成哑元变量吗?还是直接就作为一个变量就可以了?
试了一下,如果转化成哑元变量,那么特征重要度给出的就是分类变量每个水平的重要度排序,比如有两个分类变量“受教育程度”(本科以下,本科,研究生以上)和“收入水平”(5000以下,5000-10000,10000以上),如果不转化成哑元变量,那么重要度排序是:受教育程度>收入水平,如果转化成哑元变量了,那么重要度排序可能是:受教育程度(本科以下)>收入水平(5000-10000)>收入水平(5000以下)>受教育程度(研究生以上)>受教育程度(本科)>收入水平(10000以上)。感觉前一种更合适一些?谢谢!