EMP 例如“X1”,取值是aa,de,wf,xe 一定要量化吗? 另外,直接拿没有量化的数据可以运行randomForest,而且比量化后的错分率低 树不是根据节点大小判断分枝吗? (PS:问题确实比较多)
nan.xiao 当然可以直接使用类别型变量,不需要重编码。能够直接处理类别型变量也是树本身的一个优势。 当然,重编码一下可能会变好(重编码后引入了更有帮助的信息),但是更有可能的情况是变差。 除非水平非常多,一般不需要做重编码。