nan.xiao 写了个 R 包用来做 model stacking。实现了最常见的两层架构,第一层是 xgboost、lightgbm 和 catboost 的输出,第二层是 logistic regression。不足之处请各位指正: 源码: https://github.com/nanxstats/stackgbm 文档: https://nanx.me/stackgbm/ 写这个的出发点有两个,第一这事是有点属于听着简单但实现时比较容易写错的,第二是不想依赖别人的各种重量级框架。 结果文档写到一半发现都是自己包的软广,红红火火恍恍惚惚 …… 😂
nan.xiao @yufree 谢谢!之后可能会和竞赛主办方合作出一篇文章。如果各位对这个具体例子感兴趣的话,我上周在主办方的一个研讨会上给了个 lightning talk,Zoom 录像戳这里观看,我的报告在第3小时7分30秒开始。
nan.xiao @CMCai0104 这里stacking的意思大概是说用上一层每个模型的预测输出作为下一层的输入特征。 所以只要不怕麻烦而且能正确实现,可以堆叠任意多层,每层可以放任意多个模型。不过考虑到调参和工程上的复杂性,一般做个3层的架构也就可以了。