Robert_Hoo 这个package包含了我跟同事在工作过程中总结出来的用得比较多的模式化的方程,目的是把建模过程(特别是scoring)流水化,使工作更有效率,从而有更多时间尝试不同的模型。这个包目前还在GitHub开发中,可以通过下面的方程安装 devtools::install_github('JianhuaHuang/streamlineR') 如果你还没有devtools包,得先安装一下这个包 GitHub里有非常详细的介绍及使用案例:https://github.com/JianhuaHuang/streamlineR 用R制作的互动演讲:https://jianhua.shinyapps.io/streamlineR_shinyapp/ 欢迎提交任何建议:https://github.com/issues
ZJUguquan [未知用户] 大致看完了Readme文档,写的很详细,绝大部分都能理解,十分感谢。 有个问题请教下,在利用决策树做连续变量的分箱(bin)处理时,设置的minbucket参数等于0.01*nrow(dt.train),如何理解?(其实这个参数在决策树里是啥意思我也不太明白= =!) rpart(formula = status ~ age, data = dt.train, control = rpart.control(minbucket = .01 * nrow(dt.train)))
Robert_Hoo [未知用户] 这个是用来控制每个terminal node的人数的。这个minbucket = .01 * nrow(dt.train)就是要求terminal node最少要有1%的人数。人数太少的话就不具有统计意义了 稍后我会更新一下说明 多谢意见!