• R语言
  • 推广一下新包 streamlineR: An R package to streamline routine modeling work in R

这个package包含了我跟同事在工作过程中总结出来的用得比较多的模式化的方程,目的是把建模过程(特别是scoring)流水化,使工作更有效率,从而有更多时间尝试不同的模型。这个包目前还在GitHub开发中,可以通过下面的方程安装

devtools::install_github('JianhuaHuang/streamlineR')

如果你还没有devtools包,得先安装一下这个包

GitHub里有非常详细的介绍及使用案例:https://github.com/JianhuaHuang/streamlineR
用R制作的互动演讲:https://jianhua.shinyapps.io/streamlineR_shinyapp/
欢迎提交任何建议:https://github.com/issues
由于那个presentation是放在shinyapps.io上的,所以使用时间可能有限制,一个月内总的访问量超过一定时间后可能就打不开了。
[未知用户]

大致看完了Readme文档,写的很详细,绝大部分都能理解,十分感谢。

有个问题请教下,在利用决策树做连续变量的分箱(bin)处理时,设置的minbucket参数等于0.01*nrow(dt.train),如何理解?(其实这个参数在决策树里是啥意思我也不太明白= =!)

rpart(formula = status ~ age, data = dt.train, 
  control = rpart.control(minbucket = .01 * nrow(dt.train)))
[未知用户]

这个是用来控制每个terminal node的人数的。这个minbucket = .01 * nrow(dt.train)就是要求terminal node最少要有1%的人数。人数太少的话就不具有统计意义了

稍后我会更新一下说明

多谢意见!