- 已编辑
https://grf-labs.github.io/grf/
GRF 基于随机森林做统计估计和推断,提供了用于异质性治疗效果的非参数方法(也可以选择使用右删失结果、多治疗臂或多结果、工具变量)。还提供了最小二乘回归、分位数回归和生存回归的选项,当然,所有这些都支持处理缺失值。
因果森林 (causal forest) 听起来是一个很好的想法,不知在实践中效果如何?
https://grf-labs.github.io/grf/
GRF 基于随机森林做统计估计和推断,提供了用于异质性治疗效果的非参数方法(也可以选择使用右删失结果、多治疗臂或多结果、工具变量)。还提供了最小二乘回归、分位数回归和生存回归的选项,当然,所有这些都支持处理缺失值。
因果森林 (causal forest) 听起来是一个很好的想法,不知在实践中效果如何?
互联网行业,工作中了解到一些:因果森林(GRF),或者说uplift model(ED分裂准则),再或者Meta-learner(one model/two model)经常一起聊的,核心的问题都是估计异质处理效应:对哪些人,处理是有效的;哪些人是无效的/或者负面的。
具体的应用场景不外乎(以下排名分先后):
- 优惠券:对那些人发,那些人不发
- 广告/push等
具体的实践效果比较复杂:
最近 Nature Human Behaviour 发表了一篇使用因果森林的文章《Causal effect of video gaming on mental well-being in Japan 2020–2022》,看了以后让人感觉脑洞大开。
这个文章的大意是说,2020 年到 2022 年期间全世界的游戏主机(Switch 和 PS5)由于供应链的问题出现严重短缺很难买到,某些日本商家只能通过让买家通过抽签的方式来购买,从而形成了一个自然实验(natural experiment)。他们就用因果森林分析了相关的调查数据(样本量还算大),考察玩视频游戏对心理压力和生活满意度的影响,结果显示拥有一台游戏机可以降低心理压力,提高生活满意度,以及不同类型主机对不同人群的影响存在区别。
在业界用的很多,一般直接用于投放策略的优化,毕竟是因果推断技术。还有一种场景是分析师用,比如两组实验结果打平了,但老板实在不能认,毕竟气氛都烘托到那了。这时候,分析师会祭出 GRF,来看哪波用户实际上还是有一定效果的。这一波下去之后,各方都可以下车了。