互联网行业,工作中了解到一些:因果森林(GRF),或者说uplift model(ED分裂准则),再或者Meta-learner(one model/two model)经常一起聊的,核心的问题都是估计异质处理效应:对哪些人,处理是有效的;哪些人是无效的/或者负面的。
具体的应用场景不外乎(以下排名分先后):
- 优惠券:对那些人发,那些人不发
- 广告/push等
具体的实践效果比较复杂:
- GRF需要基于随机实验的数据:GRF的论文没有刻意提到这一点,但大部分情况下,基于观察实验的GRF模型结果非常不可靠
- 有随机实验数据、样本量比较大,且场景合适的情况下,GRF/uplift model比其他模型要好
- 2的情况不太常见,GRF/uplift model的结果经常不稳定
- 最后,这些实际的应用场景,还有个「应不应该」的问题😂