因果推断简介之六:工具变量(instrumental variable)
> “工具变量估计”是 β 的相合估计量
这个证明思路很精彩,调查实验的混杂因素U可以用控制变量Z的方法进行部分排除,而控制的变量Z没有与Y的直接联系而要与X有联系,那实际的问题就得转换到寻找Z变量了。
另外,如果Z与Y直接相关,相当于Z也成了U的一部分了。那如果逆转思路,不限定Z与Y的不相关而容许部分直接相关(但不能影响到计算β值),通过使用大量的工具变量Z,能不能得到β的一个不可能分布空间呢?其实就是用U去估计不可能β值,排除掉不可能,剩下的就可能是真的或者排除掉的为假的可能性更高。不过似乎可操作性不高。本人统计外行,瞎想的。
这个证明思路很精彩,调查实验的混杂因素U可以用控制变量Z的方法进行部分排除,而控制的变量Z没有与Y的直接联系而要与X有联系,那实际的问题就得转换到寻找Z变量了。
另外,如果Z与Y直接相关,相当于Z也成了U的一部分了。那如果逆转思路,不限定Z与Y的不相关而容许部分直接相关(但不能影响到计算β值),通过使用大量的工具变量Z,能不能得到β的一个不可能分布空间呢?其实就是用U去估计不可能β值,排除掉不可能,剩下的就可能是真的或者排除掉的为假的可能性更高。不过似乎可操作性不高。本人统计外行,瞎想的。
再添加一些混杂因素进来怎么处理呢?按之前的倾向得分抑或因果图?
[未知用户] 我感觉寻找Z跟寻找U的实际难度似乎差不多,都是对着X,Y来,操作起来控制Z与Y不直接相关不太容易,所以就把Z当混杂因素去计算,算出来的数应该有一个分布,这个分布有可能拿来做β或非β的估计。
可能我水平太次,感觉工具变量算是倾向得分或因果图的应用,而倾向得分或因果图说的像是一回事,都是通过第三方可控随机干预也就是Z来解决因果推断问题,而因果关系也只能通过总体去看。而解决实际问题的难点在寻找Z甚至X上。
可能我水平太次,感觉工具变量算是倾向得分或因果图的应用,而倾向得分或因果图说的像是一回事,都是通过第三方可控随机干预也就是Z来解决因果推断问题,而因果关系也只能通过总体去看。而解决实际问题的难点在寻找Z甚至X上。
- 已编辑
的条件在浏览器上似乎没有正确显示。
[未知用户] 这些想法很有意思,不过如何严格化且清晰的表达出来,还不是一件容易的事情。
[未知用户] U其实囊括了所有的混杂因素,是一个抽象的符号,可以是一维,也可以是高维。
[未知用户] 工具变量的寻找,依赖于先验知识,或者说关于整个数据的生成机制。在很多时候,缺失不是那么容易找到的。
[未知用户] 那如果是高维的话,寻找工具变量岂不真的很难找啊...
[未知用户] 通常情况 ,其实很少有高维的处理或者干预---高维都是在协变量上。
[未知用户] 我意思是U是高维的时候~不过工具变量确实是一种化繁为简的好方法
[未知用户] U高维低维在这个框架下是无所谓的,因为U可以任意。
3 个月 后
麻烦问一下po主,引入IV后,重新写regression model的时候该怎么表达?如果以equation (1) 为例?
[未知用户] 不变
6 年 后
文中单调性假设的不等号应该反过来