因果推断简介之六：工具变量（instrumental variable）

COSeditor

https://cos.name/2013/08/causality6-instrumental-variable/

yufree-yufree

> “工具变量估计”是 β 的相合估计量

这个证明思路很精彩，调查实验的混杂因素U可以用控制变量Z的方法进行部分排除，而控制的变量Z没有与Y的直接联系而要与X有联系，那实际的问题就得转换到寻找Z变量了。

另外，如果Z与Y直接相关，相当于Z也成了U的一部分了。那如果逆转思路，不限定Z与Y的不相关而容许部分直接相关（但不能影响到计算β值），通过使用大量的工具变量Z，能不能得到β的一个不可能分布空间呢？其实就是用U去估计不可能β值，排除掉不可能，剩下的就可能是真的或者排除掉的为假的可能性更高。不过似乎可操作性不高。本人统计外行，瞎想的。

gaotao

再添加一些混杂因素进来怎么处理呢？按之前的倾向得分抑或因果图？

yufree-yufree

[未知用户] 我感觉寻找Z跟寻找U的实际难度似乎差不多，都是对着X，Y来，操作起来控制Z与Y不直接相关不太容易，所以就把Z当混杂因素去计算，算出来的数应该有一个分布，这个分布有可能拿来做β或非β的估计。

可能我水平太次，感觉工具变量算是倾向得分或因果图的应用，而倾向得分或因果图说的像是一回事，都是通过第三方可控随机干预也就是Z来解决因果推断问题，而因果关系也只能通过总体去看。而解决实际问题的难点在寻找Z甚至X上。

lingbing

$Z \not \perp D$ 的条件在浏览器上似乎没有正确显示。

pengding

[未知用户] 这些想法很有意思，不过如何严格化且清晰的表达出来，还不是一件容易的事情。

pengding

[未知用户] U其实囊括了所有的混杂因素，是一个抽象的符号，可以是一维，也可以是高维。

pengding

[未知用户] 工具变量的寻找，依赖于先验知识，或者说关于整个数据的生成机制。在很多时候，缺失不是那么容易找到的。

gaotao

[未知用户] 那如果是高维的话，寻找工具变量岂不真的很难找啊...

pengding

[未知用户] 通常情况，其实很少有高维的处理或者干预---高维都是在协变量上。

gaotao

[未知用户] 我意思是U是高维的时候~不过工具变量确实是一种化繁为简的好方法

pengding

[未知用户] U高维低维在这个框架下是无所谓的，因为U可以任意。

Sophie-sophia.zyl

麻烦问一下po主，引入IV后，重新写regression model的时候该怎么表达？如果以equation (1) 为例？

pengding

[未知用户] 不变

alma2004

文中单调性假设的不等号应该反过来