foreseer201 关于多重共线性,在论坛里搜到很多相关的帖子。 完全共线性的影响好理解,是因为会造成t(x)%*%x不可逆(不符合满秩的条件?) 但是不是完全共线性的情况下,会增大系数估计的方差,原因是什么呢? 谢谢~~ [s:13]
bigknife 我对多重共线性的理解一直是基于试验设计的,设计阵的两列之间如果存在完全的线性关系,那么是无法估计这两列所代表因子的效应的。这也是试验设计中说的混杂,也就是说两个因子的效应相互混杂了,无法估计其中任何一个因子的效应。而设计中也有一个部分混杂的概念,说的就是两列之间具有相关性(比如,相关系数不是0),但是也不是完全线性相关(相关系数为1)。在部分混杂的情况下,估计系数也是有问题的。之所以系数估计值的方差会增大,也是因为因子之间部分混杂导致的。
firelife 从向量的角度来看,一个Y向量是由多个X向量的线性组合。 假设有两个X向量,那么Y=aX1+bX2 两个X向量基本在同一个方向上。所以Y只要有一点点的变化,就会引起X1,X2这个组成Y这个对角线的两条边的系数剧烈变化。 也就是参数a,b的变化很大。 原理就是这样,不知道描述的是否清楚