refly
说起来应该也是奶复杂的。
共线性诊断建立回归方程(多元线性回归或logistic回归)后, 因为自变量存在相关性, 将会增加参数估计的方差, 使得回归方程变得不稳定; 有些自变量对因变量(指标) 影响的显著性被隐蔽起来; 某些回归系数的符号与实际意义不符合等等不正常的现象。这些问题的出现原因就在于自变量的共线性。我们需要进行共线性诊断。
指标:1方差膨胀因子(Var Inflation)V IF (或容限TOL )、2条件指数和3方差比例等。方差膨胀因子V IF 是指回归系数的估计量由于自变量共线性使得其方差增加的一个相对度量。V IF i = 第i 个回归系数的方差/自变量不相关时第i 个回归系数的方差=1/TOL。若V IF> 10, 表明模型中有很强的共线性问题。
VIFi 的倒数TOL i 也称为容忍度(Tolerance)。
TOL = 1- R(xk)^ 2
当R 2x k很大时, TOL 很小, 说明其可用别的自变量解释的部分多, 可能与别的自变量之间存在共线性关系。有人认为, 容忍度小于0.20 可以认为存在多元共线性, 容忍度小于0.10 说明存在高度的多元共线性。
条件指数定义为最大特征值和每个特征值之比的平方根。一般认为,若条件指数值在10 与30 间为弱相关; 在30 与100 间为中等相关; 大于100 表明有强相关。对于大的条件指数, 还需要找出哪些变量间存在强的线性关系。因为每个条件指数对应一个特征向量, 而大的条件指数相应的特征值较小, 故构成这一特征向量的变量间有近似的线性关系。在统计中用方差比例来说明各个自变量在构成这个特征向量中的贡献。
一般建议, 在大的条件指数中由方差比例超过0. 5 的自变量构成的变量子集就认为是相
关变量集。
4.2识别异常观测值(此处不仅针对多元)及诊断
主要方法是例外值(outliers)或异常作用点的检查
协变量组合是logistic 回归中的十分重要的概念,如果观察单位的协变量X 相同则称它们具有相同的协变量组合;
异常点是指对既定模型偏离很大的数据点。logistic 回归模型是以Pearson 残差rj 、Deviance 残差dj 来度量这种偏离的大小,从而识别异常点;
高杠杆点是远离数据主体的点,由帽子矩阵的对角线上的元素的大小来度量;
强影响点是指那些对统计量的取值有非常大的影响力或冲击力的点;
异常点和强影响点是回归诊断的两个基本概念,他们之间既有一定的联系也有区别。强影响点可能同时又是异常点也可能不是;反之,异常点可能同时又是强影响点也可能不是;
回归诊断处理措施: