请问一下大家,我在看线性相关的时候发现相关系数r(SSR/SST开根,回归平方和在总变差中的比例)和概率里面学到的相关系数(协方差和X标准差乘Y标准差的比值)都是检验XY变量之间相关性的。想问一下:

  1. 这两者是同一个东西吗?
  2. 如果不是,协方差和标准差之间的比值衡量的是线性相关性,那么r是否也是衡量线性相关性?还是说也衡量非线性相关性?

非常感谢

已经忘记了部分基本概念了,什么时候还是要翻书才能说清楚。

不过,值得注意的是,概率里面的相关系数是总体相关系数,而线性回归里面学的是样本相关系数。

线性回归里 $R2$ 是指拟合优度,不是指相关系数吧。其含义是自变量能在多大程度上解释因变量的变化。

两者有联系,但不是一个东西。从总体来说,相关系数是
Cor(X,Y)=EXYEXEYVar(X)Var(Y) Cor(X, Y) = \frac{EXY - EXEY}{\sqrt{Var(X)Var(Y)}}
R2R^2的定义是
R2=Var(E(YX))Var(Y) R^2 = \frac{Var(E(Y|X))}{Var(Y)}
从定义来说两者就是不同的:R2R^2更侧重于response,也就是这里的Y,被模型拟合的情况。注意到条件方差公式
Var(Y)=E(Var(YX))+Var(E(YX)) Var(Y) = E(Var(Y|X)) + Var(E(Y|X))
它描述了响应变量的方差里,条件期望(模型拟合部分)的方差占比有多少。而相关系数Cov(X,Y)Cov(X, Y)中对X和Y的侧重是一样的。
两者的联系在于,当极端情况,即线型模型恰好就是数据的真实情况时,两个度量值(绝对值)都为1。

1 年 后

线性相关时,样本数据拟合的线性回归方程的决定系数在数值上等于其相关系数的平方。