各位好,我在做线性回归的时候,发现一个现象:
在x和y相关系数相同的情况下,不改变x,而y的变异系数(即标准差/平均值)越低,误差越低。
在y的变异系数相同的情况下,x和y的相关系数越高,误差越低。
我想问的是:是否存在某个相关系数、变异系数、误差的关系式,来证明这样一个现象?
例如一组数据:
x 1 2 3 4
y 1 2 1 2
相关系数为0.447,变异系数0.385,RMSE误差0.447,百分比误差(MAPE)120%
另外一组数据:
x 1 2 3 4
y 10 20 10 20
相关系数为0.447,变异系数0.385,RMSE误差4.47,百分比误差(MAPE)120%
这组数据把y乘了10倍,但是相关系数和变异系数一样,百分比误差也一样。
再来一组数据
x 1 2 3 4
y 1 3 1 3
相关系数为0.447,变异系数0.577,RMSE误差0.894,百分比误差(MAPE)213%
这组数据改变了y的分布,即改变了变异系数,但是相关系数还是一样的,百分比误差增加了。
还有一组数据
x 1 2.5 3 4
y 1 2 1 2
相关系数为0.577,变异系数0.385,RMSE误差0.408,百分比误差(MAPE)100%
这组数据没有改变y,但是改变了x,即未改变y的变异系数,而增加了相关系数,百分比误差降低。
最后一组数据
x 1 2 3 4
y 1 2 2 1
相关系数为0,变异系数0.385,RMSE误差0.791,百分比误差(MAPE)225%
这组数据调换了y的位置,但是变异系数不变,而相关系数降低了,百分比误差增加。
这之间是否存在某种数学上的联系呢?