PCA 影响机器学习的可解释性吧？

huzhikai

比如样本有多个属性(变量)：年龄，性别，年收入，年消费额，年投资额……如果直接做回归预测，比如预测样本第二年的消费额。出来的结果是有可解释性的。因为所有属性都在。

但是如果应用了 PCA 降维以后，原有属性都淹没在新的属性当中了吧？可是新属性的含义有不明。所以是不是影响机器学习结论的可解释性？

如果是，有什么可以增加解释性的的解决方法么？

qiushi

一般都会按照特征向量的系数解释 PCA 变量的含义吧，比如一个 PCA 变量是 1.2年收入 - 0.8 年消费额就可以解释为结余之类的，不过有时确实有点强行解释，但做这种降维主要还是为了预测精度，所以解释性也没那么重要了。

huzhikai

qiushi

根据我目前的理解，降维以后你很难在处理后的维度中确定哪些是“年收入” 哪些维度是“年消费额”了吧？有两个现实的困难

1、以二维为例，如果一个维度是长度(英尺)，一个维度是长度(米)。不考虑换算误差，你两个维度是完全线性相关。那降为一维后还是长度属性，这很清楚。但是如果两个不那么线性相关的属性，其显示含义也没有什么关系，你也不知道他们是因为相关产生的线性相关，还是因果产生的线性相关。二维降成一维后你到底要怎么定义这个新维度？

2、现实情况，如果20维度的数据降成8维度(保留了95%的方差)，你怎么定义这8个新维度？第一条你还知道那唯一的维度是原有的两个维度产生的。20变8，你怎么知道这8个维度当中的任何一个维度是原来20个中哪几个维度“拼凑”的？

qiushi

huzhikai

huzhikai 你怎么知道这8个维度当中的任何一个维度是原来20个中哪几个维度“拼凑”的？

特征向量的负载 (loading) 决定了对原有维度的线性组合，所以不存在不能判断原有维度的问题。以 R 的 princomp 举例

head(iris)
#>   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
#> 1          5.1         3.5          1.4         0.2  setosa
#> 2          4.9         3.0          1.4         0.2  setosa
#> 3          4.7         3.2          1.3         0.2  setosa
#> 4          4.6         3.1          1.5         0.2  setosa
#> 5          5.0         3.6          1.4         0.2  setosa
#> 6          5.4         3.9          1.7         0.4  setosa

pca <- princomp(scale(iris[, 1:4]))
pca$loadings
#> 
#> Loadings:
#>              Comp.1 Comp.2 Comp.3 Comp.4
#> Sepal.Length  0.521  0.377  0.720  0.261
#> Sepal.Width  -0.269  0.923 -0.244 -0.124
#> Petal.Length  0.580        -0.142 -0.801
#> Petal.Width   0.565        -0.634  0.524
#> 
#>                Comp.1 Comp.2 Comp.3 Comp.4
#> SS loadings      1.00   1.00   1.00   1.00
#> Proportion Var   0.25   0.25   0.25   0.25
#> Cumulative Var   0.25   0.50   0.75   1.00

这里就可以看到第一特征向量 = 0.521 * Sepal.Length - 0.269 * Sepal.Width + 0.58 * Petal.Length + 0.565 * Petal.Length。

至于判断是否存在因果关系，这个不是 PCA 的目的，PCA 只是单纯的分析协方差矩阵的结构。我前面提的人为解释也不是说这种解释就是对的，只是很多研究为了方便 + 某些时候负载确实有一定结构就自行定义了一些解释。就像这里的 Comp.1 我看不出有什么含义，但或许对其他研究者他们会有一个指标与 Comp.1 定义的线性函数类似。

huzhikai

qiushi 谢谢你的详细回复。恰好我今天刚学到(factor loading) 其含义概括如下：假设第样本集x一共有6个样本，每个样本是5维向量。经过PCA后，每个样本变成4维向量，相当于降了一维。PCA后的新空间有4个主成分基底u1，u2，u3，u4。假设原样本集中的第3个样本x3向新的pca空间投影（点积），会在u1-u4上留下刻度。这4个刻度形成4维向量y3，x3与y3之间的相关系数cov(y3,x3)就是factor loading。不知道这与你提到的loading是不是同一概念。下文假设两者是同一概念。

  你回贴中的“第一特征向量”是不是第一段文字中的u1？ 你回帖中的0.521 ；-0.269；0.58；0.565是不是就是loading？你代码中的Comp.1 Comp.2 Comp.3 Comp.4是什么含义？是新的PCA空间的四个基底？
   
 另外书中只给出了factor loading的定义和公式推导过程。没有说明其现实含义。假设y3，x3的相关系数是1.这说明了什么？假如是-1，又说明了什么？

 以上，还请指教