huzhikai
huzhikai 你怎么知道这8个维度当中的任何一个维度是原来20个中哪几个维度“拼凑”的?
特征向量的负载 (loading) 决定了对原有维度的线性组合,所以不存在不能判断原有维度的问题。以 R 的 princomp
举例
head(iris)
#> Sepal.Length Sepal.Width Petal.Length Petal.Width Species
#> 1 5.1 3.5 1.4 0.2 setosa
#> 2 4.9 3.0 1.4 0.2 setosa
#> 3 4.7 3.2 1.3 0.2 setosa
#> 4 4.6 3.1 1.5 0.2 setosa
#> 5 5.0 3.6 1.4 0.2 setosa
#> 6 5.4 3.9 1.7 0.4 setosa
pca <- princomp(scale(iris[, 1:4]))
pca$loadings
#>
#> Loadings:
#> Comp.1 Comp.2 Comp.3 Comp.4
#> Sepal.Length 0.521 0.377 0.720 0.261
#> Sepal.Width -0.269 0.923 -0.244 -0.124
#> Petal.Length 0.580 -0.142 -0.801
#> Petal.Width 0.565 -0.634 0.524
#>
#> Comp.1 Comp.2 Comp.3 Comp.4
#> SS loadings 1.00 1.00 1.00 1.00
#> Proportion Var 0.25 0.25 0.25 0.25
#> Cumulative Var 0.25 0.50 0.75 1.00
这里就可以看到第一特征向量 = 0.521 * Sepal.Length - 0.269 * Sepal.Width + 0.58 * Petal.Length + 0.565 * Petal.Length。
至于判断是否存在因果关系,这个不是 PCA 的目的,PCA 只是单纯的分析协方差矩阵的结构。我前面提的人为解释也不是说这种解释就是对的,只是很多研究为了方便 + 某些时候负载确实有一定结构 就自行定义了一些解释。就像这里的 Comp.1 我看不出有什么含义,但或许对其他研究者他们会有一个指标与 Comp.1 定义的线性函数类似。