请教：对包含很多自变量（40000+个）的数据做线性判别分析，总是提示栈溢出，如何解决？

lideyang

我使用MASS包中的lda()函数对一个比较大的数据框（包含600+行，40000+列）做线性判别分析，报“Error: protect(): protection stack overflow”错。我的电脑总内存约32G，在运行lda()函数前内存使用了大约4G，运行lda()一段时间后，内存使用量达到约9G并维持9G不变，再过几秒钟，函数退出并报错：“Error: protect(): protection stack overflow”，而此时内存还有20+G的空余。
我开始以为是Windows系统限制了单个软件内存的使用，于是尝试向R中写入很大的变量，发现系统并没有限制R的内存：R不但能把物理内存占满，还可以使用虚拟内存，所以我猜测可能是lda()函数自身的问题。但我解决不了这个问题，请各位给指点下：我想对大的数据框做线性判别分析应该怎么做？感谢！
PS. R本身和R中的包都更新过了，是最新的。
PPS. lm()函数和其他一些建模函数也都存在类似的问题。

nan.xiao

按图索骥可以调一下 --max-ppsize 之类的内存参数。

不过这可能并没什么用，单是在内存创建两个稠密的 40000 * 40000 矩阵就大概占用 35G 左右了，更不用说再去制造一些中间变量做矩阵运算特征值分解之类的，所以做好在未来把内存加到 64G 甚至 128G 的心理准备 😂

接下来用一个1/10规模的问题测下具体的性能瓶颈：

library("msaenet")
library("MASS")
library("profvis")

dat <- msaenet.sim.binomial(n = 1000, p = 4000, p.train = 0.6, seed = 2020)

profvis({
  fit <- lda(x = dat$x.tr, grouping = as.factor(dat$y.tr))
})

可以看到特征值分解明显是花时间的，但更多空白处的时间花在各种矩阵操作上了。所以在考虑加内存的同时，自己重写 LDA 也是必须的。好在这并不困难，只涉及到几步纯矩阵运算：简单矩阵运算部分可以用 RcppArmadillo 或者 Rfast 之类的来写，SVD 部分可以用轩哥的 RSpectra 来做。实现得好说不定不用加内存也可以。

另外，这种高维问题输入数据的接口不要使用 data.frame 和 formula，用 matrix 的效率高得多。

最后，高维问题也可以试试各种 regularized LDA。

lideyang

nan.xiao
感谢指教！另外可否指点下：为什么内存明明还有剩余，程序却报栈溢出错退出了呢？

nan.xiao

在 C 层面 PROTECT 的指针数量太多，超过了默认值，和内存大小没关系。出现这个问题一般都是因为在变量数多的情况下用了 formula。所以试试矩阵呗。

lideyang

nan.xiao 用矩阵方法确实可以了。太感谢了！我之前也看到过矩阵高效的说法，但是却走到内存优化的错误道路上去了，可把我给折腾坏了。要不是您点拨一句，不知道还要折腾多久。再次感谢！

Ihavenothing

关键的问题是，我记得 R 里面的 lda() 需要 $$n>p$$ 啊，所以即使内存够方法也不对吧。

nan.xiao

我觉得这里和 PCA 差不多，p > n 也是可以做的。当然，加个正则化在方法上更说得过去。

library("msaenet")
library("MASS")
library("pROC")

dat <- msaenet.sim.binomial(n = 100, p = 200, p.train = 0.6, coef = rnorm(20, 5), snr = 1, seed = 2020)
fit <- lda(x = dat$x.tr, grouping = as.factor(dat$y.tr))
auc(as.vector(dat$y.te), predict(fit, dat$x.te)$posterior[, "1"])

Ihavenothing

nan.xiao 居然是这样，涨姿势了。😮