可否把你的数据给个下载地址,让我们也读读?
R语言read.table 20万列数据怎么加速?
我以前也碰到过类似的到现在没解决,我的问题是要加那么多dummy进去才有上10W列的 这个很奇怪,stata有个areg就能做,R的话我就不清楚怎么弄。也不知道那个stata究竟是怎么算的,顺便求两个都懂的人给个解答
这么多的变量不是经济学的内容吧?楼主能透露下应用领域吗?
mark
这两天简单搜索了下,是生物统计领域吧,这么多的变量和这么少的观察数共线性问题一定不能避免。随机森林是否比lm更合适研究这样的问题?
确实如版主所说,20万个变量如果还想用线性模型的话应该使用 LASSO 或者 elastic net,R 中的 package 有 lars, glmnet。但是这个水就很深了。。。
回复 第12楼 的 mengchen:lars, glmnet最大的问题是不能检验系数的显著性,只给出一个回归系数。
个人觉得最快的方法是下载一个RODBC包,具体操作如下:
install.packages('RODBC')
library(RODBC)
data=odbcConnectExcel(file.choose()) #此时会弹出一个窗口,你只需找到你所需的EXCEL数据即可
sqlTables(data)
mydat=sqlFetch(data,'Sheet1') #仔细查看你表格Sheet1的名字
attach(mydat)
footprint
回复 第13楼 的 xiekunwhy:
20万个变量做回归其实没有太大必要检验显著性了,因为这一般并不是我们所首要关心的。
想要 p 值也可以,有 covariance test 或 Bayesian Lasso。
回复 第13楼 的 xiekunwhy:求问,求系数的程序要怎么编!
回复 第16楼 的 肖楠:又见楠神[s:14]