R语言read.table 20万列数据怎么加速？

kuanguang · 2013年11月19日

可否把你的数据给个下载地址,让我们也读读?

holydudu · 2013年11月19日

我以前也碰到过类似的到现在没解决，我的问题是要加那么多dummy进去才有上10W列的这个很奇怪，stata有个areg就能做，R的话我就不清楚怎么弄。也不知道那个stata究竟是怎么算的，顺便求两个都懂的人给个解答

nuomin · 2013年11月20日

这么多的变量不是经济学的内容吧？楼主能透露下应用领域吗？

neo.cryptic · 2013年11月23日

mark

nuomin · 2013年11月23日

这两天简单搜索了下，是生物统计领域吧，这么多的变量和这么少的观察数共线性问题一定不能避免。随机森林是否比lm更合适研究这样的问题？

mengchen · 2013年12月19日

确实如版主所说，20万个变量如果还想用线性模型的话应该使用 LASSO 或者 elastic net，R 中的 package 有 lars， glmnet。但是这个水就很深了。。。

xiekunwhy · 2013年12月19日

回复第12楼的 mengchen：lars， glmnet最大的问题是不能检验系数的显著性，只给出一个回归系数。

lsxxx2011 · 2013年12月20日

个人觉得最快的方法是下载一个RODBC包，具体操作如下：

install.packages('RODBC')

library(RODBC)

data=odbcConnectExcel(file.choose()) #此时会弹出一个窗口，你只需找到你所需的EXCEL数据即可

sqlTables(data)

mydat=sqlFetch(data,'Sheet1') #仔细查看你表格Sheet1的名字

attach(mydat)

king64 · 2014年5月6日

footprint

nan.xiao · 2014年5月7日

回复第13楼的 xiekunwhy：

20万个变量做回归其实没有太大必要检验显著性了，因为这一般并不是我们所首要关心的。

想要 p 值也可以，有 covariance test 或 Bayesian Lasso。

273275395 · 2014年7月4日

回复第13楼的 xiekunwhy：求问，求系数的程序要怎么编！

veronica.c · 2014年7月14日

回复第16楼的肖楠：又见楠神[s:14]