可否把你的数据给个下载地址,让我们也读读?

我以前也碰到过类似的到现在没解决,我的问题是要加那么多dummy进去才有上10W列的 这个很奇怪,stata有个areg就能做,R的话我就不清楚怎么弄。也不知道那个stata究竟是怎么算的,顺便求两个都懂的人给个解答

这么多的变量不是经济学的内容吧?楼主能透露下应用领域吗?

这两天简单搜索了下,是生物统计领域吧,这么多的变量和这么少的观察数共线性问题一定不能避免。随机森林是否比lm更合适研究这样的问题?

1 个月 后

确实如版主所说,20万个变量如果还想用线性模型的话应该使用 LASSO 或者 elastic net,R 中的 package 有 lars, glmnet。但是这个水就很深了。。。

回复 第12楼 的 mengchen:lars, glmnet最大的问题是不能检验系数的显著性,只给出一个回归系数。

个人觉得最快的方法是下载一个RODBC包,具体操作如下:

install.packages('RODBC')

library(RODBC)

data=odbcConnectExcel(file.choose()) #此时会弹出一个窗口,你只需找到你所需的EXCEL数据即可

sqlTables(data)

mydat=sqlFetch(data,'Sheet1') #仔细查看你表格Sheet1的名字

attach(mydat)

5 个月 后

回复 第13楼 的 xiekunwhy:

20万个变量做回归其实没有太大必要检验显著性了,因为这一般并不是我们所首要关心的。

想要 p 值也可以,有 covariance test 或 Bayesian Lasso。

2 个月 后

回复 第13楼 的 xiekunwhy:求问,求系数的程序要怎么编!

10 天 后

回复 第16楼 的 肖楠:又见楠神[s:14]