fire_cpp
都说R处理大数据不行。
各位在平时用R处理过多大的数据?
我想用它来做证券市场方面的研究,希望能在毕业论文中用上它。
现在在它和SAS/SPSS之间选择。
R现在处理大数据有没有进步?
cran
wumaths
[quote]引用第0楼fire_cpp于2006-12-22 17:06发表的“R到底能处理多大的数据?”:
都说R处理大数据不行。
各位在平时用R处理过多大的数据?
我想用它来做证券市场方面的研究,希望能在毕业论文中用上它。
现在在它和SAS/SPSS之间选择。
.......[/quote]
缺省情况下xp下面为1024mb,比如处理4000×4000矩阵求逆还可以,大于它就不可以。
而在unix下可能就不存在这个问题。
fire_cpp
非常感谢回复。
我在R中创建一个一亿行的序列,每行就一个整数,用的是Linux系统。结果是机器响应很慢,用free查看,内存已被吃光,交换分区也快完了,我就没有继续下去,中断了。
但用SAS,没出现这个情况,机器响应还可以。因为SAS不用内存,而是用磁盘分配数据。
算了一下,我要使用的数据大小,大概我的机器还吃得消,决定用R了。
rtist
[quote]引用第2楼wumaths于2006-12-24 13:19发表的“”:
缺省情况下xp下面为1024mb,比如处理4000×4000矩阵求逆还可以,大于它就不可以。
而在unix下可能就不存在这个问题。[/quote]
先用memory.limit()增加上限,之后再做。
rtist
[quote]引用第3楼fire_cpp于2006-12-27 01:51发表的“”:
非常感谢回复。
我在R中创建一个一亿行的序列,每行就一个整数,用的是Linux系统。结果是机器响应很慢,用free查看,内存已被吃光,交换分区也快完了,我就没有继续下去,中断了。
但用SAS,没出现这个情况,机器响应还可以。因为SAS不用内存,而是用磁盘分配数据。
.......[/quote]
一亿=1e8对吧?我可是想了半天才搞明白的。。。
这个数据应该不算很大,每个数占四个字节的话,也还没到400MB,应该还在直接处理的范围内。
abel
[quote]引用第5楼rtist于2006-12-27 02:17发表的“”:
一亿=1e8对吧?我可是想了半天才搞明白的。。。
这个数据应该不算很大,每个数占四个字节的话,也还没到400MB,应该还在直接处理的范围内。[/quote]
如果有建模的话,还是挺恐怖的,对PC来说的话。光数据量就这么大,做一点矩阵的预算,做一点最优求解那岂不是会很恐怖!?能抽样还是先用用抽样吧。
SAS、SPlus等商业软件在大数据上都有专门的处理机制,个人感觉SAS处理大数据的时候甚至达到了DBMS的水平
liuxingyu
处理那么多数据?汗颜...... 你比我牛多了
anning189
搞data minning就要大数据集了。
大家认为data minning国内哪些学校做的好?
rtist
[quote]引用第8楼anning189于2007-01-09 19:46发表的“”:
搞data minning就要大数据集了。
大家认为data minning国内哪些学校做的好?[/quote]
data mining并不需要大数据集;尽管可能会用大数据集;数据集大小和数据挖掘应该没什么必然联系。
rtist
似乎用64位机器处理大数据集是个最简单的解决办法,现在的六十四位笔记本也不到600块钱,台式机或者低端服务器应该更便宜吧,大家都能承受得起。但是如果数据量不大,64位会比32位得更慢一些。
fire_cpp
如果使用64位机器的话,还要使用64位的操作系统,以及64位的R,才能充分发挥64的寻址和计算能力,否则,效果不会太明显。
而且用Windows的话,64位的Windows不太好找。
R的二进制包有64的吗?如果没有,还要自己移植和编译。
rtist
64位系统应该不难找吧?到处都是啊?常见的系统上编译一个R也很方便的。