linkinbird
用了一段时间单机版的R,运算很高效而且控制方便
现在想请教一下R和S-plus的关系,他们能不能作为企业级应用
企业级是指:比如,我有一个庞大的数据库,每天有几百GB的数据更新
要在这个数据库中时时地,或定期的进行分析,建立分类模型或者聚类等等
目前我只知道SAS在这类解决方案上是很完善的,可以对大量的数据分布式处理
而R,根据我目前的使用,感觉内存是他很大的瓶颈
板上的牛人们有没有相关的经验阿
或者有没有相关的资料推荐一下
这里小弟先谢过拉:)
mmx-plus
每天几百GB的话,还是用SAS吧(如果米不是问题的话)
abel
Splus有专门针对大数据的优化;
用R的话,可以使用一些技巧来避免这类问题,比如分文件处理,就是模拟SAS的工作原理来做。
这么大量的数据,似乎不会是用来统计建模的吧,如果只是计算基本的汇总统计量,最好选数据库内置的功能。
linkinbird
回mmx-plus:没办法,就是SAS太贵嘛:P
回abel:这些数据不单是统计建模,主要是用来数据挖掘。
最近接触过的类似项目,多数是直接用C在底层开发的,也有买SAS的(那些都是有钱的主)
我比较关心,有没有人用R或S-plus做过类似的东西,找机会交流一下:)
yihui
关于大数据的处理我没有专门去找资料研究,不过我的处理办法非常naive,就是把数据拆分,每个变量存一个文件,做模型的时候需要哪个变量就把该数据load进来,有时候做模型分析没有必要同时引进所有的数据;另外一种情况就是分段读入数据,比如一次读一百万行,但这终究不太方便;第三种办法就是抽样,从大数据里面抽取一部分样本来做研究,而且这种随机抽样工作是可以重复进行的,这样也可以牺牲一点精度来赢取数据处理的时间。当然不管怎样,计算机的硬件设施是要加强的,即使SAS做得好,我觉得几百G的数据在128M内存机器上也未必跑得动:)
momozilla
建议到splus的网站上去查询一下,再和SAS比较一下,应该不会比后者贵。我们这里只听人抱怨SAS贵的,但从没人说splus贵,每出新版都跟着升级,去年初服务器从4CPU升级到8CPU,原来的license就用不了,没多久就相应地升级了
linkinbird
联系S-plus代理中,谢谢大家:)