R 连接 MongoDB问题

roqeho0423

请问各位高手小弟在此请教几个问题：

问题1：R + Mongodb 用什么驱动？

问题2：R + MongoDB 数据转换怎么高效率转换为data frame

目前mongodb中有上千万数据：

while (mongo.cursor.next(todays.readings.cursor)) {

}

这样取出游标的方式得循环上千万数据太慢求高人指点

试过RMongo 批量取数据也很慢。

lyxmoo

回复第1楼的 roqeho0423：

这里有个帖：

<br />
http://cos.name/2013/04/nosql1-rmongodb/<br />

</p>

和这里

<br />
http://cos.name/cn/topic/110843<br />

</p>

如果可以先预处理数据，将中间处理的结果再放回到mongodb中。

roqeho0423

回复第2楼的 lyxmoo：

首先感谢您的回复：

看我如下数据。

目前数据库中 {"A1":1,"A2":0,"A3":1.........."A100",1},{"A1":99,"A2":1,"A3":3.........."A200",1},

此类的BsonDocument 对象有上百万个记录这些都是有效数据。

预处理我只能在find查询中 mongo.find(mongo, ns,'','', fields={"A1":1,"A2":1}) 少查寻出几列。

但我这个预处理结果没必要放到 mongodb中把？要是我查询20个列的记录还是一样的转换dataframe的时候遇到瓶颈。几分钟才能转换过来dataframe。这几分钟是合理的吗？

不知道我理解的预处理是不是这个意思忘谅解。

lyxmoo

回复第3楼的 roqeho0423：

根据你这个数据量和查询需求

<br />
预处理我只能在find查询中 mongo.find(mongo, ns,'','', fields={"A1":1,"A2":1}) 少查寻出几列。

</p>

mongodb 不是很适合做这种全表扫描类型的查询，在mongodb上这样的索引也很难做。这里可以用其他的方法提高速度。几百万对象也不多。10Mx200，也才 2G，重写一个专门处理这个的程序吧。

roqeho0423

回复第4楼的 lyxmoo：

多谢！多谢!.

那您的意思是换成关系型数据库吗？

我在这里看到 http://cos.name/2013/07/r-nosql-hive/

rhive 示例中可以查询全表直接出dataframe 那么换成此类的或mysql的数据库是否可以？

还有 hive的话维护列比较方便吗？没用过hive

我只知道关系型数据库维护列不方便。

在此谢谢版主的热情回复。

lyxmoo

回复第5楼的 roqeho0423：

我认为没有说过换成关系型数据库，也没有说换成hadoop家族。

我以为或者能写个树形结构解决这个查询的需求。或者写一改进型 bloom-filter 算法能够解决这种查询。

具体还要看你这个数据是连续增加量还是批量增加，是否需要实时查询，是否需要精确0误差，即查询不能容忍错误，计算资源是否有限制、开发工作是否有时限等等。

=============================================================

说错梗了，这个问题适用倒排索引，(反向索引) Inverse Index.[s:12]

前提是: ●不在乎牺牲存储空间。

或者，●经常变动查询的fields={"A1":1,"A2":1}，下次可能是 A3,A4,A9,A100

或者● fields 中比较稀疏

符合以上三者任何其一就可以建立倒排索引完成快速的查询。

如果fields数量有限，也可以把这些数据导入到SQL的库里，一样能解决。

roqeho0423

回复第6楼的 lyxmoo：

多谢版主

我的项目中 fields是不固定的。

每个bosn对象间的字段也不一样。

已经符合3者中第2,3项。

可是我在网上找了关于反向索引的资料。

但一直没有找着 mongodb中实现反向索引的例子。

麻烦版主能否给个一小段实现的代码列子。万分感激。[s:13]