Rweibo, rmmseg4j, tm做文本挖掘

maomou

在用Rweibo和rmmseg4j的时候 Rweibo要用到RCurl rmmseg4j要用到rJava 里面都有clone这个function

虽然不知道这个干吗用的，但在抓取微博数据的时候就出现：错误于function (type, msg, asError = TRUE) :

Failed to connect to 180.149.135.230: No buffer space

单独使用Rweibo抓取的时候就没问题

求解，或者我想问下tm包里有直接中文分词的function吗？

bjt

rmmseg4j依赖于rJava包

tm里没有中文分词模块

maomou

为什么要用到rJava包的东西，R有时候会闪退有时候不会，但是变一下加载顺序就不会

比如直接加载rmmseg4j有时候会闪退有时候不会，但我先加载rJava再加载rmmseg4j就不会

加载RQDAtm的时候要用到rJava，也会闪退，但如果我先加载rJava，再加载RQDA再加载RQDAtm，就不会闪退，但是RQDA就用不了了- -，这是什么情况啊，装的最新版rJava_0.9-3，R是2.15.2，是我java环境变量设的是jdk1.6.0_10

到底是什么情况啊[s:14]

maomou

还有个问题，tm包生成文档关系矩阵，默认是最少生成3个词的，但是我设置了

Dtm <- DocumentTermMatrix(myCorpus, control = list(global = c(2, Inf))) 希望2个字的也生成但是没用！

用list(minWordLength = 2) 也没用！这是为什么啊！怎么2个字的也生成啊

maomou

- -最后个问题，tm包读取pdf文档，研究半天发现需要用到Xpdf（下载速度只有几百字节- -下了我好久），环境变量也设置好了C:\Program Files\xpdfbin-win-3.03\bin32;（我的是32位系统，不知道这样设对不对），然后

my.path <- ("....")

Corpus(DirSource(my.path), readControl = list(reader = readPDF))

A corpus with ..text documents（这个终于出来了！！）

但是还有条错误信息

然后用inspect查看，没有text内容啊！！！这是为什么！

求指导！

实在不行了，网上怎么都搜不到啊

maomou

- -最后最后个问题，tm包里可以去掉英文吗，因为我只要中文- -，微博数据好多LBS的网址，或者怎么去英文只留中文啊，虽然有个蠢办法...把数据write出来先删掉英文再弄进去，但这样好傻- -

maomou

！！！那个生成两个字的解决了- -，list（wordLengths = c(2, Inf)）这个有用！！！！[s:11]

lijian

rmmseg4j这个包早就该退出历史舞台了，我这几天发个新的包出来，分词准确度要高很多。现在加载词典的函数用起来还不是很方便，等我弄好了就发出来。

nan.xiao

强烈期待一下。能透露一下原理是？

lijian

也是调用的JAVA工程，以前免费版本中效果最好的是中科院那个，基于隐马尔可夫链的，但是不能新增词典。现在CSDN有个高手重写了一个并且开源，我在他的基础上新写了几个类用来和R接口。现在分词没问题了，词典管理也弄得差不多了，我在想是否需要把JRE也内置进去或者做个容易安装的东西，好像很多人都会遇到JAVA安装的问题。

nan.xiao

原来是这样，太好了。

内置私有 JRE 没必要吧？反而还得做跨平台。。。

lijian

是啊，还不如把安装文档写详细一些。

ada

强烈期待！现在rmmseg4j分词总是达不到想要的效果，而rsmarcn又不能用自己的词典。

corelion

回复第10楼的 lijian：这样的分词能同时完成词性识别吗？

lijian

回复第14楼的 corelion：支持词性标注，不过还不确定是否能添加带词性的词典

haiganhongyi

回复第15楼的 lijian：我在纳闷一个问题，用tm做出来的文本挖掘结果与将english翻译出来的中文再利用中文文本挖掘跑出来的显著性差异有多大？

不知天高=1

但知地厚=0

result=不知天高+但知地厚

[s:13]
</p>

Veronica613

问一下tm包有对英文stopwords的remove（去除of 等无用词）

对于中文的那些比如的呢这样的词是否有相应的办法可以去除呢？还是只能手动去除？

Veronica613

回复第16楼的 haiganhongyi：我也正用tm做本文挖掘！你的那个1,0的评分是如何标注的？

huifeiyixins

Rweibo取到的数据微博发布时间不对啊。你们也是这种情况吗？

datazhang

回复第15楼的 lijian：李舰你好，Rwordseg不支持停用词，有哪些方法可以改进呢？