maomou 在用Rweibo和rmmseg4j的时候 Rweibo要用到RCurl rmmseg4j要用到rJava 里面都有clone这个function 虽然不知道这个干吗用的,但在抓取微博数据的时候就出现:错误于function (type, msg, asError = TRUE) : Failed to connect to 180.149.135.230: No buffer space 单独使用Rweibo抓取的时候就没问题 求解,或者我想问下tm包里有直接中文分词的function吗?
maomou 为什么要用到rJava包的东西,R有时候会闪退有时候不会,但是变一下加载顺序就不会 比如直接加载rmmseg4j有时候会闪退有时候不会,但我先加载rJava再加载rmmseg4j就不会 加载RQDAtm的时候要用到rJava,也会闪退,但如果我先加载rJava,再加载RQDA再加载RQDAtm,就不会闪退,但是RQDA就用不了了- -,这是什么情况啊,装的最新版rJava_0.9-3,R是2.15.2,是我java环境变量设的是jdk1.6.0_10 到底是什么情况啊[s:14]
maomou 还有个问题,tm包 生成文档关系矩阵,默认是最少生成3个词的,但是我设置了 Dtm <- DocumentTermMatrix(myCorpus, control = list(global = c(2, Inf))) 希望2个字的也生成 但是没用! 用list(minWordLength = 2) 也没用! 这是为什么啊!怎么2个字的也生成啊
maomou - -最后个问题,tm包读取pdf文档,研究半天发现需要用到Xpdf(下载速度只有几百字节- -下了我好久),环境变量也设置好了C:\Program Files\xpdfbin-win-3.03\bin32;(我的是32位系统,不知道这样设对不对),然后 my.path <- ("....") Corpus(DirSource(my.path), readControl = list(reader = readPDF)) A corpus with ..text documents(这个终于出来了!!) 但是还有条错误信息 然后用inspect查看,没有text内容啊!!!这是为什么! 求指导! 实在不行了,网上怎么都搜不到啊
maomou - -最后最后个问题,tm包里可以去掉英文吗,因为我只要中文- -,微博数据好多LBS的网址,或者怎么去英文只留中文啊,虽然有个蠢办法...把数据write出来先删掉英文再弄进去,但这样好傻- -
lijian 也是调用的JAVA工程,以前免费版本中效果最好的是中科院那个,基于隐马尔可夫链的,但是不能新增词典。现在CSDN有个高手重写了一个并且开源,我在他的基础上新写了几个类用来和R接口。现在分词没问题了,词典管理也弄得差不多了,我在想是否需要把JRE也内置进去或者做个容易安装的东西,好像很多人都会遇到JAVA安装的问题。
haiganhongyi 回复 第15楼 的 lijian:我在纳闷一个问题,用tm做出来的文本挖掘结果与将english翻译出来的中文再利用中文文本挖掘跑出来的显著性差异有多大? 不知天高=1 但知地厚=0 result=不知天高+但知地厚[s:13] </p>