• R语言
  • 在不大的数据量下,R的tm包的stemCompletion太慢,有无解决办法?

大家好,我的文本数据大概1w行左右,每行约100个词左右。

关键代码如下:

<br />
data <- read.csv("corpus.csv", header = FALSE)<br />
corpus <- Corpus(VectorSource(data$V4))<br />
corpus <- tm_map(corpus,tolower)<br />
corpus.copy <- corpus<br />
corpus <- tm_map(corpus,stemDocument, language="english")<br />
corpus <- tm_map(corpus,stemCompletion,dictionary=corpus.copy, type="first") #就是这行,执行不下去,一直运行中,不出来结果,等老半天。<br />


最后一行,太慢,我试过当只有几千行数据的时候,一样会卡在这里,执行后运行不出来。但是只有几百行文本的时候,可以正常运行。</p>

诚心求助,如何解决这个问题?在此先谢谢了

tm_map这个功能现在还有用吗?我在3.1.1下这个函数貌似有些功能用不了,比如自定义的一些Function

回复 第2楼 的 ricklovelisa:我用的是旧版本的 3.0.3,不知道在你的新版本下,stemCompletion能否跑得比较快?