在不大的数据量下，R的tm包的stemCompletion太慢，有无解决办法？

wayswang · 2014年10月19日

大家好，我的文本数据大概1w行左右，每行约100个词左右。

关键代码如下：

<br />
data <- read.csv("corpus.csv", header = FALSE)<br />
corpus <- Corpus(VectorSource(data$V4))<br />
corpus <- tm_map(corpus,tolower)<br />
corpus.copy <- corpus<br />
corpus <- tm_map(corpus,stemDocument, language="english")<br />
corpus <- tm_map(corpus,stemCompletion,dictionary=corpus.copy, type="first") #就是这行，执行不下去，一直运行中，不出来结果，等老半天。<br />

最后一行，太慢，我试过当只有几千行数据的时候，一样会卡在这里，执行后运行不出来。但是只有几百行文本的时候，可以正常运行。</p>

诚心求助，如何解决这个问题？在此先谢谢了

ricklovelisa · 2014年10月20日

tm_map这个功能现在还有用吗？我在3.1.1下这个函数貌似有些功能用不了，比如自定义的一些Function

wayswang · 2014年10月20日

回复第2楼的 ricklovelisa：我用的是旧版本的 3.0.3，不知道在你的新版本下，stemCompletion能否跑得比较快？