lwgg523 我的文档是中文的,分词过后,很多无意义词,我自己手动添加了停用词文档(在tm/library/stopwords里),一行一个停止词,一个dat文档也不大于300行。但用train<-tm_map(train,removeWords,stopwords(“”))函数后,没有反应。 用同样方法去除自己添加的英文的停止词是可以的。这是怎么回事呢。</p> 如果不可以,那可以有其它方法去除我事先列好的停止词么? 先谢谢了~
complicated 同问,我是生成了一个文本向量 stop<-c("有限公司","北京市","房地产") 然后 tm_map(corpus,removeWords,stop) 过滤无效 看了不少老外的讨论说是tm包的bug,不过最新日期也是2012年的了,还没更正过来么???
风雨统计 生成词频矩阵的时候可以在函数TermDocumentMatrix(x,control = list(stopwords = c("有限公司","北京市","房地产"))),里的stopword中添加停词,这样能去掉。