中文分词以后的文本,读到R中,再用tm包的DocumentTermMatrix()生成词频矩阵时报错:“错误于tolower(txt) : 多字节字符串1有错 ”
代码如下:
<br />
seg=scan("E:\\分词文件.txt",what='character');<br />
seg=Corpus(VectorSource(seg));<br />
dtm <- DocumentTermMatrix(seg,control=list(wordLengths=c(2,Inf)));<br />
文本数据格式为一列,每行都是用空格分开的词,如
"中国 人民 大学"
</p>