请教：用tm包生成词频矩阵时报错“错误于tolower(txt) : 多字节字符串1有错 ”

风雨统计

中文分词以后的文本，读到R中，再用tm包的DocumentTermMatrix()生成词频矩阵时报错：“错误于tolower(txt) : 多字节字符串1有错 ”

代码如下：

<br />
seg=scan("E:\\分词文件.txt",what='character');<br />
seg=Corpus(VectorSource(seg));<br />
dtm <- DocumentTermMatrix(seg,control=list(wordLengths=c(2,Inf)));<br />

文本数据格式为一列，每行都是用空格分开的词，如

"中国人民大学"
</p>

Ihavenothing

回复第1楼的风雨统计：

或许可以参考下这个页面，http://rqda.r-forge.r-project.org/。没有亲自尝试过，但这个项目是专门做中文的文本处理的。

风雨统计

回复第2楼的 Ihavenothing：多谢~问题已经解决了，我的源数据“分词文件.txt”中清洗的时候没把英文的单引号'去掉，去掉之后就行了

max

回复第3楼的风雨统计：请问怎么去掉哪些标点符号