taohuadaozhu
我的目标,自己定义一个词典,然后切词,只保留自己词典里面的内容。
我的词典里面,有的单元是中文,有的单元是英文字母和数字的组合。
切完词之后,竟然没有保留中文的部分,只切出来英文字母和数字的组合?这是为什么呢?
library(Rwordseg)#加载切词包
setwd("D:\\……\\")
installDict("D:\\……\\dic.txt",dictname="userdefine",dicttype="text")
data<-read.csv("yy.csv",header=TRUE)
choose.data<-function(word.seg){
word.choose<-word.seg[names(word.seg)=="userdefine"]
res<-word.choose[nchar(word.choose)>1]
word_f<-table(res)#按照词的频率重复一下
post1<-rep(names(word_f),word_f)#以上两句语句的意思,是按照词的频率重复一下
}
cut.doc<-vector()
for(k in c(1:dim(data)[1])){
word.seg<-unlist(segmentCN(as.character(data[k,9]),nature=T))
cpost<-paste(choose.data(word.seg),collapse=" ")
cut.doc<-c(cut.doc,cpost)
}
write.csv(cut.doc,"D:\\……\\XX.csv",row.names=F)
不知道错在哪里?希望能有大神指点指点?
有三个怀疑
1、是不是保存词典的时候要指定格式utf-8?
2、还是指定词典的时候可以指定格式?
3、是不是word.seg<-unlist(segmentCN(as.character(data[k,9]),nature=T))这个语句as.character的错误?