linkinbird 回复 第41楼 的 刘思喆:找到了哈哈多谢,现在觉得词库的作用比算法更重要啊。我们最近在做电子商务产品的分词,发现“酒意”经常出现,这按理是个很常用的词,但是其实原本是“酒意大利产”,被分成了“酒意 大利 产”,打算在做这类分词的时候直接把“酒意”从词库里去掉了
sociology 回复 第44楼 的 lwgg523: 有很多不同方法。这里是一种可能。 使用readLines等函数可以读入文本。 paste可以将多行合并。 一旦有了character vector,就可以对其进行中文分词。