好的。我看了github的说明,不过出来的都还是字符,这后面就能够直接建立矩阵了还是需要我提到的所有都向量化?
jiebaR中文分词——R的灵活,C的效率
试了很好。只是我后面需要建立词项文档矩阵,必须向量化所有的分词结果,看来如果不行就只能用词典来统计然后直接作为关键词反映出来。tm包貌似是不能直接用的对于输入的数据操作。
非常感谢!
解决我的一个问题

1 个月 后
sim_only_dict.txt 和small_dict.txt 哪里可以下载
21 天 后
请问,windows 下经常会出现Error: std::bad_alloc是什么问题呢?
1 个月 后
习惯了就用
17 天 后
Thanks for your great works
17 天 后
[未知用户] 添加自定义字典,出现这样的错误> cutter=worker(user='字典.txt')
Error: buf.size()<1 DictTrie.hpp : 158 (bad dictionary file)
如果直接粘贴到library/jiebaR/dict/ 目录下的 user.dict.utf8,也会这样报错,但我最后做分词的结果,好多需要的词都被分开了。另外,Rwordseg包分词后的词频文档矩阵里的词类项,一行有好几个词,是版本问题吗?谢谢~
Error: buf.size()<1 DictTrie.hpp : 158 (bad dictionary file)
如果直接粘贴到library/jiebaR/dict/ 目录下的 user.dict.utf8,也会这样报错,但我最后做分词的结果,好多需要的词都被分开了。另外,Rwordseg包分词后的词频文档矩阵里的词类项,一行有好几个词,是版本问题吗?谢谢~
3 个月 后
list() 包住结果,应该可行
4 个月 后
[未知用户] 我記得是記憶體相關的問題,應該是記憶體不足。
7 个月 后
请问词性怎么单独获取?
3 个月 后
您好, 我想问一下这段代码:
# 或者Pipe一个文件路径
cutter <= "weibo.txt"
我用过之后系统没有报错,但是也没有给我任何形式的结果。原目录下没有生成任何新的文件。想问下这是怎么回事
# 或者Pipe一个文件路径
cutter <= "weibo.txt"
我用过之后系统没有报错,但是也没有给我任何形式的结果。原目录下没有生成任何新的文件。想问下这是怎么回事
5 个月 后
你好,请问这个添加自定义新词是这个new_user_word(mixseg, new_user_word, wordtype)
,那我想删除呢?怎么做呢
,那我想删除呢?怎么做呢