jiebaR中文分词——R的灵活，C的效率

xinguanxk · 2015年1月22日

好的。我看了github的说明，不过出来的都还是字符，这后面就能够直接建立矩阵了还是需要我提到的所有都向量化？

xinguanxk · 2015年1月22日

试了很好。只是我后面需要建立词项文档矩阵，必须向量化所有的分词结果，看来如果不行就只能用词典来统计然后直接作为关键词反映出来。tm包貌似是不能直接用的对于输入的数据操作。

xinguanxk · 2015年1月22日

非常感谢！

解决我的一个问题

alphabeta12345 · 2015年2月17日

sim_only_dict.txt 和small_dict.txt 哪里可以下载

Rick · 2015年3月10日

请问，windows 下经常会出现Error: std::bad_alloc是什么问题呢？

家教网 · 2015年4月5日

习惯了就用

小明-1491830030 · 2015年4月22日

Thanks for your great works

星星-1286230469 · 2015年5月10日

[未知用户] 添加自定义字典，出现这样的错误> cutter=worker(user='字典.txt')
Error: buf.size()<1 DictTrie.hpp : 158 (bad dictionary file)
如果直接粘贴到library/jiebaR/dict/ 目录下的 user.dict.utf8，也会这样报错，但我最后做分词的结果，好多需要的词都被分开了。另外，Rwordseg包分词后的词频文档矩阵里的词类项，一行有好几个词，是版本问题吗？谢谢~

儿童摄影风格 · 2015年7月26日

list() 包住结果，应该可行

LYD · 2015年11月25日

[未知用户] 我記得是記憶體相關的問題，應該是記憶體不足。

dapanji · 2016年6月13日

请问词性怎么单独获取？

Lawrence-lila950720 · 2016年9月27日

您好，我想问一下这段代码：
# 或者Pipe一个文件路径
cutter <= "weibo.txt"
我用过之后系统没有报错，但是也没有给我任何形式的结果。原目录下没有生成任何新的文件。想问下这是怎么回事

汪汪 · 2017年3月3日

你好，请问这个添加自定义新词是这个new_user_word(mixseg, new_user_word, wordtype)
，那我想删除呢？怎么做呢