jiebaR中文分词——R的灵活,C的效率
<= 的这种暗黑魔法还得适应适应,哈
11 天 后
您好,在安装jiebaR的时候,win7 32位系统,R3.1.0,安装了Rtools后,一直出现g++ not find,无法编译这个包,该怎么办?
[未知用户] 作者已经放到CRAN上了,直接安装就行。
win7 显示安装不了,not available
[未知用户] 你的R版本是?jiebaR需要至少3.1版本的R。
12 天 后
请教jiebaR能否加入类似于"工业4.0"之类的词吗?
[未知用户] 可以的,新建引擎的时候设置保留标点符号 cutter = worker(symbol = T),这样符号“ . ”就不会被预处理掉,在用户词典(library/jiebaR/dict/ 目录下的 user.dict.utf8 或者 其他自定义路径)中加入这个词 工业4.0 ,就可以了。
1 个月 后
能对TM的语料进行关键词提取么?
9 天 后
现在的本科生好牛
超级赞啊!!此外,问下在相同词库的情况下和Rwordseg有速度和结果的比较吗?
看了看,默认的词典中是把简体繁体放一起了,这样会不会影响速度?
一个建议,如果输入的是一个字符向量或者外部文件的话,如果不选择写出去,可否输出list,这样就区分开了每个行或者每个向量。
多谢!同时发现输出外部文件的话,所有的都输出成了一行。如果能够每一行输入都对应一行输出的话两者就能对的上了。
嗯嗯,github上啥时候有新的版本呢?这个功能很需要啊~
速度啊,赞!多谢~~
今年R会议来北京分享下哈:)
你好啊。想请教一下,中文分词完之后,中文矩阵要怎么建立啊,用tmcn包吗?我找遍用法也没看到如何使用的说明。还有jiebaR如何读取类似txt格式的文件?非常感谢
[未知用户] 你好,请问导入文件路径的代码要怎么写?我之前写了“C:/DOCUMENT```````”这一类,结果就变成直接把路径当成字符串来分了
哦。我想起来了。我已经分好词,但是有新问题:我分完词由自己输出了新的txt,是在读入然后想建立矩阵的时候,首先读入的词全部都变成乱码,(因此建立矩阵的事情就堵在这里),后面可能会遇到的另一个情况,是不是必须把分出来的词都向量化了,才能建立文档矩阵?