正在加载…
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
jiebaR中文分词——R的灵活,C的效率
COSeditor
https://cos.name/2014/11/jiebar-text-segmentation/
bjt
<= 的这种暗黑魔法还得适应适应,哈
jiangbeilu
您好,在安装jiebaR的时候,win7 32位系统,R3.1.0,安装了Rtools后,一直出现g++ not find,无法编译这个包,该怎么办?
Ihavenothing
[未知用户]
作者已经放到CRAN上了,直接安装就行。
jiangbeilu
win7 显示安装不了,not available
Ihavenothing
[未知用户]
你的R版本是?jiebaR需要至少3.1版本的R。
xavier-wqnmlgb201406
请教jiebaR能否加入类似于"工业4.0"之类的词吗?
锋子子子
[未知用户]
可以的,新建引擎的时候设置保留标点符号 cutter = worker(symbol = T),这样符号“ . ”就不会被预处理掉,在用户词典(library/jiebaR/dict/ 目录下的 user.dict.utf8 或者 其他自定义路径)中加入这个词 工业4.0 ,就可以了。
123-baihua1727
能对TM的语料进行关键词提取么?
todoit
现在的本科生好牛
cloud_wei
超级赞啊!!此外,问下在相同词库的情况下和Rwordseg有速度和结果的比较吗?
cloud_wei
看了看,默认的词典中是把简体繁体放一起了,这样会不会影响速度?
cloud_wei
一个建议,如果输入的是一个字符向量或者外部文件的话,如果不选择写出去,可否输出list,这样就区分开了每个行或者每个向量。
cloud_wei
多谢!同时发现输出外部文件的话,所有的都输出成了一行。如果能够每一行输入都对应一行输出的话两者就能对的上了。
cloud_wei
嗯嗯,github上啥时候有新的版本呢?这个功能很需要啊~
cloud_wei
速度啊,赞!多谢~~
cloud_wei
今年R会议来北京分享下哈:)
xinguanxk
你好啊。想请教一下,中文分词完之后,中文矩阵要怎么建立啊,用tmcn包吗?我找遍用法也没看到如何使用的说明。还有jiebaR如何读取类似txt格式的文件?非常感谢
xinguanxk
[未知用户]
你好,请问导入文件路径的代码要怎么写?我之前写了“C:/DOCUMENT```````”这一类,结果就变成直接把路径当成字符串来分了
xinguanxk
哦。我想起来了。我已经分好词,但是有新问题:我分完词由自己输出了新的txt,是在读入然后想建立矩阵的时候,首先读入的词全部都变成乱码,(因此建立矩阵的事情就堵在这里),后面可能会遇到的另一个情况,是不是必须把分出来的词都向量化了,才能建立文档矩阵?
下一页 »