详细情况不说了。
用过的朋友都知道在哪里。
详细改动在我个人的博客上有。
URL好像无法贴上来,那就算了。
R中文分词重新上线啦
http://homepage.fudan.edu.cn/rghuang/
rmmseg4j包能不能增加个性化词库功能呢
<br />
install.packages("rmmseg4j", repos = "http://R-Forge.R-project.org")<br />
install.packages("rsmartcn", repos = "http://R-Forge.R-project.org")<br />
require(rmmseg4j)<br />
require(rsmartcn)<br />
mmseg4j("妈妈再也不用担心我不能用R分词了")<br />
# [1] "妈妈 再也 不用 担心 我不 能用 r 分词 了"<br />
mmseg4j("妈妈再也不用担心我不能用R分词了", "maxword")<br />
# [1] "妈妈 再也 不用 担心 我不 能用 r 分词 了"<br />
smartcn("妈妈再也不用担心我不能用R分词了")<br />
# [1] "妈妈 再 也 不用 担心 我 不能 用 r 分词 了 "<br />
</p>
话说 LZ 的博客过于隐蔽了 。。。 [s:11] 写到个人资料里啊 。。。
> mmseg4j("真心不喜欢","complex")
[1] "真心 不喜欢"
> mmseg4j("真心不好用","complex")
[1] "真心 不 好用"
> mmseg4j("真心不好用","maxword")
[1] "真心 不 好用"
> mmseg4j("真心不喜欢","maxword")
[1] "真心 不喜 喜欢"
问题是为什么用complex方法,不喜欢可以当做一个词,而不好用就不会当做一个词?。。关键是我想提取。。不喜欢、不好用这些词,而不是要提取喜欢,好用这些词~~[s:18]
自带词库在 R/library/rmmseg4j/plugins/lib/mmseg4j-all-1.8.4-with-dic.jar 中的 data 目录下,可以人工维护。不知可否自己指定词库的位置?
http://code.google.com/p/mmseg4j/
词库(强制使用 UTF-8):
data/chars.dic 是单字与语料中的频率,一般不用改动,1.5版本中已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可能覆盖它。
data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这功能是试行,如果不喜欢它,可以空的units.dic文件覆盖它。
data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 带的词库。
我每次都是人工操作jar包,很麻烦。
想能不能直接在R里增加词库,供分词使用
词库要做成txt,之类就好了
回复 第6楼 的 刘思喆:
难道你每次使用不同的词库?
不是修改一次就可以了吗?
回复 第1楼 的 sociology:
太帅了!
回复 第6楼 的 刘思喆:
如下两种情况,大家觉得那个比较好?
1、在原来的词库的基础上增加新词库?
2、方便用户增加和删除词库(默认词库也可以让用户删除和替换)呢?
第二种方案吧。 [s:18]
回复 第11楼 的 nan.xiao:
done.
详情见我blog
回复 第12楼 的 sociology:
这么快就改好了 。。。 撒花 。。。
你的博客好像没把评论功能打开啊? [s:14]
回复 第12楼 的 sociology:厉害!
回复 第10楼 的 sociology:支持第二种方案,我们分析不同类型文本是用不同词库的,其实只要能支持多词库文件就最好了。我可以明星一个词库,之名品牌一个词库,方便管理。像现在只能都写在一个词库文档里,有时候“美的”是个知名品牌,但有时候又不这么分......
提交到CRAN啦
http://cran.r-project.org/web/packages/rmmseg4j/index.html
回复 第16楼 的 sociology:终于能在CRAN上下载了,内牛满面啊。
大赞自定义词库!终于等到了,终于等到了~~
太好了, 赞一个, 赶紧下来试试!!![s:13]
回复 第16楼 的 sociology:再问下现在“小S”这种中英混合词有区分的方法吗