• R语言
  • R中文分词重新上线啦

详细情况不说了。

用过的朋友都知道在哪里。

详细改动在我个人的博客上有。

URL好像无法贴上来,那就算了。

http://homepage.fudan.edu.cn/rghuang/

rmmseg4j包能不能增加个性化词库功能呢

<br />
install.packages("rmmseg4j", repos = "http://R-Forge.R-project.org")<br />
install.packages("rsmartcn", repos = "http://R-Forge.R-project.org")<br />
require(rmmseg4j)<br />
require(rsmartcn)<br />
mmseg4j("妈妈再也不用担心我不能用R分词了")<br />
# [1] "妈妈 再也 不用 担心 我不 能用 r 分词 了"<br />
mmseg4j("妈妈再也不用担心我不能用R分词了", "maxword")<br />
# [1] "妈妈 再也 不用 担心 我不 能用 r 分词 了"<br />
smartcn("妈妈再也不用担心我不能用R分词了")<br />
# [1] "妈妈 再 也 不用 担心 我 不能 用 r 分词 了 "<br />
</p>

话说 LZ 的博客过于隐蔽了 。。。 [s:11] 写到个人资料里啊 。。。

> mmseg4j("真心不喜欢","complex")

[1] "真心 不喜欢"

> mmseg4j("真心不好用","complex")

[1] "真心 不 好用"

> mmseg4j("真心不好用","maxword")

[1] "真心 不 好用"

> mmseg4j("真心不喜欢","maxword")

[1] "真心 不喜 喜欢"

问题是为什么用complex方法,不喜欢可以当做一个词,而不好用就不会当做一个词?。。关键是我想提取。。不喜欢、不好用这些词,而不是要提取喜欢,好用这些词~~[s:18]

自带词库在 R/library/rmmseg4j/plugins/lib/mmseg4j-all-1.8.4-with-dic.jar 中的 data 目录下,可以人工维护。不知可否自己指定词库的位置?

http://code.google.com/p/mmseg4j/

词库(强制使用 UTF-8):

data/chars.dic 是单字与语料中的频率,一般不用改动,1.5版本中已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可能覆盖它。

data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这功能是试行,如果不喜欢它,可以空的units.dic文件覆盖它。

data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 带的词库。

我每次都是人工操作jar包,很麻烦。

想能不能直接在R里增加词库,供分词使用

词库要做成txt,之类就好了

回复 第6楼 的 刘思喆:

难道你每次使用不同的词库?

不是修改一次就可以了吗?

回复 第6楼 的 刘思喆:

如下两种情况,大家觉得那个比较好?

1、在原来的词库的基础上增加新词库?

2、方便用户增加和删除词库(默认词库也可以让用户删除和替换)呢?

回复 第11楼 的 nan.xiao:

done.

详情见我blog

回复 第12楼 的 sociology:

这么快就改好了 。。。 撒花 。。。

你的博客好像没把评论功能打开啊? [s:14]

回复 第10楼 的 sociology:支持第二种方案,我们分析不同类型文本是用不同词库的,其实只要能支持多词库文件就最好了。我可以明星一个词库,之名品牌一个词库,方便管理。像现在只能都写在一个词库文档里,有时候“美的”是个知名品牌,但有时候又不这么分......

提交到CRAN啦

http://cran.r-project.org/web/packages/rmmseg4j/index.html

回复 第16楼 的 sociology:终于能在CRAN上下载了,内牛满面啊。

大赞自定义词库!终于等到了,终于等到了~~

太好了, 赞一个, 赶紧下来试试!!![s:13]

回复 第16楼 的 sociology:再问下现在“小S”这种中英混合词有区分的方法吗

1 个月 后