R中文分词重新上线啦

sociology

详细情况不说了。

用过的朋友都知道在哪里。

详细改动在我个人的博客上有。

URL好像无法贴上来，那就算了。

bjt

http://homepage.fudan.edu.cn/rghuang/

rmmseg4j包能不能增加个性化词库功能呢

nan.xiao

<br />
install.packages("rmmseg4j", repos = "http://R-Forge.R-project.org")<br />
install.packages("rsmartcn", repos = "http://R-Forge.R-project.org")<br />
require(rmmseg4j)<br />
require(rsmartcn)<br />
mmseg4j("妈妈再也不用担心我不能用R分词了")<br />
# [1] "妈妈 再也 不用 担心 我不 能用 r 分词 了"<br />
mmseg4j("妈妈再也不用担心我不能用R分词了", "maxword")<br />
# [1] "妈妈 再也 不用 担心 我不 能用 r 分词 了"<br />
smartcn("妈妈再也不用担心我不能用R分词了")<br />
# [1] "妈妈 再 也 不用 担心 我 不能 用 r 分词 了 "<br />

</p>

话说 LZ 的博客过于隐蔽了。。。 [s:11] 写到个人资料里啊。。。

cyc

> mmseg4j("真心不喜欢","complex")

[1] "真心不喜欢"

> mmseg4j("真心不好用","complex")

[1] "真心不好用"

> mmseg4j("真心不好用","maxword")

[1] "真心不好用"

> mmseg4j("真心不喜欢","maxword")

[1] "真心不喜喜欢"

问题是为什么用complex方法，不喜欢可以当做一个词，而不好用就不会当做一个词？。。关键是我想提取。。不喜欢、不好用这些词，而不是要提取喜欢，好用这些词~~[s:18]

nan.xiao

自带词库在 R/library/rmmseg4j/plugins/lib/mmseg4j-all-1.8.4-with-dic.jar 中的 data 目录下，可以人工维护。不知可否自己指定词库的位置？

http://code.google.com/p/mmseg4j/

词库(强制使用 UTF-8)：

data/chars.dic 是单字与语料中的频率，一般不用改动，1.5版本中已经加到mmseg4j的jar里了，我们不需要关心它，当然你在词库目录放这个文件可能覆盖它。

data/units.dic 是单字的单位，默认读jar包里的，你也可以自定义覆盖它，这功能是试行，如果不喜欢它，可以空的units.dic文件覆盖它。

data/words.dic 是词库文件，一行一词，当然你也可以使用自己的，1.5版本使用 sogou 词库，1.0的版本是用 rmmseg 带的词库。

bjt

我每次都是人工操作jar包，很麻烦。

想能不能直接在R里增加词库，供分词使用

cyc

词库要做成txt,之类就好了

sociology

回复第6楼的刘思喆：

难道你每次使用不同的词库？

不是修改一次就可以了吗？

Ihavenothing

回复第1楼的 sociology：

太帅了！

sociology

回复第6楼的刘思喆：

如下两种情况，大家觉得那个比较好？

1、在原来的词库的基础上增加新词库？

2、方便用户增加和删除词库（默认词库也可以让用户删除和替换）呢？

nan.xiao

第二种方案吧。 [s:18]

sociology

回复第11楼的 nan.xiao：

done.

详情见我blog

nan.xiao

回复第12楼的 sociology：

这么快就改好了。。。撒花。。。

你的博客好像没把评论功能打开啊？ [s:14]

皮皮米菲兔

回复第12楼的 sociology：厉害！

linkinbird

回复第10楼的 sociology：支持第二种方案，我们分析不同类型文本是用不同词库的，其实只要能支持多词库文件就最好了。我可以明星一个词库，之名品牌一个词库，方便管理。像现在只能都写在一个词库文档里，有时候“美的”是个知名品牌，但有时候又不这么分......

sociology

提交到CRAN啦

http://cran.r-project.org/web/packages/rmmseg4j/index.html

bjt

回复第16楼的 sociology：终于能在CRAN上下载了，内牛满面啊。

大赞自定义词库！终于等到了，终于等到了～～

bsspirit

太好了, 赞一个, 赶紧下来试试!!![s:13]

linkinbird

回复第16楼的 sociology：再问下现在“小S”这种中英混合词有区分的方法吗