> install.packages("rmmseg4j", repos="http://R-Forge.R-project.org",type='source')

> library(rmmseg4j)

> mmseg4j("技术、管理等方面的问题需进一步深入分析和验证,事故调查报告的形成仍需要一段时间")

[1] "技术 管理 等 方面 的 问题 需 进一步 深入分析 和 验证 事故 调查 报告 的 形成 仍需 要 一段时间"

port一下哈工大的LTP吧 分词/命名实体识别/词性标注/依存句法分析/词义消歧都有了 。。。

回复 第2楼 的 nan.xiao:

中科院的 ictclas 据说是最优化版本 ;

衍生版本 SharpICTCLAS:.net平台下的ICTCLAS,是由河北理工大学经管学院吕震宇根据Free版ICTCLAS改编而成,据说这个版本能自己加词典和做训练。

自己人太懒惰,事情太多干不过来。

顶2楼和4楼!

为啥叫rmmseg4j这个名字呢?看着像“R妹妹分词”[s:11]

因为原来已经有妹妹分词了 。。。其实还差一个靖哥哥分词 。。。

回复 第4楼 的 lyxmoo:

是 http://code.google.com/p/imdict-chinese-analyzer/ 吗

回复 第5楼 的 谢益辉:

Max Matching SEGmentation

回复 第1楼 的 sociology:没有在R-Forge上找到项目主页

回复 第9楼 的 刘思喆:

在RQDA项目下。

回复 第7楼 的 sociology:

不是的,这个是基于java 的重新实现,作者xiaopingGao

那个sharp ictlas 作者是吕震宇,实现为c#

话说,张博士别人也就是一个CHMM打天下的,咋人和人差距就那么大呢?自己羞愧地匿了。

回复 第11楼 的 lyxmoo:

不是开源的

回复 第12楼 的 sociology:

Free版ICTCLAS 开源的。

sharpICTCLAS 有很多文档,代码有一些,遍寻.net下的开源分词项目,唯SharpICTCLAS可用,基于ICTCLAS开发。其他的几个项目,均多少不太专业,而不能完善功能。但是SharpICTCLAS 1.0发布以后,很久没有更新,bug也不少。现公开一个经过大量文本测试的版本,部分bug在官方发布下的评论中已有人提出,但是没能全部解决。<<== 转载请注明来自Chol。

回复 第13楼 的 lyxmoo:

“其他的几个项目,均多少不太专业,而不能完善功能”何解?

之前试过Ronggui Huang的RQDA,那个RQDAtm也有中文分词,不过是个图形界面,我反正没弄成...

这个rmmseg4j看着不错哈,不过貌似资料甚少啊,咋个都搜不到呢...

sociology说是在RQDA项目下面,难道sociology兄是...

回复 第15楼 的 linkinbird:

mmseg4j project: http://code.google.com/p/mmseg4j/

rqda project: http://r-forge.r-project.org/projects/rqda/

这次把分词软件从RQDAtm里面分成独立的包了。

新增rsmartcn程序包,是http://code.google.com/p/imdict-chinese-analyzer/的接口。

> install.packages("rsmartcn", repos="http://R-Forge.R-project.org",type='source')

## 可能需要到明天才能出现在网站上

> library(rsmartcn)

> smartcn("技术、管理等方面的问题需进一步深入分析和验证,事故调查报告的形成仍需要一段时间")

[1] "技术 管理 等 方面 的 问题 需 进一步 深入 分析 和 验证 事故 调查 报告 的 形成 仍 需要 一 段 时间 "

ls真是好快速的响应啊...等明天试用一下

RQDA也算是个很集成的项目了,ls有没有兴趣来上海11月R会议介绍一下啊

ERROR: dependency 'rJava' is not available for package 'rmmseg4j'??

这个是怎么回事?

先安装rJava

>install.packages('rJava',rep='http://ftp.ctex.org/mirrors/CRAN/')

然后安装rmmseg4j