> install.packages("rmmseg4j", repos="http://R-Forge.R-project.org",type='source')
> library(rmmseg4j)
> mmseg4j("技术、管理等方面的问题需进一步深入分析和验证,事故调查报告的形成仍需要一段时间")
[1] "技术 管理 等 方面 的 问题 需 进一步 深入分析 和 验证 事故 调查 报告 的 形成 仍需 要 一段时间"
R与中文分词
port一下哈工大的LTP吧 分词/命名实体识别/词性标注/依存句法分析/词义消歧都有了 。。。
好东西啊~~
回复 第2楼 的 nan.xiao:
中科院的 ictclas 据说是最优化版本 ;
衍生版本 SharpICTCLAS:.net平台下的ICTCLAS,是由河北理工大学经管学院吕震宇根据Free版ICTCLAS改编而成,据说这个版本能自己加词典和做训练。
自己人太懒惰,事情太多干不过来。
顶2楼和4楼!
为啥叫rmmseg4j这个名字呢?看着像“R妹妹分词”[s:11]
因为原来已经有妹妹分词了 。。。其实还差一个靖哥哥分词 。。。
回复 第4楼 的 lyxmoo:
是 http://code.google.com/p/imdict-chinese-analyzer/ 吗
回复 第5楼 的 谢益辉:
Max Matching SEGmentation
回复 第1楼 的 sociology:没有在R-Forge上找到项目主页
回复 第9楼 的 刘思喆:
在RQDA项目下。
回复 第7楼 的 sociology:
不是的,这个是基于java 的重新实现,作者xiaopingGao
那个sharp ictlas 作者是吕震宇,实现为c#
话说,张博士别人也就是一个CHMM打天下的,咋人和人差距就那么大呢?自己羞愧地匿了。
回复 第11楼 的 lyxmoo:
不是开源的
回复 第12楼 的 sociology:
Free版ICTCLAS 开源的。
sharpICTCLAS 有很多文档,代码有一些,遍寻.net下的开源分词项目,唯SharpICTCLAS可用,基于ICTCLAS开发。其他的几个项目,均多少不太专业,而不能完善功能。但是SharpICTCLAS 1.0发布以后,很久没有更新,bug也不少。现公开一个经过大量文本测试的版本,部分bug在官方发布下的评论中已有人提出,但是没能全部解决。<<== 转载请注明来自Chol。
回复 第13楼 的 lyxmoo:
“其他的几个项目,均多少不太专业,而不能完善功能”何解?
之前试过Ronggui Huang的RQDA,那个RQDAtm也有中文分词,不过是个图形界面,我反正没弄成...
这个rmmseg4j看着不错哈,不过貌似资料甚少啊,咋个都搜不到呢...
sociology说是在RQDA项目下面,难道sociology兄是...
回复 第15楼 的 linkinbird:
mmseg4j project: http://code.google.com/p/mmseg4j/
rqda project: http://r-forge.r-project.org/projects/rqda/
这次把分词软件从RQDAtm里面分成独立的包了。
新增rsmartcn程序包,是http://code.google.com/p/imdict-chinese-analyzer/的接口。
> install.packages("rsmartcn", repos="http://R-Forge.R-project.org",type='source')
## 可能需要到明天才能出现在网站上
> library(rsmartcn)
> smartcn("技术、管理等方面的问题需进一步深入分析和验证,事故调查报告的形成仍需要一段时间")
[1] "技术 管理 等 方面 的 问题 需 进一步 深入 分析 和 验证 事故 调查 报告 的 形成 仍 需要 一 段 时间 "
ls真是好快速的响应啊...等明天试用一下
RQDA也算是个很集成的项目了,ls有没有兴趣来上海11月R会议介绍一下啊
ERROR: dependency 'rJava' is not available for package 'rmmseg4j'??
这个是怎么回事?
先安装rJava
>install.packages('rJava',rep='http://ftp.ctex.org/mirrors/CRAN/')
然后安装rmmseg4j