最近我在实现一个根据文章寻找相似文章的功能,原先是基于tag的搜索,
这个依赖于用户自己打标签,因为并不是专业领域,标签各式各样,结果不尽如人意。
现在打算用content-based的方法。思路是这样:
- 中文分词。我现在用mmseg的方法,库是用ruby下面的实现rmmseg。
- 提取出feature词。这个过程卡壳了,因为文章样本不大(400篇左右,每篇提取前100个词),用tf-idf不能找到关键词,也不知道有什么办法过滤出名词出来。
- 然后相似度分析。看到很多地方说用svm,或者knn,不过第二步没有完成,没有办法实现。打算用ruby针对libsvm的绑定。
请问大家,哪里有相关的资料可以借鉴,或者有什么意见可以提供给我的?非常感谢!