请问哪里有分类或者查找相似文章算法的论文和详细分析资料的？

halida

最近我在实现一个根据文章寻找相似文章的功能，原先是基于tag的搜索，

这个依赖于用户自己打标签，因为并不是专业领域，标签各式各样，结果不尽如人意。

现在打算用content-based的方法。思路是这样：

- 中文分词。我现在用mmseg的方法，库是用ruby下面的实现rmmseg。

- 提取出feature词。这个过程卡壳了，因为文章样本不大（400篇左右，每篇提取前100个词），用tf-idf不能找到关键词，也不知道有什么办法过滤出名词出来。

- 然后相似度分析。看到很多地方说用svm，或者knn，不过第二步没有完成，没有办法实现。打算用ruby针对libsvm的绑定。

请问大家，哪里有相关的资料可以借鉴，或者有什么意见可以提供给我的？非常感谢！