如果有个例子就更好啦:)
我给的Latent Dirichlet Allocation链接里的那篇论文中的第6、7小节就有活生生的例子啦~
从英文世界跨到中文世界,首先就要迈过分词这一关,英文有天然的分隔符(空格),中文没有。上次李舰介绍的中文分词工具中有开源产品(忘记名字了),不妨拿来具体试试看。
[未知用户] 不错。我来补充一下,这种模型最难懂的地方是Dirichlet process prior. 也就是把一个随机过程作为prior。Dirichlet process是描述这样的一个过程,假设有一个中国餐馆,里面有无限多的桌子,中国人三五成群进来,咱中国人有扎堆的喜好,所以每进来一个人都会看已经坐下的里有没有自己的伙伴,如果有而且那个桌子还有空位子,那么就坐下来,如果没有位子了,只好新开一个桌子。这个过程其实是一个聚类的过程,如果用模型描述那么其实就是一个infinite mixture model.

这样的模型优点在于你再也不需要指定你要聚多少类,单个样本到底该规为哪一类了。缺点是计算量会变得巨大,因为你每次都需要模拟Dirichlet process。

如果大家有兴趣可以读一些关于Dirichlet process的书,了解一下Pólya's urn, stick-breaking process什么的。也可以看一些以前Michael I. Jordan关于机器学习的文章, ,David B Dunson 关于 Latent variable methods 的文章。
[未知用户] 不知道是不是这个东东:ICTCLAS(http://ictclas.org/)?
下面的贴子里有中文分词的例子,还有用支持向量机文本挖掘的例子。
http://cos.name/cn/topic/102130
topicmodels包(依赖tm包)貌拟也可实现这个功能,不过没用过。
[未知用户] 嗯,这个包我知道。
[未知用户] 很好很强大!
2 个月 后
Stanford出了个研究,表述非常直观,各专业每年的论文之间的距离:
http://nlp.stanford.edu/projects/dissertations/
6 个月 后
[未知用户] 刚发现还有这么个“中国餐馆过程”:
http://en.wikipedia.org/wiki/Chinese_restaurant_process
3 个月 后
您好,我最近刚开始研究LDA在意见挖掘领域的应用。对LDA这个模型,我还是不太懂。
比如说我已经训练好一个LDA模型,现在有一篇新的文档,我想要知道这篇文档的主题。是直接将这篇文档归入训练文档,计算出新的参数,从而知道新文档的主题和主题分布吗?
刚刚研究,提的问题可能很愚蠢,希望得到您的指导!谢谢
你好,我最近也在学习这个东西,源码在什么地方下载了?
6 个月 后
刚用lda做了一个实验,太强大了!抑制不住内心强烈的喜悦,跑出来吐个泡~
[未知用户] 哈哈哈哈
13 天 后