LDA主题模型简介

COSeditor · 2010年10月8日

https://cos.name/2010/10/lda_topic_model/

bjt · 2010年10月8日

如果有个例子就更好啦：）

范建宁 · 2010年10月8日

我给的Latent Dirichlet Allocation链接里的那篇论文中的第6、7小节就有活生生的例子啦～

yihui · 2010年10月9日

从英文世界跨到中文世界，首先就要迈过分词这一关，英文有天然的分隔符（空格），中文没有。上次李舰介绍的中文分词工具中有开源产品（忘记名字了），不妨拿来具体试试看。

Feng-no_spam · 2010年10月9日

[未知用户] 不错。我来补充一下，这种模型最难懂的地方是Dirichlet process prior. 也就是把一个随机过程作为prior。Dirichlet process是描述这样的一个过程，假设有一个中国餐馆，里面有无限多的桌子，中国人三五成群进来，咱中国人有扎堆的喜好，所以每进来一个人都会看已经坐下的里有没有自己的伙伴，如果有而且那个桌子还有空位子，那么就坐下来，如果没有位子了，只好新开一个桌子。这个过程其实是一个聚类的过程，如果用模型描述那么其实就是一个infinite mixture model.

这样的模型优点在于你再也不需要指定你要聚多少类，单个样本到底该规为哪一类了。缺点是计算量会变得巨大，因为你每次都需要模拟Dirichlet process。

如果大家有兴趣可以读一些关于Dirichlet process的书，了解一下Pólya's urn, stick-breaking process什么的。也可以看一些以前Michael I. Jordan关于机器学习的文章，，David B Dunson 关于 Latent variable methods 的文章。

fan · 2010年10月9日

[未知用户] 不知道是不是这个东东：ICTCLAS（http://ictclas.org/）？

bootstrap · 2010年10月9日

[未知用户] 这玩意太慢

bensonwu · 2010年10月13日

下面的贴子里有中文分词的例子，还有用支持向量机文本挖掘的例子。
http://cos.name/cn/topic/102130

bensonwu · 2010年10月13日

topicmodels包(依赖tm包)貌拟也可实现这个功能，不过没用过。

fan · 2010年10月13日

[未知用户] 嗯，这个包我知道。

fan · 2010年10月13日

[未知用户] 很好很强大！

yihui · 2010年12月8日

Stanford出了个研究，表述非常直观，各专业每年的论文之间的距离：
http://nlp.stanford.edu/projects/dissertations/

yihui · 2011年5月25日

[未知用户] 刚发现还有这么个“中国餐馆过程”：
http://en.wikipedia.org/wiki/Chinese_restaurant_process

Feng-no_spam · 2011年5月25日

[未知用户] 其实还有个 Indian buffet process。

mary-lindan_xmu · 2011年9月2日

您好，我最近刚开始研究LDA在意见挖掘领域的应用。对LDA这个模型，我还是不太懂。
比如说我已经训练好一个LDA模型，现在有一篇新的文档，我想要知道这篇文档的主题。是直接将这篇文档归入训练文档，计算出新的参数，从而知道新文档的主题和主题分布吗？
刚刚研究，提的问题可能很愚蠢，希望得到您的指导！谢谢

王珍珍 · 2011年9月6日

你好，我最近也在学习这个东西，源码在什么地方下载了？

姜晓伟 · 2012年3月13日

刚开始学习LDA，学习一下~~

bjt · 2012年3月16日

刚用lda做了一个实验，太强大了！抑制不住内心强烈的喜悦，跑出来吐个泡～

fan · 2012年3月16日

[未知用户] 哈哈哈哈

高海东 · 2012年3月29日

同研究LDA，来冒个泡。呵呵。