0


基于Dirichlet树分布的主题建模

Incorporating Domain Knowledge into Topic Modeling via Dirichlet Forest Priors
课程网址: http://videolectures.net/icml09_andrzejewski_idk/  
主讲教师: David Andrzejewski
开课单位: 威斯康星大学
开课时间: 2009-08-26
课程语种: 英语
中文简介:

主题建模方法的用户通常具有有关单词组成的知识,这些单词在各个主题中的概率应该很高或很低。我们在潜在Dirichlet分配框架中使用新颖的Dirichlet森林整合了此类领域知识。先验是Dirichlet树分布与特殊结构的混合。我们介绍它的构造,并通过折叠的吉布斯采样进行推断。在合成数据集和真实数据集上进行的实验表明,我们的模型具有超越用户指定的领域知识进行跟踪和推广的能力。

课程简介: Users of topic modeling methods often have knowledge about the composition of words that should have high or low probability in various topics. We incorporate such domain knowledge using a novel Dirichlet Forest prior in a Latent Dirichlet Allocation framework. The prior is a mixture of Dirichlet tree distributions with special structures. We present its construction, and inference via collapsed Gibbs sampling. Experiments on synthetic and real datasets demonstrate our model’s ability to follow and generalize beyond userspecified domain knowledge.
关 键 词: Dirichlet 树分布; Dirichlet分配框架; 主题建模; 吉布斯采样
课程来源: 视频讲座网
数据采集: 2020-04-07:zhouxj
最后编审: 2020-05-25:cxin
阅读次数: 76