主题模型 LDA,Dirichlet分布 和朴素贝叶斯算法

举报
毛利 发表于 2021/07/15 09:18:43 2021/07/15
【摘要】 主题模型 主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型。 主题模型主要被用于自然语言处理(Natural language processing)中的语义分析(semantic analysis)和文本挖掘(text mining)问题,例如按...

主题模型

主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型。
主题模型主要被用于自然语言处理(Natural language processing)中的语义分析(semantic analysis)和文本挖掘(text mining)问题,例如按主题对文本进行收集、分类和降维;也被用于生物信息学(bioinfomatics)研究 。隐含狄利克雷分布Latent Dirichlet Allocation, LDA)是常见的主题模型

LDA

2003年,David M.Blei、Andrew Ng和Jordan I. Michael提出了隐含狄利克雷分布(Latent Dirichlet Allocation, LDA) 。LDA得到了广泛使用

举例而言,在“狗”主题中,与该主题有关的字符,例如“狗”、“骨头”等词会频繁出现;在“猫”主题中,“猫”、“鱼”等词会频繁出现。若主题模型在分析一篇文章后得到10%的“猫”主题和“90%”的狗主题,那意味着字符“狗”和“骨头”的出现频率大约是字符“猫”和“鱼”的9倍。

文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。

原文链接:maoli.blog.csdn.net/article/details/89222868

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。