LDA主题模型——gensim实战

举报
格图洛书 发表于 2021/11/19 01:04:52 2021/11/19
【摘要】 今天我们来谈谈主题模型(Latent Dirichlet Allocation),由于主题模型是生成模型,而我们常用的决策树,支持向量机,CNN等常用的机器学习模型的都是判别模型。所以笔者首先简单介绍一下判别模型和生成模型。下面笔者列出了生成模型和判别模型的核心区别: 判别模型:估计的是条件概率分布(conditional dis...

今天我们来谈谈主题模型(Latent Dirichlet Allocation),由于主题模型是生成模型,而我们常用的决策树,支持向量机,CNN等常用的机器学习模型的都是判别模型。所以笔者首先简单介绍一下判别模型和生成模型。下面笔者列出了生成模型和判别模型的核心区别:

  • 判别模型:估计的是条件概率分布(conditional distribution)—— 作为预测模型。
  • 生成模型:估计的是联合概率分布(joint probability distribution)—— ,然后根据贝叶斯公式   求出条件概率分布 作为预测模型

简单的说:

  • 判别模型只需要学习特征x,从而就可以去预测类别y。做预测时是判断新数据属于哪个类别的概率最大,进而确定新数据的类别,判别模型寻找不同类别之间的最优分类面,反映的是异类数据之间的差异

  • 而生成模型学得是各个类别y,和各自的特征x(即可看成学得多个模型),做预测时是判断新数据和已知类别中的哪个最为接近,进而确定新数据的类别,生成模型能够反映同类数据本身的相似度

由于生产模型学习的是特征x和类别y的联合分布,所以相较于判别模型更为复杂。当建模过程中存在隐变量是,判别模型就无能为力了,而此时生成模型依然能够发挥作用。高斯混合模型(隐变量是类别)和今天的笔者要介绍的主题模型(隐变量是主题)就是属于含有隐变量的生成模型

主题模型简介

主题模

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/107337007

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。