贝叶斯算法对文本进行分类实例

举报
毛利 发表于 2021/07/15 06:14:50 2021/07/15
【摘要】 贝叶斯算法中最重要用的用的最广的是 使用多项式朴素贝叶斯的地方是文本分类,其中特征与待分类文档中的字数或频率有关。 将使用20个新闻组语料库中的稀疏字数功能来将这些短文档分类。 数据集的介绍 使用 sklearn.datasets中的 fetch_20newsgroups 该数据集介绍 20 newsgroups数据集18000篇新闻文章,一共涉及到20种话...

贝叶斯算法中最重要用的用的最广的是

使用多项式朴素贝叶斯的地方是文本分类,其中特征与待分类文档中的字数或频率有关。

将使用20个新闻组语料库中的稀疏字数功能来将这些短文档分类。

数据集的介绍

使用 sklearn.datasets中的 fetch_20newsgroups

该数据集介绍

20 newsgroups数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups text dataset,分文两部分:训练集和测试集,通常用来做文本分类.

详细可看
https://blog.csdn.net/imstudying/article/details/77876159

开始

from sklearn.datasets import fetch_20newsgroups
data = fetch_20newsgroups()
data.target_names

  
 
  • 1
  • 2
  • 3
['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。

原文链接:maoli.blog.csdn.net/article/details/90734455

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。