贝叶斯学习举例--学习分类文本

举报
格图洛书 发表于 2021/12/30 22:21:49 2021/12/30
【摘要】 “我感兴趣的电子新闻稿”或“讨论机器学习的万维网页”。在这两种情况下,如果计算机可以精确地学习到目标概念,就可从大量在线文本文档中自动过滤出最相关的文档显示给读者。 这里描述了一个基于朴素贝叶斯分类器的文本分类的通用算法。 将要展示的朴素贝叶斯算法遵循以下的问题背景: 1、考虑实例空间X包含了所有的文本文档(即任意长度的所有...

“我感兴趣的电子新闻稿”或“讨论机器学习的万维网页”。在这两种情况下,如果计算机可以精确地学习到目标概念,就可从大量在线文本文档中自动过滤出最相关的文档显示给读者。

这里描述了一个基于朴素贝叶斯分类器的文本分类的通用算法。

将要展示的朴素贝叶斯算法遵循以下的问题背景:

1、考虑实例空间X包含了所有的文本文档(即任意长度的所有可能的单词和标点符号串)。

2、给定某未知目标函数f(x) 的一组训练样例,f(x)的取值来自于某有限集合V。此任务是从训练样例中学习,以预测后续文本文档的目标值。

作为示例,这里考虑的目标函数是:将文档分类为对某人是否感兴趣,使用目标值likedislike代表这两类。

在应用朴素贝叶斯分类器时包含的两个主要设计问题是:

1、首先要决定怎样将任意文档表示为属性值的形式,

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/26457421

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。