- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【数据挖掘】贝叶斯公式应用拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )

韩曙亮发表于 2022/01/11 01:56:34 2022/01/11

【摘要】文章目录 I . 拼写纠正简介II . 拼写纠正案例需求III . 计算每个假设的概率IV . 引入贝叶斯公式V . 使用贝叶斯公式计算每个假设的概率VI . 比较每个假设概率时 ...

文章目录

I . 拼写纠正简介

1 . 拼写纠正 :

① 应用场景 : 用户输入错误的单词 , 会自动为用户纠正 ;

② 引入贝叶斯方法 : 这里就涉及到了贝叶斯公式的应用 ;

2 . 贝叶斯方法纠正单词 :

① 提出假设 : 首先要猜测用户想要输入的是哪个单词 , 给出几个猜测的可能项 ;

② 计算概率 : 然后计算出每个猜测正确的可能性是多少 ;

③ 选取结果 : 最后将可能性最大的单词确定为用户想要输入的单词 , 自动将错误单词纠正为该单词 ;

3 . 涉及到两个事件概率 :

① 事件 $A$ : 用户实际输入的错误单词 ;

② 事件 $B$ : 猜测用户想要输入某个单词单词 ;

③ 事件转化为公式变量 : 用户实际输入错误单词时 ( 事件 $A$ ) , 猜测用户想要输入的是某个单词的概率 ( 事件 $B$ ) ;

④ 计算公式为 :

$P (猜测用户想要输入的是某个单词 ∣ 用户实际输入单词)$

即 :

$P (B ∣ A)$

单词纠正准确率 : 很明显 ,用户量越大 , 收集的数据越多 , 单词纠正的准确率就越高 ;

II . 拼写纠正案例需求

1 . 用户实际输入错误单词 : $D$ ; ( 实际观测数据 Data )

2 . 猜测用户想要输入的单词 : $H_1 , H_2 , \cdots , H_n$ ; ( 假设 Hypothesis )

III . 计算每个假设的概率

计算每个假设的概率 :

① 用户输入错误单词 $D$ 时 , 想要输入单词 $H_1$ 的概率 : $P ( 用户想要输入单词 H_1 | 用户实际出入错误单词 D )$ , 记做 $P(H_1 | D)$ ;

② 用户输入错误单词 $D$ 时 , 想要输入单词 $H_2$ 的概率 : $P ( 用户想要输入单词 H_2 | 用户实际出入错误单词 D )$ , 记做 $P(H_2 | D)$ ;

$\vdots$

③ 用户输入错误单词 $D$ 时 , 想要输入单词 $H_n$ 的概率 : $P ( 用户想要输入单词 H_n | 用户实际出入错误单词 D )$ , 记做 $P(H_n | D)$ ;

IV . 引入贝叶斯公式

引入贝叶斯公式计算单个猜测的概率 :

① 用户输入错误单词 $D$ 时 , 想要输入单词 $H_1$ 的概率 : $P ( 用户想要输入单词 H_1 | 用户实际出入错误单词 D )$ , 记做 $P(H_1 | D)$ ;

② 逆向概率引入 : $P(H_1 | D)$ 不容易计算出来 , 这里通过其逆向概率计算该概率 ,

③ 引入逆向概率 : $P(D | H_1)$ , 即输入 $H_1$ 单词时 , 输错成 $D$ 的概率 ;

④ 单个事件概率 ( 先验概率 ) : 其中需要知道输入 $H_1$ 单词的概率 $P (H_1)$ , 和输入错误单词 $D$ 的概率 $P (D)$ ;

⑤ 已知概率 : 上述逆向概率 ( 似然概率 ) 和单个事件概率 ( 先验概率 ) , 都可以通过统计学方法得出 ;

$P(H_1 | D) = \frac{ P ( H_1 ) \times P ( D | H_1 ) }{ P( D ) }$

V . 使用贝叶斯公式计算每个假设的概率

使用贝叶斯公式计算每个假设的概率 :

① 用户输入错误单词 $D$ 时 , 想要输入单词 $H_1$ 的概率 : $P(H_1 | D) = \frac{ P ( H_1 ) \times P ( D | H_1 ) }{ P( D ) }$

② 用户输入错误单词 $D$ 时 , 想要输入单词 $H_2$ 的概率 : $P(H_2 | D) = \frac{ P ( H_2 ) \times P ( D | H_2 ) }{ P( D ) }$

$\vdots$

③ 用户输入错误单词 $D$ 时 , 想要输入单词 $H_n$ 的概率 : $P(H_n | D) = \frac{ P ( H_n ) \times P ( D | H_n ) }{ P( D ) }$

VI . 比较每个假设概率时 $P (D)$ 分母可忽略

$P (D)$ 分母可忽略 :

① 观察公式 : 比较上述 $n$ 个概率值 , $P(H_1 | D) , P(H_2 | D) , \cdots , P(H_n | D)$ 之间比较 , 即 $\frac{ P ( H_1 ) \times P ( D | H_1 ) }{ P( D ) } , \frac{ P ( H_2 ) \times P ( D | H_2 ) }{ P( D ) } , \cdots , \frac{ P ( H_n ) \times P ( D | H_n ) }{ P( D ) }$ 之间比较 , 其分母都是 $P (D)$ , 比较时 , 可以忽略该变量 ;

② 忽略概率 : 即输入错误单词 $D$ 的概率可以不用考虑 ;

③ 比较概率 : 只比较公式中的分子即可 : $H_1 ) \times P ( D | H_1 ) , P ( H_2 ) \times P ( D | H_2 ) , \cdots ,P ( H_n ) \times P ( D | H_n )$ 之间进行比较 ;

VII . $H_n ) \times P ( D | H_n )$ 含义

1 . $H_n ) \times P ( D | H_n )$ 含义 :

① $P ( H_n )$ : 表示用户输入 $H_n$ 单词的概率 ; 这个值可以通过统计得出 ;

② $P ( D | H_n )$ : 表示用户输入 $H_n$ 单词时 , 输错成 $D$ 错误单词的概率 ;

2 . $P(H_n , D)$ : $H_n ) \times P ( D | H_n )$ , 其结果是同时输入 $H_n$ 单词和输错成 $D$ 单词的概率 , $P(H_n , D)$ ;

VIII . 先验概率 , 似然概率与后验概率

1 . 先验 ( Prior ) 概率 : 某个假设独立出现的概率 , 是一个单独事件的概率 , 这个概率是已知的 ;

① 已知条件 : 这个对应求解的已知条件 ;

② 示例对应 : 这里对应用户输入 $H_n$ 单词的概率 , 这可以通过统计得出来 ;

2 . 似然 ( Likelihood ) 概率 : 某个假设生成观测到的数据的概率 , 是一个联合概率事件 ;

① 示例对应 : 这里对应 : 用户输入 $H_n$ 单词时 , 输错成 $D$ 错误单词的概率 ; 似然概率又叫条件概率 ;

3 . 后验概率 : 针对提出的多个假设 , 每个假设出现的概率取决于先验概率和似然概率的乘积大小 , 值越大 , 概率越大 ;

① 目标结果 : 这个对应贝叶斯公式的目标结果 ;

② 示例对应 : 这里对应用户实际想要输入的单词 , 即 $H_1 , H_2 , \cdots , H_n$ 中概率最大的那个单词 ;

文章来源: hanshuliang.blog.csdn.net，作者：韩曙亮，版权归原作者所有，如需转载，请联系作者。

原文链接：hanshuliang.blog.csdn.net/article/details/105622347

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )

文章目录

I . 拼写纠正 简介

II . 拼写纠正 案例需求

III . 计算每个假设的概率

IV . 引入 贝叶斯公式

V . 使用贝叶斯公式计算每个假设的概率

VI . 比较每个假设概率时 P ( D ) P(D) P(D) 分母可忽略

VII . P ( H n ) × P ( D ∣ H n ) P ( H_n ) \times P ( D | H_n ) P(Hn​)×P(D∣Hn​) 含义

VIII . 先验概率 , 似然概率 与 后验概率