数据挖掘 --- 统计学知识之负二项分布

举报
Ghostian 发表于 2021/06/24 11:19:28 2021/06/24
【摘要】

负二项分布

负二项分布是统计学上一种描述在一系列独立同分布的伯努利试验中,成功次数到达指定次数(记为r)时失败次数的离散概率分布。
比如,如果我们定义掷骰子随机变量 x x 值为 x = 1 x=1 时为成功,所有 1 1 1\neq1 为失败,这时我们反复掷骰子直到1出现3次(成功次数 r = 3 r=3 ),此时非1数字出现次数的概率分布即为负二项分布。

定义

若每次伯努利试验有两种可能的结果,分别为成功或者失败。在每次试验中,成功的概率为p,失败的概率为 1 p 1-p 。反复进行该伯努利试验,直到观察到第 r r 次成功发生。此时试验失败次数 X X 的分布即为负二项分布(或称帕斯卡分布),那么:若随机变量 X X 服从参数为 r r p p 的负二项分布,则记为 X N B ( r , p ) X \sim NB(r,p) .

举几个例子:

  • 我们可以使用负二项分布描述某种机器在坏掉前,能够工作的天数的分布。此时,“成功”的事件可以指机器正常工作一天,“失败”的事件可以指机器故障的一天。
  • 如果我们使用负二项分布来描述运动员在获取r个奖牌前尝试的次数的分布,此时,“失败”的事件指运动员的一次尝试,“成功”的事件指运动员获取一枚奖牌。
  • 如果使用负二项分布来描述掷一枚硬币出现r次正面前,出现硬币反面的次数的分布,“成功”的事件指出现硬币的正面,“失败”的事件指出现硬币的反面。

r r 是整数时的负二项分布又称帕斯卡分布,其概率质量函数为:

f ( k ; r , p ) P r ( X = k ) = ( k + r 1 r 1 ) p r ( 1 p ) k f o r k = 1 , 2 , 3 , . . . f(k;r,p)\equiv{Pr(X=k)}=\binom{k+r-1}{r-1}p^r{(1-p)^k} \quad for \quad k = 1,2,3,...

其中 k k 是失败的次数, r r 是成功的次数, p p 是事件成功的概率。在负二项分布的概率质量函数中,由于 k + r k+r 次伯努利试验为独立同分布,每个成功 r r 次、失败 k k 次的事件的概率为 ( 1 p ) k p r {(1 − p)}^kp^r 。由于第 r r 次成功一定是最后一次试验,所以应该在 k + r 1 k+r-1 次试验中选择 r 1 r-1 次成功,使用排列组合二项系数获取所有可能的选择数。

负二项分布密度函数图

二项系数和负二项名称的来源

上述公式中括号中的公式即为二项系数表达式

( k + r 1 r 1 ) = ( k + r 1 ) ! ( k ) ! ( r 1 ) ! = ( k + r 1 ) ( k + r 2 ) ( r ) ( k ) ! \binom{k+r-1}{r-1} =\frac{(k+r-1)!}{(k)!(r-1)!} =\frac{(k+r-1)(k+r-2)\cdots(r)}{(k)!}

该表达式可以写成带负值参数的二项系数的形式,如下式所示,解释了“负二项”名称的来源

( k + r 1 ) ( k + r 2 ) ( r ) ( k ) ! = ( 1 ) k ( r ) ( r 1 ) ( r 2 ) ( r k + 1 ) k ! = ( 1 ) k ( r k ) \frac{(k+r-1)(k+r-2)\cdots(r)}{(k)!} ={(-1)}^k\frac{(-r)(-r-1)(-r-2)\cdots(-r-k+1)}{k!}={(-1)}^k\binom{-r}{k}

概率质量函数对所有可能k值求和为1

帕斯卡分布概率质量函数f(k;r,p)对所有可能k值求和,一定等于1:

k = 0 ( k + r 1 k ) p r q k = 1 \sum_{k=0}^{\infty}\binom{k+r-1}{k}p^rq^k=1

证明如下:

1 = p r p r = p r ( 1 q ) r = p r k = 0 ( r k ) ( q ) k = p r k = 0 1 k ( r k ) ( q ) k = k = 0 1 k ( k + r 1 k ) p r q k \begin{aligned} 1&=p^rp^{-r} \\ &=p^r{(1-q)}^{-r} \\ &=p^r\sum_{k=0}^{\infty}\binom{-r}{k}{(-q)}^k \\ &=p^r\sum_{k=0}^{\infty}{-1}^k\binom{-r}{k}{(q)}^k \\ &=\sum_{k=0}^{\infty}{-1}^k\binom{k+r-1}{k}p^rq^k \end{aligned}

其中第三步用到了二项序列展开。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。