贝叶斯 - 《贝叶斯统计》笔记

举报
竹叶青 发表于 2019/09/03 20:45:14 2019/09/03
【摘要】 第一章 先验分布和后验分布1.1 三种信息 统计学的两个主要学派:频率学派,贝叶斯学派 统计推断的三种信息:1)总体信息:总体分布,总体所属分布族提供的信息。2)样本信息:从总体抽样的样本提供的信息。通过对样本的加工处理对总体特征进行估计。----------------------- 基于以上两种信息的统计推断为“经典统计学”。----------------------- 基本观点:...

top0.97ac691.png

第一章 先验分布和后验分布


1.1 三种信息

 统计学的两个主要学派:频率学派,贝叶斯学派

 统计推断的三种信息:

1)总体信息:总体分布,总体所属分布族提供的信息。

2)样本信息:从总体抽样的样本提供的信息。通过对样本的加工处理对总体特征进行估计。

----------------------- 基于以上两种信息的统计推断为“经典统计学”。

----------------------- 基本观点:把数据(样本)看做总体(具有一定概率分布的总体)

3)先验信息:抽样之前有关统计问题的一些信息。来源于经验和历史资料。

----------------------- 基于以上三种信息的统计推断为“贝叶斯统计学”

 贝叶斯统计重视已经发生的样本观察值。

 贝叶斯学派基本观点:任一未知量θ,都具有不确定性,可以看做一个随机变量,可以用一个概率分布来描述(概率分布适合描述不确定性)。这个概率分布就是θ的先验(Prior)分布(抽样前已知的描述)

如:极有可能是40岁左右。

分析:“极有可能”表示90%的把握。“左右”可理解为上下偏差3岁。假设年龄为未知变量θ,那么对这段话的概率分布描述如下

 

其一、对于未知变量θ可以谈论其概率,如P(37≤θ≤43)=0.9(贝叶斯学派把未知变量看做是随机变量,可以讨论起概率)

而在经典统计学认为未知变量虽然其具体值未知,但是是确定的,因此对于经典统计学,P(37≤θ≤43)=1或0(事件发生或不发生),而不能P(37≤θ≤43)=0.9

其二、这个“极有可能是40岁左右”的概率分布是根据经验推断得到的,而不是根据样本数据得到的。在贝叶斯统计中称为先验概率(主观概率)

而频率学派中不存在主观的推断,只存在从样本数据统计得来的客观频率。

(贝叶斯学派:使用主观概率将概率统计的研究推广到不能大量的重复随机中来)

对于误用主观概率的情况,Berger(1995)给出的建议是:1、进行教育;2、分开列出,以便后人评判。

1.2 贝叶斯公式

 事件形式 

 随机变量的密度函数:

经典统计中记为p(x; θ)或pθ(x),表示在参数空间Θ={θ}中不同的θ对应着不同的分布

贝叶斯统计中记为p(x|θ),表示随机变量θ给定某个值是,x的条件分布。

 先验分布π(θ),贝叶斯学派研究重点

 贝叶斯观点的样本x=(x1,…,xn)产生:

step1、根据先验分布π(θ)产生样本θ’,这一步是老天爷做的,人们看不到。(这是样本产生的假设,假设样本θ’是根据先验分布π(θ)产生的)

step2、从总体分布p(x|θ’)产生一个样本x=(x1,…,xn),这个是人产生的具体样本。得到这个样本的概率由如下概率密度函数描述

  (似然函数)

这个概率密度函数综合了“总体信息”和“样本信息” => 被称为“似然函数”L(θ’)

step3、由于样本θ’的产生是在先验概率π(θ)的假设基础上的,因此不能只考虑θ’一个值,而要考虑全部可能值(概率分布,也就是π(θ)),因此得到样本x和参数θ的联合概率分布h(x|θ)=p(x|θ) π(θ) (综合了三种信息)

 目标:对未知参数θ进行统计推断(估计)

没有样本x之前,只能根据假设(先验分布π(θ))进行推断

得到样本x之后,可依据h(x, θ)进行推断。因此,h(x, θ)可以分解为两部分:与θ有关的π(θ|x)和与θ无关的m(x)。也就是h(x|θ)= π(θ|x)m(x)。

m(x)为x的边缘概率密度函数,与θ无关(不包含任何θ信息) 

因此只能由π(θ|x)对θ作出推断,π(θ|x)为给定样本x情况下θ的分布(后验分布:集中了总体、样本、先验三种信息,排除了无关信息后得到的)

 概率密度函数形式

θ为连续随机变量 

θ为离散随机变量 

 后验分布π(θ|x):三种信息的综合,利用总体信息+样本信息(综合称为抽样信息)对先验分布π(θ)作出调整得到。

 贝叶斯假设:在对事件A没有了解的情况下,假设先验分布为(0,1)上的均匀分布U(0,1),(没一点机会均等,没有偏爱)。

 实例1:后验概率估计

Step1、先验概率:对事件A没有了解,根据贝叶斯假设,其先验概率为均匀分布U(0,1)

        

Step2、似然函数:n次独立观察,事件A出现次数为X,显然独立重复试验中A服从二项分布b(n,θ),(假设事件A出现的概率为θ,π(A)= θ)

        

Step3、联合概率分布h(x|θ)=p(x|θ) π(θ)

        

Step4、边缘概率:将联合概率分布对θ积分求出x的边缘概率m(x)

       

Step5、后验概率       

 实例2、后验概率估计(验证决策的真实可信度)

 实例3、样本x对先验π(A)的影响 

1.3 共轭先验分布

 定义:设θ是总体分布的参数,π(θ)是θ的先验密度函数。假如后验密度函数π(θ|x)与先验密度函数π(θ)有相同的函数形式,那么π(θ)为θ的共轭先验函数。

 共轭先验分布指对某一分布中的参数而言(如正态分布的均值,正态分布的方差,泊松分布的方差),离开参数及其所在分布谈是没有意义的。

 后验分布计算:π(θ|x)= p(x|θ) π(θ)/ m(x),由于m(x)与θ无关,仅是一个正则化因子(常数),则贝叶斯公式等价于π(θ|x)∝p(x|θ) π(θ)

1.4 超参数及其确定

 超参数:先验分布中位置的参数

 一般共轭先验分布(有信息先验分布)含有超参数,无信息先验分布不含超参数。

1.5 多参数模型

1.6 充分统计量

 定义:设x=(x1,…,xn)是来自分布函数F(x|θ)的一个样本,T=T(x)是其统计量,假如在给定T(x)=t的条件下,x的条件分布于θ无关,则T为θ的充分统计量。

 验证:判别充分条件:(经典统计)因子分解定理;(贝叶斯统计)

第二章 贝叶斯推断

 未知参数θ的后验分布π(θ|x)包含了总体、样本、先验三种信息(所有可利用信息)。统计推断(点估计、区间估计、假设检验等)都是从这个后验分布中提取信息,来完成推断的。

2.1 条件方法

 条件观点:只考虑已出现的数据(样本观察值),而认为未出现的数据与推断无关。

 条件方法:基于条件观点进行统计推断。

 举例:贝叶斯推断不考虑无偏性。

2.2 (点)估计

 贝叶斯估计:

目的:估计总体分布p(x|θ)的参数θ。

方法:

Step1、抽取样本x=(x1,…,xn)

Step2、选择先验分布π(θ)

Step3、计算后验分布π(θ|x)

Step4、选用后验分布的某个位置特征量(众数、中位数、期望值)作为参数θ的估计值

 最大后验估计θMD:选取后验分布π(θ|x)的最大值

后验中位数估计θMe:选取后验分布π(θ|x)的中位数

后验期望估计θR:选取后验分布π(θ|x)的期望值

 对于先验分布为二项分布((0,1)上的均匀分布U(0,1))的θ来说,就是经典统计中的极大似然估计。

 贝叶斯估计误差

在样本给定后,贝叶斯估计θ~就是一个数值,按照后验分布π(θ|x)取值的=>因此采用θ对θ~的后验均方差((θ-θ~)^2的期望)来度量估计误差

 (θ~的后验均方差)

其中Eθ|x表示用条件分布π(θ|x)求期望。

 当θ~等于后验均值时,θ~的后验均方差最小,因此常取后验均值作为贝叶斯估计。

 θ~的后验均方差值依赖于样本,不依赖于θ,样本给定之后就是数值,可以立即应用。

 后验均方差与后验方差的关系MSE(θ~|x)=Var(θ|x)+( θ~E-θ~)^2,θ~E=E(θ|x)为后期望

2.3 区间估计

 定义

 在条件方法下,给定样本x和可信水平1-α通过后验分布可求得可行区间。

如θ的可信水平为0.9的可信区间为[1.5,2.6],那么P(1.5≤θ≤2.6|x)=0.9(θ属于这个区间的概率是0.9)

这在经典统计中的置信区间是不允许的,要么在,要么不在。

2.4 假设检验

 贝叶斯假设检验

Step1、建立原假设H0,被择假设H1

       (Θ0和Θ1是参数空间Θ中的两个不相交非空子集)

Step2、获得后验分布概率π(θ|x),计算H0和H1的后验概率    

Step3、计算后验概率比

     α0/α1 > 1:接收H0

     α0/α1 < 1:接收H1

     α0/α1 ~= 1:不做判决,需要进一步抽样或收集先验信息

 贝叶斯因子:依赖于数据x和先验分布π

2.5 预测

 含义:对随机变量未来的观察值的统计推断。

 设随机变量X ~ p(x|θ),根据有无观察值x分为两种情况

 无观察值:利用先验分布π(θ)获得数据x的分布,即“边缘分布”,或“先验预测分布”

对过去数据没有要求,使用m(x)的某个特征值(期望、中位数、众数等)作为x的预测值

或使用预测区间pm(a≤X≤b)=0.9(pm表示使用分布m(x)来计算概率)

 有观察值:x=(x1,…,xn),利用后验分布π(θ|x)获得未知观察值的分布。预测总体g(z|θ)

m(z|x)称为“后验预测分布”

2.6 似然原理

 似然函数:

样本x=(x1,…,xn)是来自密度函数p(x|θ)的一个样本,则其乘积为

 当参数θ给定时,p(x|θ)是样本x的联系概率密度函数

 当观测值x给定时,p(x|θ)是未知参数θ的似然函数L(θ)

 似然函数是θ的函数,样本x指示一组数据。所有与θ有关的信息都包含在L(θ)中。

 θ使L(θ)越大,则这个θ越接近于真实值。

 极大似然估计:在参数空间Θ中找到θ使L(θ)取到最大值 –> 这个值最接近于真实值

第三章 先验分布的确定

3.1 主观概率

 贝叶斯统计中:使用历史资料和经验确定先验分布式一个重要的研究问题。

 贝叶斯学派认为:一个事件的概率是人们根据经验对该时间发生可能性给出的信念 -- 主观概率

频率学派认为:一个事件的概率必须得到频率解释 – 客观概率

 主观概率必须满足三条公理

3.2 利用先验信息确定先验分布

 直方图法

 选定先验密度函数再估计超参数

 定分度法、变分度法

3.3 利用边缘概率m(x)确定先验密度请求2

3.4 无信息先验分布

 贝叶斯假设:无信息分布用均匀分布做先验。参数空间中任何值概率均等,没有偏爱。

3.5 多层先验

 当先验分布的超参数难以确定是,可以对超参数再给出一个先验(超先验);由先验和超先验决定的新的先验就是多层先验。

第四章 决策中的收益、损失与效用

4.1 决策为题的三要素

 决策过程分为两部分:

(1) 把决策叙述清楚

(2) 如何决策使收益最大

 状态集Θ={θ}。其中每个元素θ表示一种可能的状态,所有可能状态组成状态集。

行动集A={a}。其中每个元素a表示一种可能的行动,有可能行动组成行动集。

收益函数Q(θ,a).在状态θ,行动a情况下的收益大小。

 做决策:在当前状态θ下,从行动集中选取行动a,使收益Q最大。

4.2 决策准则

 剔除不必要行动:若在状态集Θ上,处处有Q(θ,a1)≥Q(θ,a2),那么a2没必要存在(a2行动不允许)。 

 悲观准则:保守准则,在最不利的状态下能够争取较多的利益

Step1、对每个行动选取最小收益。

Step2、在选出的最小收益中选出最大值 –> 采用这个最大值所对应的行动

 乐观准则:冒险准则,在最有利的状态下能够争取最多的利益

Step1、对每个行动选取最大收益。

Step2、在选出的最大收益中选出最大值 –> 采用这个最大值所对应的行动

 折中准则:赫维斯(Hurwicz)准则

Step1、选取乐观系数a∈[0,1],表示决策者的乐观程度,越接近于1越乐观。

Step2、计算每个行动a的评价函数H(a)

        :行动a的最大收益

        :行动a的最小收益

Step3、选取最优行动a0       

4.3 先验期望准则

4.4 损失函数

 含义:该赚的钱没赚到。本应该采取行动a1收益A1,然而采取了a2收益为-A2,那么损失为A1+A2。

 定义:状态集Θ,行动集A,损失函数L(θ,a)

 悲观准则:保守策略,最小化损失

Step1、选取每个行动的最大损失值 

Step2、从最大损失值中选出最小值 .

 先验期望准则:

4.6 效用函数

 含义:度量收益和损失效果的函数,比如显示问题中的货币,这个函数衡量了一个单位的收益或损失对应的正真价值。

 效用测定:冯·诺依曼的“新效应理论”

第五章 贝叶斯决策

5.1 决策问题

 可供决策使用的两种信息:

先验信息:人们在过去对各种状态发生可能性的认识。

抽样信息(实验信息):将状态θ放到环境中观察实验(抽样),从获得的样本中得到状态θ的最新信息。

 三种决策和两类信息的关系(●使用,◌不使用)

5.2 后验风险准则

 后验风险:用后验分布计算损失函数的期望(在后验分布下的平均损失),记为R(a|x)=Eθ|x[L(θ,a)]

在给定样本x下,不同的行动a带来不同的后验风险

在确定的行动a下,不同的样本x带来不同的后验风险。

 决策函数:从样本空间X到行动集A的映射函数δ(x),所有映射构成决策函数类D={δ(x)}

 后验风险准则:决策函数δ(x)的后验风险R(δ|x)=Eθ|x[L(θ, δ(x))]   

 贝叶斯决策函数:在决策函数类D={δ(x)}中具有最小后验风险的决策函数δ’(x)为最优决策函数  (贝叶斯估计)

5.3 三个前提

(1)样本空间的联合概率密度函数p(x|θ)

(2)参数空间Θ的先验分布π(θ)

(3)定义在Θ*A上的损失函数L(θ,a)

5.4 抽样信息的期望值

 为了消除收集抽样信息的麻烦

 完全信息:决策者掌握的信息能够肯定状态即将发生,该信息称为完全信息。

 完全信息先验期望:a’为先验期望准则下的最优行动,那么在a’下的损失函数的先验期望EVPI=EθL(θ,a’)为完全信息先验期望(记为 “先验EVPI”)(表示决策者能够掌握完全信时的期望损失)。

 完全信息的后验期望:后验EVPI= Eθ|xL(θ, δ’(x))。

 后验EVPI只有在给定样本x时才能计算。在抽样还没有发生(没有获得样本x)时,后验EVPI仍然是一个随机变量。

后验EVPI期望= Ex (Eθ|xL(θ, δ’(x)))

 一般来说,抽样值(样本x)的获得会掌握更多信息,后验EVPI期望将减小 -> 这个减小的量就是抽样信息期望EVSI(样本带来的信息量的期望)

EVSI=先验EVPI-后验EVPI期望 (EVSI= EθL(θ,a’) - Ex (Eθ|xL(θ, δ’(x))))


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。