Deep Learning Chapter01:机器学习中概率论
好久不见,大家好,我是北山啦。机器学习当中需要用到许多的数学知识,如今博主又要继续踏上深度学习的路程,所以现在在网上总结了相关的考研数学和机器学习中常见相关知识如下,希望对大家有所帮助。
概率论和数理统计
随机事件和概率
1.事件的关系与运算
(1) 子事件:
A⊂B,若
A发生,则
B发生。
(2) 相等事件:
A=B,即
A⊂B,且
B⊂A 。
(3) 和事件:
A⋃B(或
A+B),
A与
B中至少有一个发生。
(4) 差事件:
A−B,
A发生但
B不发生。
(5) 积事件:
A⋂B(或
AB),
A与
B同时发生。
(6) 互斥事件(互不相容):
A⋂B=
∅。
(7) 互逆事件(对立事件):
A⋂B=∅,A⋃B=Ω,A=Bˉ,B=Aˉ
2.运算律
(1) 交换律:
A⋃B=B⋃A,A⋂B=B⋂A
(2) 结合律:
(A⋃B)⋃C=A⋃(B⋃C)
(3) 分配律:
(A⋂B)⋂C=A⋂(B⋂C)
3.德$\centerdot $摩根律
A⋃B=Aˉ⋂Bˉ
A⋂B=Aˉ⋃Bˉ
4.完全事件组
A1A2⋯An两两互斥,且和事件为必然事件,即${{A}{i}}\bigcap {{A}{j}}=\varnothing, i\ne j ,\underset{i=1}{\overset{n}{\mathop \bigcup }},=\Omega $
5.概率的基本公式
(1)条件概率:
P(B∣A)=P(A)P(AB),表示
A发生的条件下,
B发生的概率。
(2)全概率公式:
$P(A)=\sum\limits_{i=1}^{n}{P(A|{{B}{i}})P({{B}{i}}),{{B}{i}}{{B}{j}}}=\varnothing ,i\ne j,\underset{i=1}{\overset{n}{\mathop{\bigcup }}},{{B}_{i}}=\Omega $
(3) Bayes公式:
P(Bj∣A)=i=1∑nP(A∣Bi)P(Bi)P(A∣Bj)P(Bj),j=1,2,⋯,n
注:上述公式中事件
Bi的个数可为可列个。
(4)乘法公式:
P(A1A2)=P(A1)P(A2∣A1)=P(A2)P(A1∣A2)
P(A1A2⋯An)=P(A1)P(A2∣A1)P(A3∣A1A2)⋯P(An∣A1A2⋯An−1)
6.事件的独立性
(1)
A与
B相互独立
⇔P(AB)=P(A)P(B)
(2)
A,
B,
C两两独立
⇔P(AB)=P(A)P(B);
P(BC)=P(B)P(C) ;
P(AC)=P(A)P(C);
(3)
A,
B,
C相互独立
⇔P(AB)=P(A)P(B);
P(BC)=P(B)P(C) ;
P(AC)=P(A)P(C) ;
P(ABC)=P(A)P(B)P(C)
7.独立重复试验
将某试验独立重复
n次,若每次实验中事件A发生的概率为
p,则
n次试验中
A发生
k次的概率为:
P(X=k)=Cnkpk(1−p)n−k
8.重要公式与结论
(1)P(Aˉ)=1−P(A)
(2)P(A⋃B)=P(A)+P(B)−P(AB)
P(A⋃B⋃C)=P(A)+P(B)+P(C)−P(AB)−P(BC)−P(AC)+P(ABC)
(3)P(A−B)=P(A)−P(AB)
(4)P(ABˉ)=P(A)−P(AB),P(A)=P(AB)+P(ABˉ),
P(A⋃B)=P(A)+P(AˉB)=P(AB)+P(ABˉ)+P(AˉB)
(5)条件概率
P(⋅∣B)满足概率的所有性质,
例如:.
P(Aˉ1∣B)=1−P(A1∣B)
P(A1⋃A2∣B)=P(A1∣B)+P(A2∣B)−P(A1A2∣B)
P(A1A2∣B)=P(A1∣B)P(A2∣A1B)
(6)若
A1,A2,⋯,An相互独立,则
P(i=1⋂nAi)=i=1∏nP(Ai),
P(i=1⋃nAi)=i=1∏n(1−P(Ai))
(7)互斥、互逆与独立性之间的关系:
A与
B互逆
⇒
A与
B互斥,但反之不成立,
A与
B互斥(或互逆)且均非零概率事件$\Rightarrow $$A
与B
不独立.(8)若{{A}{1}},{{A}{2}},\cdots ,{{A}{m}},{{B}{1}},{{B}{2}},\cdots ,{{B}{n}}
相互独立,则f({{A}{1}},{{A}{2}},\cdots ,{{A}{m}})
与g({{B}{1}},{{B}{2}},\cdots ,{{B}{n}})
也相互独立,其中f(\centerdot ),g(\centerdot )$分别表示对相应事件做任意事件运算后所得的事件,另外,概率为1(或0)的事件与任何事件相互独立.
随机变量及其概率分布
1.随机变量及概率分布
取值带有随机性的变量,严格地说是定义在样本空间上,取值于实数的函数称为随机变量,概率分布通常指分布函数或分布律
2.分布函数的概念与性质
定义:
F(x)=P(X≤x),−∞<x<+∞
性质:(1)
0≤F(x)≤1
(2)
F(x)单调不减
(3) 右连续
F(x+0)=F(x)
(4)
F(−∞)=0,F(+∞)=1
3.离散型随机变量的概率分布
P(X=xi)=pi,i=1,2,⋯,n,⋯pi≥0,∑i=1∞pi=1
4.连续型随机变量的概率密度
概率密度
f(x);非负可积,且:
(1)
f(x)≥0,
(2)
∫−∞+∞f(x)dx=1
(3)
x为
f(x)的连续点,则:
f(x)=F′(x)分布函数
F(x)=∫−∞xf(t)dt
5.常见分布
(1) 0-1分布:
P(X=k)=pk(1−p)1−k,k=0,1
(2) 二项分布:
B(n,p):
P(X=k)=Cnkpk(1−p)n−k,k=0,1,⋯,n
(3) Poisson分布:
p(λ):
P(X=k)=k!λke−λ,λ>0,k=0,1,2⋯
(4) 均匀分布
U(a,b):$f(x) = { \begin{matrix} & \frac{1}{b - a},a < x< b \ & 0, \ \end{matrix} $
(5) 正态分布:
N(μ,σ2):
φ(x)=2π
σ1e−2σ2(x−μ)2,σ>0,∞<x<+∞
(6)指数分布:$E(\lambda):f(x) ={ \begin{matrix} & \lambda e^{-{λx}},x > 0,\lambda > 0 \ & 0, \ \end{matrix} $
(7)几何分布:
G(p):P(X=k)=(1−p)k−1p,0<p<1,k=1,2,⋯.
(8)超几何分布:
H(N,M,n):P(X=k)=CNnCMkCN−Mn−k,k=0,1,⋯,min(n,M)
6.随机变量函数的概率分布
(1)离散型:
P(X=x1)=pi,Y=g(X)
则:
P(Y=yj)=∑g(xi)=yiP(X=xi)
(2)连续型:
X ~fX(x),Y=g(x)
则:
Fy(y)=P(Y≤y)=P(g(X)≤y)=∫g(x)≤yfx(x)dx,
fY(y)=FY′(y)
7.重要公式与结论
(1)
X∼N(0,1)⇒φ(0)=2π
1,Φ(0)=21,
Φ(−a)=P(X≤−a)=1−Φ(a)
(2)
X∼N(μ,σ2)⇒σX−μ∼N(0,1),P(X≤a)=Φ(σa−μ)
(3)
X∼E(λ)⇒P(X>s+t∣X>s)=P(X>t)
(4)
X∼G(p)⇒P(X=m+k∣X>m)=P(X=k)
(5) 离散型随机变量的分布函数为阶梯间断函数;连续型随机变量的分布函数为连续函数,但不一定为处处可导函数。
(6) 存在既非离散也非连续型随机变量。
多维随机变量及其分布
1.二维随机变量及其联合分布
由两个随机变量构成的随机向量
(X,Y), 联合分布为
F(x,y)=P(X≤x,Y≤y)
2.二维离散型随机变量的分布
(1) 联合概率分布律
P{X=xi,Y=yj}=pij;i,j=1,2,⋯
(2) 边缘分布律
pi⋅=∑j=1∞pij,i=1,2,⋯
p⋅j=∑i∞pij,j=1,2,⋯
(3) 条件分布律
P{X=xi∣Y=yj}=p⋅jpij
P{Y=yj∣X=xi}=pi⋅pij
3. 二维连续性随机变量的密度
(1) 联合概率密度
f(x,y):
-
f(x,y)≥0
-
∫−∞+∞∫−∞+∞f(x,y)dxdy=1
(2) 分布函数:
F(x,y)=∫−∞x∫−∞yf(u,v)dudv
(3) 边缘概率密度:
fX(x)=∫−∞+∞f(x,y)dy
fY(y)=∫−∞+∞f(x,y)dx
(4) 条件概率密度:
fX∣Y(x∣y)=fY(y)f(x,y)
fY∣X(y∣x)=fX(x)f(x,y)
4.常见二维随机变量的联合分布
(1) 二维均匀分布:
(x,y)∼U(D) ,
f(x,y)={S(D)1,(x,y)∈D0,其他
(2) 二维正态分布:
(X,Y)∼N(μ1,μ2,σ12,σ22,ρ),
(X,Y)∼N(μ1,μ2,σ12,σ22,ρ)
f(x,y)=2πσ1σ21−ρ2
1.exp{2(1−ρ2)−1[σ12(x−μ1)2−2ρσ1σ2(x−μ1)(y−μ2)+σ22(y−μ2)2]}
5.随机变量的独立性和相关性
X和
Y的相互独立:
⇔F(x,y)=FX(x)FY(y):
⇔pij=pi⋅⋅p⋅j(离散型)
⇔f(x,y)=fX(x)fY(y)(连续型)
X和
Y的相关性:
相关系数
ρXY=0时,称
X和
Y不相关,
否则称
X和
Y相关
6.两个随机变量简单函数的概率分布
离散型:
P(X=xi,Y=yi)=pij,Z=g(X,Y) 则:
P(Z=zk)=P{g(X,Y)=zk}=∑g(xi,yi)=zkP(X=xi,Y=yj)
连续型:
(X,Y)∼f(x,y),Z=g(X,Y)
则:
Fz(z)=P{g(X,Y)≤z}=∬g(x,y)≤zf(x,y)dxdy,
fz(z)=Fz′(z)
7.重要公式与结论
(1) 边缘密度公式:
fX(x)=∫−∞+∞f(x,y)dy,
fY(y)=∫−∞+∞f(x,y)dx
(2)
P{(X,Y)∈D}=∬Df(x,y)dxdy
(3) 若
(X,Y)服从二维正态分布
N(μ1,μ2,σ12,σ22,ρ)
则有:
-
X∼N(μ1,σ12),Y∼N(μ2,σ22).
-
X与
Y相互独立
⇔ρ=0,即
X与
Y不相关。
-
C1X+C2Y∼N(C1μ1+C2μ2,C12σ12+C22σ22+2C1C2σ1σ2ρ)
-
X关于
Y=y的条件分布为:
N(μ1+ρσ2σ1(y−μ2),σ12(1−ρ2))
-
Y关于
X=x的条件分布为:
N(μ2+ρσ1σ2(x−μ1),σ22(1−ρ2))
(4) 若
X与
Y独立,且分别服从
N(μ1,σ12),N(μ1,σ22),
则:
(X,Y)∼N(μ1,μ2,σ12,σ22,0),
C1X+C2Y ~N(C1μ1+C2μ2,C12σ12C22σ22).
(5) 若
X与
Y相互独立,
f(x)和
g(x)为连续函数, 则
f(X)和
g(Y)也相互独立。
随机变量的数字特征
1.数学期望
离散型:
P{X=xi}=pi,E(X)=∑ixipi;
连续型:
X∼f(x),E(X)=∫−∞+∞xf(x)dx
性质:
(1)
E(C)=C,E[E(X)]=E(X)
(2)
E(C1X+C2Y)=C1E(X)+C2E(Y)
(3) 若
X和
Y独立,则
E(XY)=E(X)E(Y)
(4)
[E(XY)]2≤E(X2)E(Y2)
2.方差:
D(X)=E[X−E(X)]2=E(X2)−[E(X)]2
3.标准差:
D(X)
,
4.离散型:
D(X)=∑i[xi−E(X)]2pi
5.连续型:
D(X)=∫−∞+∞[x−E(X)]2f(x)dx
性质:
(1)
D(C)=0,D[E(X)]=0,D[D(X)]=0
(2)
X与
Y相互独立,则
D(X±Y)=D(X)+D(Y)
(3)
D(C1X+C2)=C12D(X)
(4) 一般有
D(X±Y)=D(X)+D(Y)±2Cov(X,Y)=D(X)+D(Y)±2ρD(X)
D(Y)
(5)
D(X)<E(X−C)2,C=E(X)
(6)
D(X)=0⇔P{X=C}=1
6.随机变量函数的数学期望
(1) 对于函数
Y=g(x)
X为离散型:
P{X=xi}=pi,E(Y)=∑ig(xi)pi;
X为连续型:
X∼f(x),E(Y)=∫−∞+∞g(x)f(x)dx
(2)
Z=g(X,Y);
(X,Y)∼P{X=xi,Y=yj}=pij;
E(Z)=∑i∑jg(xi,yj)pij
(X,Y)∼f(x,y);
E(Z)=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy
7.协方差
Cov(X,Y)=E[(X−E(X)(Y−E(Y))]
8.相关系数
ρXY=D(X)
D(Y)
Cov(X,Y),
k阶原点矩
E(Xk);
k阶中心矩
E{[X−E(X)]k}
性质:
(1)
Cov(X,Y)=Cov(Y,X)
(2)
Cov(aX,bY)=abCov(Y,X)
(3)
Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
(4)
∣ρ(X,Y)∣≤1
(5)
ρ(X,Y)=1⇔P(Y=aX+b)=1 ,其中
a>0
ρ(X,Y)=−1⇔P(Y=aX+b)=1
,其中
a<0
9.重要公式与结论
(1)
D(X)=E(X2)−E2(X)
(2)
Cov(X,Y)=E(XY)−E(X)E(Y)
(3)
∣ρ(X,Y)∣≤1,且
ρ(X,Y)=1⇔P(Y=aX+b)=1,其中
a>0
ρ(X,Y)=−1⇔P(Y=aX+b)=1,其中
a<0
(4) 下面5个条件互为充要条件:
ρ(X,Y)=0
⇔Cov(X,Y)=0
⇔E(X,Y)=E(X)E(Y)
⇔D(X+Y)=D(X)+D(Y)
⇔D(X−Y)=D(X)+D(Y)
注:
X与
Y独立为上述5个条件中任何一个成立的充分条件,但非必要条件。
数理统计的基本概念
1.基本概念
总体:研究对象的全体,它是一个随机变量,用
X表示。
个体:组成总体的每个基本元素。
简单随机样本:来自总体
X的
n个相互独立且与总体同分布的随机变量
X1,X2⋯,Xn,称为容量为
n的简单随机样本,简称样本。
统计量:设
X1,X2⋯,Xn,是来自总体
X的一个样本,
g(X1,X2⋯,Xn))是样本的连续函数,且
g()中不含任何未知参数,则称
g(X1,X2⋯,Xn)为统计量。
样本均值:
X=n1∑i=1nXi
样本方差:
S2=n−11∑i=1n(Xi−X)2
样本矩:样本
k阶原点矩:
Ak=n1∑i=1nXik,k=1,2,⋯
样本
k阶中心矩:
Bk=n1∑i=1n(Xi−X)k,k=1,2,⋯
2.分布
χ2分布:
χ2=X12+X22+⋯+Xn2∼χ2(n),其中
X1,X2⋯,Xn,相互独立,且同服从
N(0,1)
t分布:
T=Y/n
X∼t(n) ,其中
X∼N(0,1),Y∼χ2(n),且
X,
Y 相互独立。
F分布:
F=Y/n2X/n1∼F(n1,n2),其中
X∼χ2(n1),Y∼χ2(n2),且
X,
Y相互独立。
分位数:若
P(X≤xα)=α,则称
xα为
X的
α分位数
3.正态总体的常用样本分布
(1) 设
X1,X2⋯,Xn为来自正态总体
N(μ,σ2)的样本,
X=n1∑i=1nXi,S2=n−11∑i=1n(Xi−X)2,则:
-
X∼N(μ,nσ2) 或者
n
σX−μ∼N(0,1)
-
σ2(n−1)S2=σ21∑i=1n(Xi−X)2∼χ2(n−1)
-
σ21∑i=1n(Xi−μ)2∼χ2(n)
4)
S/n
X−μ∼t(n−1)
4.重要公式与结论
(1) 对于
χ2∼χ2(n),有
E(χ2(n))=n,D(χ2(n))=2n;
(2) 对于
T∼t(n),有
E(T)=0,D(T)=n−2n(n>2);
(3) 对于
F ~F(m,n),有
F1∼F(n,m),Fa/2(m,n)=F1−a/2(n,m)1;
(4) 对于任意总体
X,有
E(X)=E(X),E(S2)=D(X),D(X)=nD(X)
评论(0)