AI数学基础之概率论与数理统计——华为AI学习笔记5
概率论与数理统计是机器学习中必不可少的重要内容。
1. 概率与统计
最早的统计学与国家经济学有密切关系,比如GDP、GNP的统计等,但统计逐渐无法适应,逐渐出现了数理统计,逐渐超出了经济学的范围。重归纳。
概率论传言起始于赌博。重推理。
2. 随机变量及其分布
2.1. 随机事件
如果一个事件已经知道范围,但每次下无法预测哪个结果会发生,并且可以重复试验。
样本空间是可能发生的结果。
2.2. 随机变量
本质上是一个变量。
分为离散型随机变量和连续型随机变量。
离散型随机变量可以用分布律来表示,各个取值出现的概率,概率和是1。
2.3. 特殊离散分布
2.3.1. 伯努利分布
扔硬币,两种情况
又叫0-1分布
X | 0 | 1 |
---|---|---|
1-p | p |
2.3.2. 二项分布
n次独立伯努利试验
期望是np
2.3.3. 泊松分布
本质上二项分布的近似
2.4. 分布函数
F(x)=P(X≤x)
2.5. 正态分布
又称高斯分布
当μ=0,σ=1时称为标准正态分布。
当二项分布次数足够多时,p为定值时,近似于正态分布。
3. 多维随机变量及其分布
把多个随机变量放在一起组成向量就称为多维随机向量。
当概率的值有多个随机变量决定时,其概率分布称为联合分布函数。
联合密度概率函数f(x,y)
4. 随机变量的数字特征
4.1. 期望
即均值
反映了随机变量的平均情况
4.2. 方差
反映了随机变量和其数学期望的偏离程度
4.3. 协方差
变量1与变量2各自偏离均值的距离的乘积
协方差为正时两个变量正相关,越接近1,正相关性越强
协方差为负时两个变量负相关,越接近-1,负相关性越强
越接近0,相关性越弱
5. 大数定律及中心极限定理
大数定律的本质是随机变量背后的规律性
当大量重复试验时,其平均值几乎总是接近某个值。
服从正态分布。
6. 回归分析
如果随机变量Y和X存在一定的关系,我们就可以通过一定的方法获得X与Y之间的函数关系,称为回归分析,分为一元回归分析和多元回归分析;也可分为线性回归分析和非线性回归分析。
最常用的线性回归方法是最小二乘法,可以通过公式求解。
7. 参数估计与假设检验
参数估计根据样本数据估计总体分布的参数就是参数估计。
假设检验是检验对总体的假设是否成立。
7.1. 参数估计
矩估计:用样本的n阶矩作为总体的n阶矩
最小二乘法
最大似然估计
7.2. 假设检验
事先对总体样本进行检验,根据小概率事件在一次试验中几乎不可能发生,如果发生了,则可以怀疑假设的真实性。
8. 相关分析
相关分析主要是研究变量间的相关程度,可分为正相关、负相关,线性相关、非线性相关。
- 点赞
- 收藏
- 关注作者
评论(0)