AI数学基础之概率论与数理统计——华为AI学习笔记5

举报
darkpard 发表于 2022/01/28 19:40:00 2022/01/28
【摘要】 概率论与数理统计是机器学习中必不可少的重要内容。1. 概率与统计最早的统计学与国家经济学有密切关系,比如GDP、GNP的统计等,但统计逐渐无法适应,逐渐出现了数理统计,逐渐超出了经济学的范围。重归纳。概率论传言起始于赌博。重推理。2. 随机变量及其分布2.1. 随机事件如果一个事件已经知道范围,但每次下无法预测哪个结果会发生,并且可以重复试验。样本空间是可能发生的结果。2.2. 随机变量本质...

概率论与数理统计是机器学习中必不可少的重要内容。

1. 概率与统计

最早的统计学与国家经济学有密切关系,比如GDP、GNP的统计等,但统计逐渐无法适应,逐渐出现了数理统计,逐渐超出了经济学的范围。重归纳。

概率论传言起始于赌博。重推理。

2. 随机变量及其分布

2.1. 随机事件

如果一个事件已经知道范围,但每次下无法预测哪个结果会发生,并且可以重复试验。

样本空间是可能发生的结果。

2.2. 随机变量

本质上是一个变量。

分为离散型随机变量和连续型随机变量。

离散型随机变量可以用分布律来表示,各个取值出现的概率,概率和是1。

2.3. 特殊离散分布

2.3.1. 伯努利分布

扔硬币,两种情况

又叫0-1分布

X 0 1

1-p p

2.3.2. 二项分布

n次独立伯努利试验

期望是np

2.3.3. 泊松分布

本质上二项分布的近似

2.4. 分布函数

F(x)=P(X≤x)

2.5. 正态分布

又称高斯分布

当μ=0,σ=1时称为标准正态分布。

当二项分布次数足够多时,p为定值时,近似于正态分布。

3. 多维随机变量及其分布

把多个随机变量放在一起组成向量就称为多维随机向量。

当概率的值有多个随机变量决定时,其概率分布称为联合分布函数。

联合密度概率函数f(x,y)

4. 随机变量的数字特征

4.1. 期望

即均值

反映了随机变量的平均情况

4.2. 方差

反映了随机变量和其数学期望的偏离程度

4.3. 协方差

变量1与变量2各自偏离均值的距离的乘积

协方差为正时两个变量正相关,越接近1,正相关性越强

协方差为负时两个变量负相关,越接近-1,负相关性越强

越接近0,相关性越弱

5. 大数定律及中心极限定理

大数定律的本质是随机变量背后的规律性

当大量重复试验时,其平均值几乎总是接近某个值。

服从正态分布。

6. 回归分析

如果随机变量Y和X存在一定的关系,我们就可以通过一定的方法获得X与Y之间的函数关系,称为回归分析,分为一元回归分析和多元回归分析;也可分为线性回归分析和非线性回归分析。

最常用的线性回归方法是最小二乘法,可以通过公式求解。

7. 参数估计与假设检验

参数估计根据样本数据估计总体分布的参数就是参数估计。

假设检验是检验对总体的假设是否成立。

7.1. 参数估计

矩估计:用样本的n阶矩作为总体的n阶矩

最小二乘法

最大似然估计

7.2. 假设检验

事先对总体样本进行检验,根据小概率事件在一次试验中几乎不可能发生,如果发生了,则可以怀疑假设的真实性。

8. 相关分析

相关分析主要是研究变量间的相关程度,可分为正相关、负相关,线性相关、非线性相关。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。