您需要了解的有关统计和概率的所有信息

举报
Donglian Lin 发表于 2021/10/27 00:57:15 2021/10/27
【摘要】 统计和概率是当今世界最具革命性的技术的基石。从人工智能到机器学习和计算机视觉,统计和概率构成了所有这些技术的基础。在这篇关于统计和概率的文章中,我打算帮助您理解最复杂的算法和技术背后的数学原理。

统计和概率:

统计和概率是当今世界最具革命性的技术的基石。从人工智能到机器学习和计算机视觉,统计和概率构成了所有这些技术的基础。在这篇关于统计和概率的文章中,我打算帮助您理解最复杂的算法和技术背后的数学原理。

本统计数据涵盖以下主题和 概率博客:

  1. What Is Data?
  2. Categories Of Data
  3. What Is Statistics?
  4. Basic Terminologies In Statistics
  5. Sampling Techniques
  6. Types Of Statistics
  7. Descriptive Statistics
    1. Measures Of Centre
    2. Measures Of Spread
    3. Information Gain And Entropy
    4. Confusion Matrix
  8. Probability
    1. What Is Probability?
    2. Terminologies In Probability
    3. Probability Distribution
    4. Types Of Probability
    5. Bayes’ Theorem
  9. Inferential Statistics
    1. Point Estimation
    2. Interval Estimation
    3. Estimating Level Of Confidence
    4. Hypothesis Testing

什么是数据?

环顾四周,数据无处不在。每次点击手机都会产生比您所知的更多的数据。这些生成的数据为分析提供了见解,并帮助我们做出更好的业务决策。这就是数据如此重要的原因。

什么是数据 - 统计和概率 - Edureka

什么是数据 – 统计和概率 

数据是指收集在一起的事实和统计数据 参考或分析。 

可以收集、测量和分析数据。它也可以通过使用统计模型和图表进行可视化。

数据类别

数据可以分为两个子类别:

  1. 定性数据
  2. 定量数据

请参阅下图以了解不同类别的数据:

数据类别 - 统计和概率 - Edureka

数据类别 – 统计和概率 

定性数据: 定性数据处理不易测量但可以主观观察的特征和描述。定性数据进一步分为两类数据:

  • 名义数据:没有固有顺序或排名的数据,例如性别或种族。

名义数据 - 统计和概率 - Edureka

名义数据 – 统计和概率

  • 序数数据:具有有序信息序列的数据称为序数数据。

序数数据 - 统计和概率 - Edureka

序数数据 – 统计和概率

定量数据: 定量数据处理您可以客观衡量的数字和事物。这进一步分为两种:

  • 离散数据:也称为分类数据,它可以保存有限数量的可能值。

示例:一个班级的学生人数。

  • 连续数据:可以包含无限多个可能值的数据。

示例:重量 一个人的。

所以这些是不同类别的数据。即将到来的部分将重点介绍基本的统计概念,因此请系好安全带并准备好进行一些数学运算。

什么是统计?

统计学是应用数学的一个领域,与数据收集、分析、解释和展示有关。

什么是统计 - 统计和概率 - Edureka

什么是统计 – 统计和概率 

这个数学领域涉及理解如何使用数据来解决复杂的问题。以下是一些可以使用统计方法解决的示例问题:

  • 您的公司开发了一种可以治愈癌症的新药。您将如何进行测试以确认药物的有效性?
  • 你和一个朋友正在看一场棒球比赛,他出乎意料地向你打赌,在那场比赛中,两支球队都不会打出本垒打。你应该下注吗?
  • 最新的销售数据刚刚出来,你的老板要你准备一份关于公司可以改进业务的地方的管理报告。你应该找什么?你不应该寻找什么?

使用统计技术可以很容易地解决上述这些问题。在接下来的部分中,我们将看到如何做到这一点。

统计学中的基本术语

在深入研究统计之前,了解统计中使用的基本术语很重要。统计学中最重要的两个术语是总体和样本。

人口和样本 - 统计和概率 - Edureka

人口和样本 – 统计和概率 

  • 总体要分析其属性的一组或一组个人、对象或事件
  • 样本:总体的一个子集称为“样本”。精心挑选的样本将包含有关特定人群的大部分信息范围。

现在您一定想知道如何选择最能代表整个总体的样本。

抽样技术

抽样是一种统计方法,它处理在总体中选择单个观察值的方法。执行它以推断关于总体的统计知识。

考虑一个场景,您被要求对美国青少年的饮食习惯进行调查。目前,美国有超过 4200 万青少年,随着您阅读此博客,这个数字还在增长。是否有可能对这 4200 万个人的健康状况进行调查?显然不是!这就是使用抽样的原因。这是一种研究总体样本以推断整个总体的方法。

有两种主要类型的采样技术:

  1. 概率抽样
  2. 非概率抽样

抽样技术 - 统计和概率 - Edureka

抽样技术——统计和概率

在这篇博文中,我们将只关注概率抽样技术,因为非概率抽样不在本博文的范围内。

概率抽样:这是一种抽样技术,其中使用概率理论从大量人口中选择样本。概率抽样分为三种:

  • 随机抽样:在这种方法中,总体中的每个成员在样本中被选中的机会均等。

随机抽样 - 统计和概率 - Edureka

随机抽样——统计和概率

  • 系统抽样:在系统抽样中,从总体中选择每第 n 个记录作为样本的一部分。请参阅下图以更好地了解系统采样的工作原理。

系统抽样 - 统计和概率 - Edureka

系统抽样 – 统计和概率

  • 分层抽样:在分层抽样中,层用于从大量人口中形成样本。层是具有至少一个共同特征的总体子集。在此之后,使用随机抽样方法从每个层中选择足够数量的受试者。

分层抽样 - 统计和概率 - Edureka

分层抽样 – 统计和概率

现在你知道了 统计的基础知识,让我们继续讨论不同类型的统计。

统计类型

那里有两个 定义明确的统计类型:

  1. 描述性统计
  2. 推论统计

描述性统计

描述性统计是一种通过给出关于数据样本和度量的简短摘要来描述和理解特定数据集特征的方法。

描述性统计主要关注数据的主要特征。它提供了数据的图形摘要。

描述性统计 - 统计和概率 - Edureka

描述性统计 - 统计和概率 

假设你想把你所有同学的 T 恤作为礼物。要研究教室中学生的平均衬衫尺寸,在描述性统计中,您将记录班上所有学生的衬衫尺寸,然后找出班级的最大、最小和平均衬衫尺寸。

推论统计

推论统计基于从所讨论的总体中获取的数据样本对总体进行推断和预测。

推论统计概括了大型数据集并应用概率得出结论。它允许我们使用样本数据基于统计模型推断数据参数。

推论统计 - 统计和概率 - Edureka

推论统计 – 统计和概率

因此,如果我们考虑查找班级学生平均衬衫尺寸的相同示例,在推理统计中,您将获取班级的样本集,基本上是整个班级的几个人。您已经将班级分为大、中和小。在这种方法中,您基本上构建了一个统计模型,并将其扩展到班级中的整个人群。

以上是对描述性和推理性统计的简要了解。在后面的部分中,您将看到描述性和推理性统计工作深入。

了解描述性统计

描述性统计分为两类:

  1. 中央倾向的措施
  2. 变异性度量(传播)

中心测量 

中心的度量是表示数据集摘要的统计度量。中心化主要有以下三个措施:

中心度量 - 统计和概率 - Edureka

中心度量 – 统计和概率 

  1. 均值:样本中所有值的平均值的度量称为均值。
  2. 中值:样本集中心值的度量称为中值。
  3. 模式:该值最经常在样本组被称为模式。

为了更好地理解集中趋势的度量,让我们看一个例子。下面的汽车数据集包含以下变量:

数据集 - 统计和概率 - Edureka

数据集 - 统计和概率 

  • 汽车
  • 每加仑行驶里程(mpg)
  • 气缸类型 (cyl)
  • 位移(disp)
  • 马力(hp)
  • 实轴比(drat)

使用描述性分析,您可以分析样本数据集中每个变量的均值、标准差、最小值和最大值。

如果我们想找出汽车人口中汽车的平均马力或平均马力,我们将检查并计算所有值的平均值。在这种情况下,我们将取每辆车的马力总和除以汽车总数:
平均值 = (110+110+93+96+90+110+110+110)/8 = 103.625

如果我们想找出汽车人口中mpg的中心值,我们将mpg值按升序或降序排列并选择中间值。在这种情况下,我们有 8 个值,这是一个偶数条目。因此,我们必须取两个中间值的平均值。
8 辆车的 mpg:21,21,21.3,22.8,23,23,23,23
中位数 = (22.8+23 )/2 = 22.9

如果我们想找出汽车人口中最常见的气缸类型,我们将检查重复次数最多的值。 在这里我们可以看到柱面有两个值,4 和 6。看看数据集,你可以看到最常出现的值是 6。因此 6 是我们的模式。

传播的措施

传播度量,有时也称为离散度量,用于描述样本或总体的可变性。

传播度量 - 统计和概率 - Edureka

传播的度量 – 统计和概率 

就像中心度量一样,我们也有传播度量,它包括以下度量:

  • 范围:它是数据集中值的分散程度的给定度量。范围可以计算为:

范围 = 最大值(𝑥_𝑖) – 最小值(𝑥_𝑖)

这里,

Max(𝑥_𝑖):x的最大值

Min(𝑥_𝑖):x的最小值

  • 四分位数:四分位数通过将数据集分成四份来告诉我们数据集的分布情况,就像中位数将其分成两半一样。 

为了更好地理解四分位数和 IQR 是如何计算的,让我们看一个例子。 

传播度量示例 - 统计和概率 - Edureka

传播度量示例 – 统计和概率

上图显示了 100 名学生的分数从低到高排列。四分位数位于以下范围内:

  1. 第一个四分位数 (Q1) 位于第 25 次和第 26 次观测之间。
  2. 第二个四分位数 (Q2) 位于第 50 次和第 51 次观测之间。
  3. 第三个四分位数 (Q3) 位于第 75 次和第 76 次观测之间。
  • 四分位距 (IQR):它是可变性的度量,基于将数据集划分为四分位数。四分位距等于 Q3 减去 Q1,即 IQR = Q3 – Q1
  • 方差:它描述了随机变量与其期望值的差异程度。它需要计算偏差的平方。可以使用以下公式计算方差:

传播方差的度量 - 统计和概率 - Edureka

传播方差的度量——统计和概率

这里,

x: 单个数据点
n:数据点总数
x̅: 数据点的平均值

  • 偏差是每个元素与平均值之间的差异。可以使用以下公式计算:

偏差 = (𝑥_𝑖 - µ)

  • 总体方差是平方偏差的平均值。可以使用以下公式计算:

传播人口方差的度量 - 统计和概率 - Edureka

传播人口方差的度量 – 统计和概率 

  • 样本方差是均值的平方差的平均值。可以使用以下公式计算:

传播样本方差的度量 - 统计和概率 - Edureka

传播样本方差的度量 – 统计和概率

  • 标准差:衡量一组数据与其均值的离散程度。可以使用以下公式计算:

传播标准偏差的度量 - 统计和概率 - Edureka

传播标准偏差的度量 – 统计和概率

为了更好地理解传播度量是如何计算的,让我们看一个用例。

问题陈述: 丹妮莉丝有 20 条龙。它们有数字 9、2、5、4、12、7、8、11、9、3、7、4、12、5、4、10、9、6、9、4。计算标准偏差。

让我们一步一步地看一下解决方案:

步骤 1:找出样本集的均值。

平均值是 = 9+2+5+4+12+7+8+11+9+3

然后计算这些平方差的平均值。

+ 7 + 4 + 12 + 5 + 4 + 10 + 9 + 6 + 9 + 4/20
µ = 7

第 2 步:然后对于每个数字,减去平均值并平方结果。

(x_i - μ) ²

(9-7)²= 2²=4
(2-7)²= (-5)²=25
(5-7)²= (-2)²=4
依此类推……

我们得到以下结果:
4, 25, 4, 9, 25, 0, 1, 16, 4, 16, 0, 9, 25, 4, 9, 9, 4, 1, 4, 9

第 3 步:然后计算这些平方差的平均值。

传播标准偏差的度量 - 统计和概率 - Edureka

4 + 25 + 4 + 9 + 25 + 0 + 1 + 16 + 4 + 16 + 0 + 9 + 25 + 4 + 9 + 9 + 4 + 1 + 4 +
9/20 ⸫ σ² = 8.9

步骤 4:取 σ² 的平方根。

σ = 2.983

为了更好地理解传播和中心的度量,让我们使用 R 语言执行一个简短的演示。

R中的描述性统计

R 是一种统计编程语言,主要用于数据科学、机器学习等。如果您想了解有关 R 的更多信息。

现在让我们继续并在 R 中实现描述性统计。

在这个演示中,我们将看到如何计算均值、中值、众数、方差、标准差以及如何通过绘制直方图来研究变量。这是一个非常简单的演示,但它也构成了构建每个机器学习算法的基础。

步骤 1:导入数据进行计算

set.seed(1)
 
#Generate random numbers and store it in a variable called data
>data = runif(20,1,10)

步骤 2:计算数据的均值

#Calculate Mean
>mean = mean(data)
>print(mean)
 
[1] 5.996504

步骤 3:计算数据的中位数

#Calculate Median
>median = median(data)
>print(median)
 
[1] 6.408853

步骤 4:计算数据的众数

#Create a function for calculating Mode
>mode <- function(x) { >ux <- unique(x) >ux[which.max(tabulate(match(x, ux)))]}
>result <- mode(data) >print(data)
 
[1] 3.389578 4.349115 6.155680 9.173870 2.815137 9.085507 9.502077 6.947180 6.662026
[10] 1.556076 2.853771 2.589011 7.183206 4.456933 7.928573 5.479293 7.458567 9.927155
[19] 4.420317 7.997007
 
>cat("mode= {}", result)
 
mode= {} 3.389578

步骤 5:计算数据的方差和标准偏差

#Calculate Variance and std Deviation
>variance = var(data)
>standardDeviation = sqrt(var(data))
>print(standardDeviation)
 
[1] 2.575061

第 6 步:绘制直方图

#Plot Histogram
>hist(data, bins=10, range= c(0,10), edgecolor='black')

直方图用于显示数据点的频率:

直方图 - 统计和概率 - Edureka

直方图 - 统计和概率 

既然您知道如何计算度量 关于传播和中心,让我们看看其他一些可用于推断统计模型显着性的统计方法。

Entropy

熵衡量数据中存在的杂质或不确定性。可以使用以下公式进行测量:

熵 - 统计和概率 - Edureka

Entropy - 统计和概率 

其中:
S – 数据集中所有实例的集合
N – 不同类别值的数量
pi – 事件概率

信息增益 

信息增益 (IG) 表示特定特征/变量为我们提供了多少有关最终结果的“信息” 。可以使用以下公式进行测量:

信息增益 - 统计和概率 - Edureka

信息增益 – 统计和概率

这里:

  •  H(S) – 整个数据集 S 的熵
  • Sj | – 具有属性 A 的 j 值的实例数
  • |S| – 数据集 S 中的实例总数
  • v – 属性 A 的不同值集
  • H( Sj ) – 属性 A 的实例子集的熵
  • H(A, S) – 属性 A 的熵

信息增益和熵是重要的统计指标,可以让我们了解预测模型的重要性。为了更清楚地了解熵和 IG,让我们看一个用例。

问题陈述:通过研究天气情况来预测比赛是否可以进行。

数据集描述:以下数据集包含有关一段时间内天气状况的观察结果。

用例数据集 - 统计和概率 - Edureka

用例数据集 – 统计和概率 

预测变量包括:

  1. 外表
  2. 阳光明媚

目标变量是“播放”变量,可以使用一组预测变量进行预测。此变量的值将决定是否可以在特定日期玩游戏。 

为了解决这样的问题,我们可以使用决策树。决策树基本上是倒置树,它通过在每个分支节点上做出决策来帮助我们获得结果。 

下图显示在 14 次观察中,有 9 次观察结果为“是”,这意味着在 14 天中,比赛可以在 9 天进行。如果您注意到,该决定是通过选择“Outlook”变量作为根节点(决策树中的最顶部节点)来做出的。

用例 - 统计和概率 - Edureka

用例 – 统计和概率

前景变量有 3 个值, 

  1. 阳光明媚
  2. 灰蒙蒙

这 3 个值被分配给直接分支节点,并且对于这些值中的每一个,计算“play= yes”的可能性。'sunny' 和 'rain' 分支发出不纯的输出,这意味着混合了 'yes' 和 'no'。但是,如果您注意到“阴天”变量,则会产生 100% 纯子集。这表明“阴天”变量将导致确定的输出。

这正是熵用来测量的。它计算杂质或不确定性,变量的不确定性或熵越小,该变量越显着。

在决策树中,根节点被分配了最好的属性,以便决策树可以预测最精确的结果。“最佳属性”基本上是一个可以最好地分割数据集的预测变量。

现在你脑子里的下一个问题一定是,“我如何决定哪个变量或属性最能分割数据?”

嗯,这可以通过使用信息增益和熵来完成。 

我们首先计算将“outlook”变量分配给根节点时的熵。从总共 14 个实例中,我们有:

  • 9 次“是”
  • 5 次“否”

The Entropy is:

计算熵 - 统计和概率 - Edureka

Calculating Entropy – 统计和概率 

因此,我们得到 0.940 的熵,它表示不纯或不确定性。 

现在为了确保我们为根节点选择最佳变量,让我们看看所有可能的组合。 

下图显示了每个决策变量以及您可以通过在根节点使用该变量获得的输出。

可能的决策树 - 统计和概率 - Edureka

可能的决策树 - 统计和概率 

我们的下一步是计算每个决策变量(前景、风、湿度、温度)的信息增益。 要记住的一点是,必须选择导致最高 IG 的变量,因为它将为我们提供最精确的输出和信息。 

属性“windy”的信息增益

决策树 Windy - 统计和概率 - Edureka

决策树 Windy – 统计和概率 

从总共 14 个实例中,我们有:

  • 6 个实例“真”
  • 8 个实例“假”

信息增益风 - 统计和概率 - Edureka

信息增益风 - 统计和概率 

属性“outlook”的信息增益

决策树展望 - 统计和概率 - Edureka

决策树展望 – 统计和概率

从总共 14 个实例中,我们有:

  • 5 实例“晴天”
  • 4 实例“阴天”
  • 5 次“下雨”

信息增益展望 - 统计和概率 - Edureka

信息增益展望 – 统计和概率

属性“湿度”的信息增益

决策树湿度 - 统计和概率 - Edureka

决策树湿度 - 统计和概率 

从总共 14 个实例中,我们有:

  • 7 个实例“高”
  • 7 个实例“正常”

信息增益湿度 - 统计和概率 - Edureka

信息增益湿度 – 统计和概率

属性“温度”的信息增益

决策树温度 - 统计和概率 - Edureka

决策树温度 - 统计和概率 

从总共 14 个实例中,我们有:

  • 4个实例“热”
  • 6 实例“温和”
  • 4个实例“酷”

信息增益温度 - 统计和概率 - Edureka

信息增益温度 – 统计和概率

下图显示了每个属性的 IG。IG最高的变量用于在根节点分割数据。'Outlook' 变量具有最高的 IG,因此它被分配给根节点。

信息增益汇总 - 统计和概率 - Edureka

信息增益汇总 – 统计和概率 

所以这就是全部 关于熵和信息增益。现在让我们来看看另一个重要的统计方法叫做混淆矩阵。

混淆矩阵

混淆矩阵是一个表格,通常用于描述分类模型(或“分类器”)对一组已知真实值的测试数据的性能。

基本上,混淆矩阵将帮助您评估预测模型的性能。它主要用于分类问题。 

混淆矩阵表示实际值与预测值的表格表示。您可以使用以下公式计算模型的准确度:

混淆矩阵公式 - 统计和概率 - Edureka

混淆矩阵公式 - 统计和概率

要了解什么是 True Negative、True Positive 等,让我们考虑一个例子。

假设您获得了 165 名患者的数据,其中 105 名患者患有疾病,其余 5o 名患者没有。因此,您构建了一个分类器,通过使用这 165 个观察结果进行预测。在这 165 个案例中,分类器预测“是”110 次,“否”55 次。

因此,为了评估分类器的效率,使用了一个混淆矩阵:

混淆矩阵 - 统计和概率 - Edureka

混淆矩阵 - 统计和概率 

在上图中,

  • 'n' 表示观察的总数
  • Actual 表示数据集中的实际值
  • Predicted 表示分类器预测的值

混淆矩阵通过将实际值与预测值进行比较来研究分类器的性能。下面是一些与混淆矩阵相关的术语:

  1. True Positives (TP):在这些情况下,我们预测为是(他们患有这种疾病),而他们确实患有这种疾病。
  2. 真阴性 (TN):我们预测没有,而且他们没有患病。
  3. 假阳性 (FP):我们预测是的,但他们实际上并没有患病。(也称为“第一类错误”。)
  4. 假阴性(FN):我们预测没有,但他们确实患有这种疾病。(也称为“II 型错误”。)

所以这些是描述性统计中使用的重要概念。现在让我们研究所有关于概率的知识。

可能性

在我们了解概率是什么之前,让我澄清一个非常普遍的误解。人们经常会问这个问题:

统计和概率之间是什么关系?

概率统计及相关领域。概率是一种用于统计分析的数学方法。因此我们可以说概率和统计学是相互关联的数学分支,用于分析事件的相对频率。

现在让我们了解什么是概率。

什么是概率?

概率是对事件发生可能性的度量。更准确地说,概率是期望结果与总结果的比率:(
期望结果)/(总结果)

所有结果的概率总和为 1。考虑著名的掷骰子示例:

  • 掷骰子,你会得到 6 种可能的结果
  • 每种可能性只有一种结果,所以每种可能性都有 1/6
  • 例如,得到数字“2”的概率 骰子是 1/6

现在让我们尝试了解概率中使用的常用术语。

概率术语

在深入研究概率概念之前,了解概率中使用的基本术语很重要:

  • 随机实验:无法确定结果的实验​​或过程。
  • 样本空间:随机实验的整个可能结果集是该实验的样本空间。
  • 事件:实验的一个或多个结果称为事件。它是样本空间的一个子集。概率事件有两种类型:


    • 不相交事件:不 相交事件没有任何共同的结果。例如, 从一副牌中抽出的一张牌不能是国王和皇后
    • 非不相交事件: 非不相交事件可以有共同的结果。例如,
      学生可以在统计学上获得 100 分,在概率上获得 100 分

概率分布

在这篇博客中,我们将关注三个主要的概率分布函数:

  1. 概率密度函数
  2. 正态分布
  3. 中心极限定理

概率密度函数

概率密度函数 (PDF) 与连续随机变量取给定值的相对可能性有关。PDF 给出了位于范围“a”和“b”之间的变量的概率。

下图表示一个范围内连续变量的 PDF。该图被称为钟形曲线:

概率密度函数 - 统计和概率 - Edureka

概率密度函数 - 统计和概率 

以下是 PDF 的属性:

  • PDF 的图形将在一定范围内连续
  • 由密度函数曲线和 x 轴围成的面积等于 1
  • 随机变量取 a 和 b 之间的值的概率等于 PDF 下以 a 和 b 为界的面积

正态分布

正态分布,也称为高斯分布,是一种概率分布,表示均值的对称性。此函数背后的想法是,靠近均值的数据比远离均值的数据出现的频率更高。它推断平均值周围的数据代表整个数据集。

与 PDF 类似,正态分布显示为钟形曲线:

正态分布 - 统计和概率 - Edureka

正态分布 - 统计和概率 

正态分布图取决于两个因素:均值和标准差

  • 均值:确定图形中心的位置
  • 标准偏差:确定图形的高度

如果标准差很大,曲线又短又宽:

标准偏差曲线 1 - 统计和概率 - Edureka

标准偏差曲线 - 统计和概率

如果标准差很小,曲线又高又窄:

标准偏差曲线 2 - 统计和概率 - Edureka

标准偏差曲线 - 统计和概率 

中心极限定理

中心极限定理指出,如果样本量足够大,任何独立随机变量的均值的抽样分布将是正态或接近正态的。

简单来说,如果我们将一个大的总体划分为样本,那么总体中所有样本的均值将几乎等于整个总体的均值。下图描绘了对中心极限定理的更清晰的理解:

中心极限定理 - 统计和概率 - Edureka

中心极限定理 - 统计和概率

正态分布的准确性或相似性取决于两个主要因素:

  1. 采样点数
  2. 底层的形状 人口

现在让我们关注三种主要的概率类型。

概率类型

边际概率

事件发生的概率 (p(A)),不以任何其他事件为条件。例如,抽到一张牌的概率是 3 (p(three)=1/13)。

可以表示为:

边际概率 - 统计和概率 - Edureka

边际概率 – 统计和概率

联合概率

联合概率是对两个事件同时发生的度量,即 p(A 和 B),事件 A 和事件 B 发生的概率。它是两个或多个事件相交的概率。A 和 B 相交的概率可以写成 p(A ∩ B)。

例如,一张牌是四和红的概率=p(四和红)=2/52=1/26。

条件概率

基于先前事件或结果发生的事件或结果的
概率 事件 B 的条件概率是在事件 A 已经发生的情况下该事件将发生的概率。

  • p(B|A) 是事件 B 发生的概率,假设事件 A 发生。
  • 如果 A 和 B 是相关事件,则条件概率的表达式为:
    P (B|A) = P (A 和 B) / P (A)
  • 如果 A 和 B 是独立事件,则条件概率的表达式为:
    P(B|A) = P (B)

例子:假设你抽到一张红牌,它是 4 (p(four|red))=2/26=1/13 的概率是多少。所以在 26 张红牌中(给一张红牌),有是四分之二,所以 2/26=1/13。

现在让我们看看概率下的最后一个主题。

贝叶斯定理

贝叶斯定理用于计算条件概率,条件概率只不过是基于对可能与事件相关的条件的先验知识的事件发生的概率。

在数学上,贝叶斯定理表示为:

贝叶斯定理 - 统计和概率 - Edureka

贝叶斯定理 - 统计和概率

在上面的等式中:

P(A|B):事件 A 发生的条件概率,给定事件 B
P(A):事件 A 发生的概率
P(B):事件 B 发生的概率
P(B|A):事件 B 的条件概率发生,给定事件 A
形式上,贝叶斯定理的术语如下:

A 被称为命题,B 是证据
P(A) 表示命题的先验概率
P(B) 表示证据的先验概率
P(A|B) 称为后验
P(B|A) 是可能性
因此,贝叶斯定理,可以归纳为:

后验=(似然)。(命题先验概率)/​​证据先验概率

为了更好地理解这一点,让我们看一个例子:

问题陈述: 考虑 3 个袋子。A袋内有2个白球和4个红球;B袋内有8个白球和4个红球,C袋内有1个白球和3个红球。我们从每个袋子中抽取 1 个球。如果我们知道我们总共抽到了 2 个白球,那么从 A 袋抽到一个白球的概率是多少? 

索恩:

  • 设 A 为从 A 袋中拣出一个白球的事件,设 X 为恰好拣出两个白球的事件
  • 我们想要 Probability(A∣X),即给定 X 的事件 A 的发生概率
  • 根据条件概率的定义,

贝叶斯定理示例 - 统计和概率 - Edureka

  • 我们需要找到等于符号右侧的两个概率。

我们可以分两步解决这个问题:

步骤 1:首先找到 Pr(X)。这可以通过三种方式发生:

  1. A白色,B白色,C红色
  2. A 白色,B 红色,C 白色
  3. A 红色,B 白色,C 白色

第 2 步:找到 Pr(A∩X)。

  • 这是上述 (i) 和 (ii) 项的总和

我只是画了一个蓝图来解决这个问题。将此视为家庭作业,并在评论中告诉我们您的答案部分。 

以下部分将介绍推理统计(也称为统计推理)下的概念。到目前为止,我们讨论了描述性统计和概率,现在让我们看一些更高级的主题。

统计推断

如前所述,统计推断是统计学的一个分支,它处理基于从所讨论的总体中获取的数据样本形成关于总体的推断和预测。

问题 你现在应该问,一个人是如何对样本进行推断或预测的?答案是通过点估计。

什么是点估计?

点估计涉及使用样本数据来测量单个值,该值用作未知总体参数的近似值或最佳估计值。 

点估计的两个重要术语是:

  • 估计量:样本的函数 f(x),用于找出估计值。
  • 估计值:估计器的实现值。

例如,为了计算一个庞大总体的均值,我们首先从总体中抽取一个样本,求出样本均值。然后使用样本均值来估计总体均值。这基本上是点估计。

寻找估计

有 4 种常用统计技术可用于查找与总体相关的估计值:

  1. 矩量法:它是一种用于估计总体参数的方法,如总体均值或总体方差。简单来说,这涉及记录关于总体的已知事实,并将这些想法扩展到样本。 
  2. 最大似然:此方法使用模型和模型中的值来最大化似然函数。这将导致所选输入的最可能参数。
  3. 贝叶斯估计量:此方法通过最小化平均风险(随机变量的期望)来工作
  4. 最佳无偏估计量:在这种方法中,可以使用几个无偏估计量来近似一个参数(哪个是“最好的”取决于您试图找到的参数)

除了这四个估计 方法,还有另一种估计方法称为区间估计(Confidence Interval)。

什么是区间估计?

用于估计总体参数的区间或值范围称为区间估计。下图清楚地显示了与点估计相反的区间估计。估计值必须介于置信下限和置信上限之间。

区间估计 - 统计和概率 - Edureka

区间估计 – 统计和概率

例如,如果我说我需要 30 分钟才能到达剧院,这就是 Point 估计。但是,如果我说我需要 45 分钟到一个小时才能到达剧院,这就是间隔估计的一个例子。

区间估计产生了两个重要的统计术语:置信区间和误差幅度。

什么是置信区间?

  • 置信区间是您的置信度的度量,区间估计包含总体均值 𝜇。
  • 统计学家使用置信区间来描述与总体参数样本估计相关的不确定性量。
  • 从技术上讲,一个值范围的构造使得有一个指定的概率在其中包含参数的真实值。

例如,您调查了一组猫主人,以了解他们一年购买了多少罐猫粮。您在 99% 的置信水平上测试统计数据,并获得 (100,200) 的置信区间。这意味着您认为他们每年购买 100 到 200 罐。此外,由于置信度为 99%,这表明您非常确信结果是正确的。

什么是误差幅度?

  • 点估计与实际总体参数值之间的差异称为抽样误差。
  • 当估计𝜇 时,抽样误差是差值𝜇 – ̅x。由于 𝜇 通常是未知的,因此可以使用置信度来计算误差的最大值。
  • 对于给定的置信水平,误差 E 的边际是点估计与其正在估计的参数值之间的最大可能距离。

可以使用以下公式计算误差幅度 E:

误差幅度 - 统计和概率 - Edureka

误差幅度 – 统计和概率 

这里,

  • Z_c 表示临界值或置信区间
  • 𝜎 表示标准差
  • n 表示样本 尺寸

现在让我们了解如何估计置信区间。

估计置信水平 

置信水平“c”是区间估计包含总体参数的概率。考虑下图:

估计置信水平 - 统计和概率 - Edureka

估计置信水平 - 统计和概率

  • C 是临界值之间正态曲线下方的面积
  • 可以使用标准正态表计算相应的Z分数

例如,如果置信水平为 90%,这意味着您对区间包含总体均值 𝜇 的置信度为 90%。剩余的 10% 在“c”(包含估计人口参数的区域)的两侧均匀分布 (0.05 )

估计置信水平示例 - 统计和概率 - Edureka

估计置信水平示例 – 统计和概率 

根据 Z 表,相应的 Z – 分数为 ± 1.645。

置信区间的构建

可以通过以下步骤构建置信区间:

  1. 确定样本统计量:选择将用于估计总体参数的统计量(例如:样本均值)
  2. 选择置信水平:置信水平描述了抽样方法的不确定性。
  3. Find the Margin of Error:根据前面解释的等式找到误差幅度
  4. 指定置信区间:置信区间可以通过以下方式找到:
    置信区间 = 样本统计量 ± 误差幅度

现在让我们看一个问题陈述,以更好地理解这些概念。

问题陈述:从当地大学书店中随机抽取 32 个教科书价格样本。样本均值𝑥 ̅ = 74.22,样本标准差S = 23.44。使用 95% 的置信水平并找出书店中所有教科书平均价格的误差幅度

由公式可知,E = 𝑍_𝑐 * (𝜎/√𝑛)
E = 1.96 * (23.44/√32) ≈ 8.12

因此,我们有 95% 的把握确信总体均值(书店中的所有教科书)的误差幅度约为 8.12.

既然您知道置信区间背后的想法,让我们继续下一个主题,假设检验。

假设检验

统计学家使用假设检验来正式检查假设是被接受还是被拒绝。假设检验是一种推断性统计技术,用于确定数据样本中是否有足够的证据来推断某个条件适用于整个总体。

针对一般人群的特点,我们随机抽取样本,分析样本的性质。我们测试确定的结论是否准确地代表了总体,最后我们解释了他们的结果。是否接受假设取决于我们从假设中得到的百分比值。

为了更好地理解这一点,让我们看一个例子。

考虑四个男孩,尼克、约翰、鲍勃和哈利,他们被发现在上课。作为惩罚,他们被要求留在学校并打扫教室。

假设检验示例 - 统计和概率 - Edureka

假设检验示例 – 统计和概率

于是,约翰决定让他们四个轮流打扫教室。他想出了一个计划,把他们每个人的名字写在纸上,然后放进碗里。每天他们都必须从碗里取一个名字,那个人必须打扫课堂。

现在已经三天了,每个人的名字都出现了,除了约翰!假设这个事件是完全随机的,没有偏见,约翰不作弊的概率是多少?

让我们从计算约翰一天没有被选中的概率开始:

P(约翰一天没有被选中)= 3/4 = 75%

这里的概率是 75%,这是相当高的。现在,如果约翰连续三天没有被选中,概率会下降到 42%

P(约翰 3 天没有被选中)= 3/4 × 3/4 × 3/4 = 0.42(大约)

现在,让我们考虑连续 12 天没有选择约翰的情况!概率下降到 3.2%。因此,约翰作弊的概率变得相当高。

P(约翰 12 天未采摘)= (3/4) ^12 = 0.032 <?.??

为了让统计学家得出结论,他们定义了所谓的阈值。考虑到上述情况,如果将阈值设置为 5%,则表明如果概率低于 5%,那么 John 是在欺骗他的拘留方式。但如果概率高于阈值,那么约翰只是幸运,他的名字没有被选中。

概率和假设检验产生了两个重要的概念,即:

  • 零假设:结果与假设没有区别。
  • 替代假设:结果反驳了假设。

因此,在我们的例子中,如果一个事件发生的概率小于 5%,那么它就是一个有偏差的事件,因此它批准了备择假设。

为了更好地理解假设检验,我们将在下面的部分运行一个快速演示。

R中的假设检验

在这里,我们将使用 gapminder 数据集来执行假设检验。gapminder 数据集包含 142 个国家的列表,以及它们各自的预期寿命、人均 GDP 和人口值,每五年一次,从 1952 年到 2007 年。

第一步是安装并加载gapminder包到R环境中:

#Install and Load gapminder package
install.packages("gapminder")
library(gapminder)
data("gapminder")

接下来,我们将使用 R 中的 View() 函数显示数据集:

#Display gapminder dataset
View(gapminder)

快速浏览一下我们的数据集:

数据集 - 统计和概率 - Edureka

数据集 – 统计和概率

下一步是加载 R 提供的著名的 dplyr 包。

#Install and Load dplyr package
install.packages("dplyr")
library(dplyr)

我们的下一步是比较两个地方(爱尔兰和南非)的预期寿命,并执行 t 检验以检查比较是否遵循零假设或替代假设。

#Comparing the variance in life expectancy in South Africa & Ireland
df1 <-gapminder %>%
select(country, lifeExp) %>%
filter(country == "South Africa" | country =="Ireland")

因此,在对数据框 (df1) 应用 t 检验并比较预期寿命后,您可以看到以下结果:

#Perform t-test
t.test(data = df1, lifeExp ~ country)
Welch Two Sample t-test
data: lifeExp by country
t = 10.067, df = 19.109, p-value = 4.466e-09
alternative hypothesis: true difference in means is not equal to 0
 
95 percent confidence interval:
15.07022 22.97794
sample estimates:
mean in group Ireland mean in group South Africa
73.01725 53.99317

注意爱尔兰组和南非组的平均值,您可以看到预期寿命几乎相差 20 倍。现在我们需要检查南非和爱尔兰预期寿命值的这种差异是否真的有效,而不仅仅是纯属偶然。为此,进行了 t 检验。

请特别注意 p 值,也称为概率值。在确保模型的显着性方面,p 值是一个非常重要的度量。只有当 p 值小于预先确定的统计显着性水平(理想情况下为 0.05)时,模型才具有统计显着性。从输出中可以看出,p 值为 4.466e-09,这是一个非常小的值。

在模型摘要中,请注意另一个重要参数,称为 t 值。较大的 t 值表明替代假设是正确的,而且由于纯粹的运气,预期寿命的差异不等于零。因此,在我们的案例中,原假设被拒绝。

这就是使用 R 语言进行假设检验的实际实现。

有了这个,我们来到了这个博客的结尾。如果您对此主题有任何疑问,请在下方留言,我们会尽快回复您。

请继续关注有关趋势技术的更多博客。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。