两组样本均值、方差和分布的统计假设检验

举报
aqhs 发表于 2023/01/04 10:38:42 2023/01/04
【摘要】 统计检验亦称假设检验(test of hypothesis),它是利用收集到的数据对某个事先作出的统计假设按照某种设计好的方法进行检验,判断此假设是否正确。介绍对两组样本数据的均值、方差和分布是否显著不同进行统计检验的方法。用t检验来判断两组样本的均值是否存在显著差异,用F检验来判断两组样本的方差是否存在显著差异,用K-S检验来判断两组样本所来自的总体分布是否不同。

两组样本均值、方差和分布的统计假设检验

【摘要】统计检验亦称假设检验(test of hypothesis),它是利用收集到的数据对某个事先作出的统计假设按照某种设计好的方法进行检验,判断此假设是否正确。介绍对两组样本数据的均值、方差和分布是否显著不同进行统计检验的方法。用t检验来判断两组样本的均值是否存在显著差异,用F检验来判断两组样本的方差是否存在显著差异,用K-S检验来判断两组样本所来自的总体分布是否不同。

统计假设检验步骤:

①假设H0:u=u0;

②选取统计量,明确其分布;

③给出显著水平α(例如α=0.05);

④计算统计量t;

⑤计算显著性P值,

    tjfx.jpg

⑥判断:

如果P<α,则以α的显著性水平拒接假设H0,认为u≠u0;

如果P≥α,则以α的显著性水平接受假设H0,认为u=u0。

使用特殊函数来计算统计量的显著性值P,直接判别是否接受或者拒绝假设,比起以往查数学用表确定置信限Ka/2 的方法更直接好理解。例如统计量t服从正态分的情况,

(1)已知A和B两组观察数据的总体方差相同,检验其均值是否显著不同。

两组数据的样本点数分别为Na和Nb,计算得到两组数据的平均值分别为Ma和Mb,计算均值之差的标准误Sd:

学生t检验的统计量计算公式为:

统计量t服从自由度为Na+Nb-2的学生分布,计算t值的显著性值P:

小的显著性值P(小于0.05或者0.01)意味着所观察的差异是“非常显著的”,即两组样本数据的平均值存在显著差异。

两组样本数据的方差是否相同,可以采用F检验来进行。


(2)已知A和B两组样本数据的总体方差是不同的,检验其均值是否显著不同。

仍然采用t检验方法,构建如下近似t分布统计量:

式中Ma和Mb是样本A和样本B的平均值,Na和Nb是样本A和样本B的样本个数,Var(xa)和Var(xb)是样本A和样本B的方差。

这个统计量近似服从学生t分布,自由度为:

计算t值的显著性值P,

小的显著性值P(小于0.05或者0.01)意味着所观察的差异是“非常显著的”,即两组数据的平均值存在显著差异。


(3)配对样本t检验

配对样本t检验是用于检验配对样本数据的均值是否存在显著差异。例如用两把尺子测量不同个体的身高,检验这两把尺子的测量结果是否相同,即它们之差的均值是否为零。

构建如下t分布统计量:

式中Ma和Mb是样本A和样本B的平均值,N是样本A和样本B的配对个数,Var(xa)和Var(xb)是样本A和样本B的方差。(xai,xbi),i=1,2,…N,是N个配对样本。

和前述一样,计算t值的显著性值P,小的显著性值P(小于0.05或者0.01)意味着所观察的差异是“非常显著的”,即两组数据的平均值存在显著差异。


(4)方差F检验

F检验又称方差齐性检验,验证两个样本具有不同的方差的假设。在假设检验中,一般情况下,两个正态总体的均值和方差都是不知道的。对两个正态总体均值进行检验时,要先对两正态总体的方差进行齐性检验,即需先判断两个正态总体的方差是否相等。统计量f是一个方差与另一个方差的比值,方差大的作为分子,方差小的作为分母,如果两个样本数据的方差的差异比较大则该统计量也比较大。

设A和B两组样本,其样本个数分别为Na和Nb,对应的平均值为Ma和Mb,对应的方差为Var(xa)和Var(xb),那么统计量f符合F分布,

使用F分布函数计算显著性值P=F(f, n1, n2),n1等于计算分子方差的样本数减1,n2等于计算分母方差的样本数减1,即如果Var(xa)≥Var(xb)则n1=Na-1,n2=Nb-1;如果Var(xa)<Var(xb)则n1=Nb-1,n2=Na-1。

小的显著性值P(小于0.05或者0.01)意味着所观察的差异是“非常显著的”,即两组数据的方差存在显著差异。


(5)分布是否不同的K-S检验

数据分布检验是确定两组数据是否从同一分布函数中抽取的,或者从不同分布函数中抽取的。用统计学语言来讲,即:“在一定要求的显著性下我们是否能推翻’无效假设’,即两组数据集是从同一总体分布函数中抽取的假说”。K-S检验(Kolmogorov-Smirnov Test)主要用于非离散量化分布,检验两组样本数据的累计频数分布曲线是否存在显著差异。

设SN1(x)和SN2(x)是两组样本数据的累计频数分布函数,是单调上升函数。K-S统计量为:

统计量D的显著性值近似地计算如下,

当检验一组样本是否来自某已知分布(如正态分布)时,Ne=N(样本个数),此时SN1(x)是样本累计分布(N=N1),SN2(x)为已知分布函数P(x),统计量D为:

统计分布函数计算时需要用到特殊函数计算:https://bbs.huaweicloud.com/blogs/362060

参考文献:

[1] [美]W.H.Press, S.A.Teukolsky, W.T.Vetterling, B.P.Flannery 著. 傅祖芸,赵梅娜,丁岩 等译. C语言数值算法程序大全(第二版)[M]. 北京 电子工业出版社,1995年10月第1版. 第522-532页.
[2] 马振华 主编. 现代应用数学手册—概率统计与随机过程卷[M]. 北京 清华大学出版社,2000年7月第1版.第188-202页.
[3] 张敏强 主编. 教育与心理统计学. 北京 人民教育出版社,1993年12月.
[4] 《数学手册》编写组. 数学手册[M]. 北京 高等教育出版社,1979年5月第1版,第816-820页.

软件操作:《工具箱》->《外部工具》,弹出如下对话框:

选择其中《曲线拟合》,出现软件界面并选择《统计检验》,对左右两边的数据进行检验。

两组样本数据文件存储在文本文件之中(*.txt,ANSI编码的),有两列数据,分别代表两组样本数据。软件受限制的是两组数据的长度须相等,但不影响配对检验。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。