《机器学习:算法视角(原书第2版)》 —2.4 基本统计概念
【摘要】 本节书摘来自华章计算机《机器学习:算法视角(原书第2版)》 一书中第2章,第2.4.1节,作者是[新西兰] 史蒂芬·马斯兰(Stephen Marsland),高 阳 商 琳 等译。
2.4 基本统计概念
本节将简要介绍一些重要的统计概念。你可能已经知道这些知识,但我们将重复介绍,以突出显示其对机器学习的重要性。任何基本的统计书都会提供更详细的信息。
2.4.1 平均值
我们将从最基本的开始,即可用于表征数据集的两个数字:均值和方差。均值很容易得到,它是一组数据中最常用的平均值(average),是通过将数据集中的所有数据点相加并除以数据点总数得到的值。还有两个其他平均值:中位数(median)和众数(mode)。中位数是中间值,因此找到它最常见的方法是根据大小对数据集进行排序,然后找到中间的点(当然,如果有偶数个数据点,那么就没有确切的中间数据点,所以人们通常将两个点之间的值取为最接近中间的点)。在大多数算法教科书中描述的随机算法(randomised algorithm),是一种用于计算中位数的较快的算法。众数是最常见的值,只需要计算每个元素出现的次数并选择次数最多的元素。接下来,我们还需要了解方差和概率分布的概念。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)