《机器学习:算法视角(原书第2版)》 —2.4 基本统计概念

举报
华章计算机 发表于 2019/12/21 13:25:55 2019/12/21
【摘要】 本节书摘来自华章计算机《机器学习:算法视角(原书第2版)》 一书中第2章,第2.4.1节,作者是[新西兰] 史蒂芬·马斯兰(Stephen Marsland),高 阳 商 琳 等译。

2.4 基本统计概念

本节将简要介绍一些重要的统计概念。你可能已经知道这些知识,但我们将重复介绍,以突出显示其对机器学习的重要性。任何基本的统计书都会提供更详细的信息。

2.4.1 平均值

我们将从最基本的开始,即可用于表征数据集的两个数字:均值和方差。均值很容易得到,它是一组数据中最常用的平均值(average),是通过将数据集中的所有数据点相加并除以数据点总数得到的值。还有两个其他平均值:中位数(median)和众数(mode)。中位数是中间值,因此找到它最常见的方法是根据大小对数据集进行排序,然后找到中间的点(当然,如果有偶数个数据点,那么就没有确切的中间数据点,所以人们通常将两个点之间的值取为最接近中间的点)。在大多数算法教科书中描述的随机算法(randomised algorithm),是一种用于计算中位数的较快的算法。众数是最常见的值,只需要计算每个元素出现的次数并选择次数最多的元素。接下来,我们还需要了解方差和概率分布的概念。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。