《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》 —3.2 机器学习的实现方法

华章计算机 发表于 2019/11/15 15:43:31 2019/11/15
【摘要】 本节书摘来自华章计算机《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》一书中第3章,第3.2.1节,作者是王健宗 瞿晓阳  。

3.2 机器学习的实现方法

机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。机器学习主要可以分为3个类型:监督学习、非监督学习和强化学习。我们在这里仅介绍监督学习和非监督学习,强化学习的内容请参考第9章。

监督学习要求数据必须被标记过,计算机可以通过使用特定的模式来识别被标记的样本。监督学习可以分为两种类型:分类和回归。分类,即机器被训练来完成对一组数据进行特定的分类。生活中最常见的一种分类问题是垃圾邮件的分类。机器首先分析以前被用户标记为垃圾邮件的类型、特征等,然后将新邮件与这些曾被标记为垃圾邮件的邮件进行对比,根据设定的匹配度来做决定。假设将匹配度的阈值设为90%,即表示匹配度大于或等于90%的邮件被分类为垃圾邮件,而匹配度小于90%的邮件被认为是正常邮件。回归,即机器根据先前(标记)的数据来预测未来。天气预测是最好的回归例子,根据气象事件的历史数据(平均气温、湿度和降水量)和当前天气的数据,对未来的天气进行预测。

无监督学习,其数据是不需要被标记的,在我们的现实世界中的数据大多数也都是不带标签的,标记数据会浪费大量的人力物力,因此这类算法是非常有用的。无监督学习主要分为聚类和降维。聚类是指,根据数据的特征和行为对象进行分组,这里说的分组与分类算法是不同的,分类算法的组是人为规定的,而聚类算法中的组,则是由计算机自定义的,不是人为规定。聚类,将一组数据划分成不同的子组,如年龄、性别这样的特性,然后再将其应用到特定问题中。降维,则是通过找到数据间的共同点,来减少数据集的变量,减少冗余的发生。降维也是后文将会提到的特征工程中的一个重要方面。

下面我们将逐一介绍机器学习中一些经典问题,分别是分类问题、回归问题和聚类问题。

3.2.1 分类问题

在机器学习中,最常见的问题就是分类问题了。所谓分类问题,就是对输入数据,进行分类。通常,将能够完成分类任务的算法,称为分类器(Classifier)。即找到一个函数判断输入数据所属的类别,可以是二分类问题(是或不是),也可以是多分类问题(在多个类别中判断输入数据具体属于哪一个类别)。分类问题的输出值是离散的,其输出结果是用来指定其属于哪个类别。

分类问题的求解过程可以分为以下3个步骤:

1)确定一个模型,输入样本数据,最后输出其类别;

2)定义损失函数;

3)找出使损失函数最小的那个最优函数。

通过这种方法,可以直接计算出寻找到的最优函数,即样本属于每个类别的概率,这种方法被称为判别式(Discrimination)方法,因为其可以直接对样本所属类别进行判断,相应的模型也可以称为判别式模型。如果借助概率论的知识,分析每一类的特征,这样就可以将二分类问题应用到多分类问题中。以最简单的二分类为例,建模,使用条件概率,进行如下转换:

     image.png

基于贝叶斯定理,被写为:

     image.png

对于给定的样本数据,与类别无关,因此只需要考虑和,这两个分布正好是每一类样本的特征,因此只对这两个分布进行研究。

是类先验概率,即在未知其他条件下对事件发生概率的表示,这个值是通过以往经验和分析(历史数据)得到的结果。根据大数定律,当训练样本中包含充足的独立同分布样本时,可以通过各类样本的出现频率进行估计;与类先验概率相对应的是类后验(Posterior)概率,即需要建模的目标,表示在已知条件下事件发生的概率。

是类条件(class-conditional)概率,即在某个特定类别下,样本的发生概率。它是涉及关于样本所有特征的联合概率,如果有个特征且取值均为二值,那么样本空间大小将是,现实中训练样本的大小往往远小于这个值,因此通过频率估算显然是不可行的,因为“未被观测到”不等于“出现概率为0”。那么就需要应用其他方法进行求解了,如高斯分布、极大似然估计、朴素贝叶斯分类等。

1.高斯分布

通常,假定类条件概率符合某种确定的概率分布,训练样本都是从这个分布中随机采样得到的,“未被采样到的点”也对应一个发生概率。某种确定的概率分布通常被假设为高斯分布(Gaussian Distribution),现在就需要根据训练样本确定高斯分布的参数。多元高斯分布的概率密度函数如下:

     image.png

其中是的维数,是均值向量,是协方差矩阵,决定了分布的最高点,决定了分布的形状。

2.极大似然估计

任何一个高斯分布都可以采样出训练样本,但是分布的不同,采样出训练样本的可能性是不一样的,对给定和采样出训练样本的可能性可以写作:

     image.png

表示训练样本中属于类别的样本数目。最大化上面的似然函数,找出的和就是最佳参数。

     image.png

该方法被称为最大似然估计(Maximum Likelihood Estimation,MLE),参数和的最大似然估计为:

     

     image.png

也就是说,最佳是样本均值,协方差矩阵是的均值。现在已经计算出每个类别的和,这样就可以选择较大的那个类别作为的类别。

3.朴素贝叶斯分类

如果假设样本的所有特征值都是相互独立的,那么可以写成:

     image.png

其中,是特征数目,是第个属性。同样可以假设每一维特征上的概率分布仍然服从高斯分布,此时的高斯分布是一个一维高斯分布,对应一个实值,组成协方差矩阵也只在对角线位置有值,进一步减少了参数数目,得到了更简单的模型。这样的模型被称作朴素贝叶斯分类器(Naive Bayes classifier,NB)。最后,对于样本分布不一定要选择高斯分布,例如如果是二值分布,可以假设符合伯努利分布,具体应用中要根据样本特点具体而定。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。