- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《深入理解AutoML和AutoDL：构建自动化机器学习与深度学习平台》 —3.2　机器学习的实现方法

华章计算机发表于 2019/11/15 15:43:31 2019/11/15

【摘要】本节书摘来自华章计算机《深入理解AutoML和AutoDL：构建自动化机器学习与深度学习平台》一书中第3章，第3.2.1节，作者是王健宗　瞿晓阳　　。

3.2　机器学习的实现方法

机器学习的核心是“使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。这意味着，与其显式地编写程序来执行某些任务，不如教计算机如何开发一个算法来完成任务。机器学习主要可以分为3个类型：监督学习、非监督学习和强化学习。我们在这里仅介绍监督学习和非监督学习，强化学习的内容请参考第9章。

监督学习要求数据必须被标记过，计算机可以通过使用特定的模式来识别被标记的样本。监督学习可以分为两种类型：分类和回归。分类，即机器被训练来完成对一组数据进行特定的分类。生活中最常见的一种分类问题是垃圾邮件的分类。机器首先分析以前被用户标记为垃圾邮件的类型、特征等，然后将新邮件与这些曾被标记为垃圾邮件的邮件进行对比，根据设定的匹配度来做决定。假设将匹配度的阈值设为90%，即表示匹配度大于或等于90%的邮件被分类为垃圾邮件，而匹配度小于90%的邮件被认为是正常邮件。回归，即机器根据先前（标记）的数据来预测未来。天气预测是最好的回归例子，根据气象事件的历史数据（平均气温、湿度和降水量）和当前天气的数据，对未来的天气进行预测。

无监督学习，其数据是不需要被标记的，在我们的现实世界中的数据大多数也都是不带标签的，标记数据会浪费大量的人力物力，因此这类算法是非常有用的。无监督学习主要分为聚类和降维。聚类是指，根据数据的特征和行为对象进行分组，这里说的分组与分类算法是不同的，分类算法的组是人为规定的，而聚类算法中的组，则是由计算机自定义的，不是人为规定。聚类，将一组数据划分成不同的子组，如年龄、性别这样的特性，然后再将其应用到特定问题中。降维，则是通过找到数据间的共同点，来减少数据集的变量，减少冗余的发生。降维也是后文将会提到的特征工程中的一个重要方面。

下面我们将逐一介绍机器学习中一些经典问题，分别是分类问题、回归问题和聚类问题。

3.2.1　分类问题

在机器学习中，最常见的问题就是分类问题了。所谓分类问题，就是对输入数据，进行分类。通常，将能够完成分类任务的算法，称为分类器（Classifier）。即找到一个函数判断输入数据所属的类别，可以是二分类问题（是或不是），也可以是多分类问题（在多个类别中判断输入数据具体属于哪一个类别）。分类问题的输出值是离散的，其输出结果是用来指定其属于哪个类别。

分类问题的求解过程可以分为以下3个步骤：

1）确定一个模型，输入样本数据，最后输出其类别；

2）定义损失函数；

3）找出使损失函数最小的那个最优函数。

通过这种方法，可以直接计算出寻找到的最优函数，即样本属于每个类别的概率，这种方法被称为判别式（Discrimination）方法，因为其可以直接对样本所属类别进行判断，相应的模型也可以称为判别式模型。如果借助概率论的知识，分析每一类的特征，这样就可以将二分类问题应用到多分类问题中。以最简单的二分类为例，建模，使用条件概率，进行如下转换：

基于贝叶斯定理，被写为：

对于给定的样本数据，与类别无关，因此只需要考虑和，这两个分布正好是每一类样本的特征，因此只对这两个分布进行研究。

是类先验概率，即在未知其他条件下对事件发生概率的表示，这个值是通过以往经验和分析（历史数据）得到的结果。根据大数定律，当训练样本中包含充足的独立同分布样本时，可以通过各类样本的出现频率进行估计；与类先验概率相对应的是类后验（Posterior）概率，即需要建模的目标，表示在已知条件下事件发生的概率。

是类条件（class-conditional）概率，即在某个特定类别下，样本的发生概率。它是涉及关于样本所有特征的联合概率，如果有个特征且取值均为二值，那么样本空间大小将是，现实中训练样本的大小往往远小于这个值，因此通过频率估算显然是不可行的，因为“未被观测到”不等于“出现概率为0”。那么就需要应用其他方法进行求解了，如高斯分布、极大似然估计、朴素贝叶斯分类等。

1.高斯分布

通常，假定类条件概率符合某种确定的概率分布，训练样本都是从这个分布中随机采样得到的，“未被采样到的点”也对应一个发生概率。某种确定的概率分布通常被假设为高斯分布（Gaussian Distribution），现在就需要根据训练样本确定高斯分布的参数。多元高斯分布的概率密度函数如下：

其中是的维数，是均值向量，是协方差矩阵，决定了分布的最高点，决定了分布的形状。

2.极大似然估计

任何一个高斯分布都可以采样出训练样本，但是分布的不同，采样出训练样本的可能性是不一样的，对给定和采样出训练样本的可能性可以写作：

表示训练样本中属于类别的样本数目。最大化上面的似然函数，找出的和就是最佳参数。

该方法被称为最大似然估计（Maximum Likelihood Estimation，MLE），参数和的最大似然估计为：

也就是说，最佳是样本均值，协方差矩阵是的均值。现在已经计算出每个类别的和，这样就可以选择较大的那个类别作为的类别。

3.朴素贝叶斯分类

如果假设样本的所有特征值都是相互独立的，那么可以写成：

其中，是特征数目，是第个属性。同样可以假设每一维特征上的概率分布仍然服从高斯分布，此时的高斯分布是一个一维高斯分布，对应一个实值，组成协方差矩阵也只在对角线位置有值，进一步减少了参数数目，得到了更简单的模型。这样的模型被称作朴素贝叶斯分类器（Naive Bayes classifier，NB）。最后，对于样本分布不一定要选择高斯分布，例如如果是二值分布，可以假设符合伯努利分布，具体应用中要根据样本特点具体而定。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《深入理解AutoML和AutoDL：构建自动化机器学习与深度学习平台》 —3.2　机器学习的实现方法

3.2　机器学习的实现方法

3.2.1　分类问题

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《深入理解AutoML和AutoDL：构建自动化机器学习与深度学习平台》 —3.2 机器学习的实现方法

3.2 机器学习的实现方法

3.2.1 分类问题

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品

《深入理解AutoML和AutoDL：构建自动化机器学习与深度学习平台》 —3.2　机器学习的实现方法

3.2　机器学习的实现方法

3.2.1　分类问题