《数据科学与分析:Python语言实现》 —3.4 学习、预测和分类

举报
华章计算机 发表于 2020/02/15 21:30:28 2020/02/15
【摘要】 本节书摘来自华章计算机《数据科学与分析:Python语言实现》 一书中第3章,第3.4节,作者是[英]赫苏斯·罗格尔–萨拉查(Jesús Rogel-Salazar),白 皓 刘江一 上官明乔 刁 娟 译。

3.4 学习、预测和分类

机器学习算法的实现涉及分析可用于改进代理模型的数据,并使用结果来预测感兴趣的量或在出现不确定性时做出决定。

重要的是要记住,为了提供预测和分类能力,机器学习对数据的规律性或模式感兴趣,这不一定与因果关系相同。根据观察到的数据,我们需要进行更彻底的检查才能声明原因和结果。

机器学习任务传统上分为两个阵营:预测或监督学习以及描述性或无监督学习。让我们从监督学习开始:这种类型的任务的一个很好的例子是传统的师生情况,即教师向学生展示一些已知的例子以供学习。

监督学习使用标签对数据进行分类。让我们回到猫脸的分类:老师知道猫长什么样子,并向学生展示猫和其他几个动物的图像,学生根据图像中动物的特征或属性来学习猫是什么样子。老师会为每个图像提供一个标签来说明图像中显示的是否是猫。在测试部分,老师将呈现各种动物的图像,并且期望学生对图像进行正确的分类。

在机器学习中,我们说的监督学习是指在标记的输入–输出对的帮助下学习从输入到输出的映射。监督学习使我们能够根据看到的数据进行广泛的预测。

每个输入都具有许多可以用N维向量表示的特征,这将有助于学习每个训练样例的标签。将监督学习任务想象成为登山者提供带注释的地图(该登山者正在注册以成为乞力马扎罗山(非洲最高的山)探险队的成员),并要求其识别途中与地图上的标记相似的景观特征。

另一种机器学习任务是无监督学习。在这种情况下,按照老师–学生的例子,老师采取蒙特梭利(Montessori)式的方法,不向学生提供任何提示或标签,让学生自己探索一个关于猫(或学生偏好的任何其他动物)看起来像什么的规则。

在这种情况下,从机器学习的角度来看,没有输入–输出对。相反,我们只有未标记的输入及其相关的N维特征向量,而且没有被告知必须寻找那种模式。在这方面,无监督学习任务的定义不如监督学习任务。

这并不意味着无监督学习没那么有用,相反,我们可以使用无监督学习来更好地理解所获得的数据,它可以为我们提供数据集的描述或分类,以及发现有趣的模式。换句话说,无监督学习让我们通过从数据中提取结构来更好地表示数据。

在无监督学习模式中,对应乞力马扎罗山登山者的例子,我们会要求登山者在没有带注释的地图的情况下继续他们的旅行,他们可以从在山顶看到的景观中找出感兴趣的区域。需要注意的是,无监督学习任务可以使我们为这些输入分配标签,从而打开使用预测或监督学习的大门。

我们已经接触到了有标签和无标签的数据,这为我们提供了一些解决问题的线索。现在让我们将注意力转向特征和标签(如果存在)。在3.1节中,给出了一些使我们能够识别猫的特征的例子。其中一些特征可以量化,例如我们提到它必须是一个小型的毛茸茸的动物。有多小?我们可以将一个数字与该测量值相关联,然后我们将讨论数值或连续变量。连续变量通常与测量单位相关联,我们可以用实数表示它们。

也可能有一些不能用数字表示的属性,但提供了关于属性类型的描述。在猫的例子中,我们提到了三角形的耳朵,而不是圆形或松软的耳朵。其他属性包括颜色(黑猫、白猫)、性别(雄性/雌性)等。我们将这些属性称为分类或名义变量,并且通常与类或类别相关。

对数据集中的要素类型和标签进行分类似乎是多余的。然而,进一步的审查将让我们看到这种无害的分组使我们能够识别可能更适合的问题的机器学习算法的类型来解决所面临的问题。请看表3.1,其中提供了属于每个类别的一些典型机器学习算法。

image.png

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。