《机器学习:算法视角(原书第2版)》 —1.5 机器学习过程

举报
华章计算机 发表于 2019/12/21 11:38:53 2019/12/21
【摘要】 本节书摘来自华章计算机《机器学习:算法视角(原书第2版)》 一书中第1章,第1.5节,作者是[新西兰] 史蒂芬·马斯兰(Stephen Marsland),高 阳 商 琳 等译。

1.5 机器学习过程

本节假设你对使用机器学习感兴趣,并且也对这一过程有一些疑问,例如之前描述的硬币分类。以下简要阐释机器学习算法选择、应用、评估问题的过程。

●数据收集和准备:本书配有可以随时下载和使用的数据集来测试算法。当然,在少数情况下,面对新的问题,我们需要从头开始收集数据,或者至少需要重组和准备数据。事实上,如果问题是全新的,那么可以选择适当的数据,这个过程应该与下一步特征选择合并,这样可以仅收集需要的数据。这通常可以通过组合一个相当小的数据集来完成,该数据集需要包含你认为可能有用的所有特征,并在选择最佳特征、收集和分析完整数据集之前进行试验。

通常,困难在于存在大量可能相关的数据,但很难收集这些数据,因为需要进行多次测量,或者因为它们处于各种位置并包含各种格式,不仅如此,我们很难恰当地融合它们,而且还要确保它们是干净的(clean),也就是说,没有重大错误或缺少数据等问题。

对于监督学习,还需要目标数据,这可能需要相关领域的专家参与和大量时间投入。

最后,需要考虑数据量。机器学习算法需要大量数据,最好没有太多噪声。但是随着数据集规模的增加,计算成本也在增加。对于大量数据,没有额外计算的“最优平衡点”通常很难预测。

●特征选择:1.4.2节中给出了研究可能对硬币识别有用的特征这一过程的一个例子。它通过实验鉴别了对于问题最有用的特征。这就要求对于问题和数据的先验知识,对于上面的硬币示例,常识可帮助我们识别一些可能有用的特征并排除其他特征。

除了识别对学习器有用的特征之外,还必须要求数据收集不必花费大量费用或时间,并且对收集过程中可能出现的噪声和其他数据损坏具有鲁棒性(robust)。

●算法选择:本书为你准备了对于给定数据集的算法(或算法群)选择方法,为此还包括了每个算法的基本原理知识及其使用示例。

●参数和模型选择:对于许多算法,必须手动设置参数,或者需要实验来识别适当的值。本书也会在合适的章节讨论这个问题。

●训练:给定数据集、算法和参数,训练应当只是使用计算资源来构建数据模型,以便预测关于新数据的输出。

●评估:在系统投入应用之前,需要对其进行测试并评估其在未经训练数据上的准确性。这通常包括与该领域的人类专家进行比较,以及为此选择适当的度量指标。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。