《机器学习:算法视角(原书第2版)》 —1.5 机器学习过程
1.5 机器学习过程
本节假设你对使用机器学习感兴趣,并且也对这一过程有一些疑问,例如之前描述的硬币分类。以下简要阐释机器学习算法选择、应用、评估问题的过程。
●数据收集和准备:本书配有可以随时下载和使用的数据集来测试算法。当然,在少数情况下,面对新的问题,我们需要从头开始收集数据,或者至少需要重组和准备数据。事实上,如果问题是全新的,那么可以选择适当的数据,这个过程应该与下一步特征选择合并,这样可以仅收集需要的数据。这通常可以通过组合一个相当小的数据集来完成,该数据集需要包含你认为可能有用的所有特征,并在选择最佳特征、收集和分析完整数据集之前进行试验。
通常,困难在于存在大量可能相关的数据,但很难收集这些数据,因为需要进行多次测量,或者因为它们处于各种位置并包含各种格式,不仅如此,我们很难恰当地融合它们,而且还要确保它们是干净的(clean),也就是说,没有重大错误或缺少数据等问题。
对于监督学习,还需要目标数据,这可能需要相关领域的专家参与和大量时间投入。
最后,需要考虑数据量。机器学习算法需要大量数据,最好没有太多噪声。但是随着数据集规模的增加,计算成本也在增加。对于大量数据,没有额外计算的“最优平衡点”通常很难预测。
●特征选择:1.4.2节中给出了研究可能对硬币识别有用的特征这一过程的一个例子。它通过实验鉴别了对于问题最有用的特征。这就要求对于问题和数据的先验知识,对于上面的硬币示例,常识可帮助我们识别一些可能有用的特征并排除其他特征。
除了识别对学习器有用的特征之外,还必须要求数据收集不必花费大量费用或时间,并且对收集过程中可能出现的噪声和其他数据损坏具有鲁棒性(robust)。
●算法选择:本书为你准备了对于给定数据集的算法(或算法群)选择方法,为此还包括了每个算法的基本原理知识及其使用示例。
●参数和模型选择:对于许多算法,必须手动设置参数,或者需要实验来识别适当的值。本书也会在合适的章节讨论这个问题。
●训练:给定数据集、算法和参数,训练应当只是使用计算资源来构建数据模型,以便预测关于新数据的输出。
●评估:在系统投入应用之前,需要对其进行测试并评估其在未经训练数据上的准确性。这通常包括与该领域的人类专家进行比较,以及为此选择适当的度量指标。
- 点赞
- 收藏
- 关注作者
评论(0)