《Python大规模机器学习》 —2.1.3构建非核心学习系统

华章计算机发表于 2020/02/14 20:05:26 2020/02/14

【摘要】本节书摘来自华章计算机《Python大规模机器学习》一书中第2章，第2.1.3节，作者是［荷］巴斯蒂安·贾丁（Bastiaan Sjardin）［意］卢卡·马萨罗（Luca Massaron）［意］阿尔贝托·博斯凯蒂（Alberto Boschetti），王贵财刘春明译。

接下来的内容将说明随机梯度下降的内部工作原理，同时会提供更多细节和推理。现在知道非核心学习如何(由于随机梯度下降)允许我们更清楚地描述应该怎样让它在计算机上工作。可将我们的活动划分为不同任务：

1.准备逐实例访问数据存储库。该活动可能要求你在将数据传输到计算机之前对数据行的顺序进行随机化，以便删除排序可能带来的任何信息。

2.先做一些数据调查，也许是针对所有数据中的一部分（例如，前10 000行），尝试找出即将到达的数据实例是否具有一致的特征数、数据类型、是否存在数据值、每个变量的最小值和最大值，以及平均值和中位数。还要找出目标变量的范围或类。

3.将每个接收数据行准备成学习算法能接受的固定格式（密集或稀疏向量）。在这个阶段能执行任何基本转换，例如，将分类特征转换为数字特征，或者让数字特征本身通过交叉乘积进行交互。

4.在使示例顺序随机化后(如第一点所述)，通过一定数量观察后使用系统数据或新数据建立验证程序。

5.通过重复流化数据或处理小数据来调整超参数，这也是特征提取工作(使用无监督学习和特殊转换函数，如核近似)以及利用正则化和特征选择的合适时机。

6.使用为训练保留的数据建立最终模型，并在理想情况下用全新的数据测试模型的效果。

首先，我们将讨论如何准备你的数据，然后轻松地创建一个适合在线学习的数据流，从而利用Python包（如pandas和Scikit-learn）的功能函数进行学习。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。