- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Python大规模机器学习》—3.2.4 使用SGD实现大规模SVM

华章计算机发表于 2019/06/13 16:20:41 2019/06/13

【摘要】本节书摘来自华章计算机《Python大规模机器学习》一书中的第3章，第3.2.4节，作者是［荷］巴斯蒂安·贾丁（Bastiaan Sjardin）［意］卢卡·马萨罗（Luca Massaron）［意］阿尔贝托·博斯凯蒂（Alberto Boschetti）王贵财刘春明译。

3.2.4 使用SGD实现大规模SVM

考虑到子采样的局限性（首先是指在大数据集上训练模型的欠拟合），当使用Scikitlearn中的适合于大规模流的线性SVM时，可用的唯一选项仍然是SGDClassifier和SGDRegressor方法，它们都包含在linear_model模块中。我们来看看如何以最佳方式使用它们，并改进我们在示例数据集上的结果。

我们利用本章前面示例中讨论的线性和逻辑回归来将其转化为高效SVM。至于分类，则需要使用loss超参数来设置损失类型。参数取值为'hinge'、'squared_hinge'和'modified_huber'。前面说明SVM公式时已对这些损失函数做了介绍和讨论。

这么做意味着使用软边界的线性SVM（无核函数），这将让SVM能抵抗误分类和噪声数据。但是，也可以使用损失“感知器”，这是一种引起无边界的hinge loss的损失类型，它适应于处理偏差较大的模型。

使用hinge loss函数时，必须考虑以下两方面才能得到最佳结果：

使用任何损失函数时，随机梯度下降变得懒惰，仅在示例违反以前定义的边界时才更新系数向量。这与在对数或平方误差中的损失函数完全相反，这时实际上每个示例都会用于更新系数向量。如果学习中涉及许多特征，那么这种懒惰方法会产生更稀疏的系数向量，从而减少过拟合。(更密集的向量意味着更多过拟合，因为某些系数可能捕获比数据信号中更多的噪声。）
仅'modified_huber'损失允许概率估计，这使它成为逻辑损失（详见随机逻辑回归）的可行替代方法。经过改进的Huber在处理多类的一对多（OVA）预测时，其多模型概率输出优于hinge loss的标准决策函数特征（概率比决策函数原始输出更好，因为其规模相同，在0~1之间）。该损失函数直接从决策函数中估计概率来工作：。

至于回归问题，SGDRegressor有两个SVM损失选项:

两者都能启动线性支持向量回归，在ε值内的误差将被忽略（预测残差）。如果超过ε值

，epsilon_insensitive损失会将此错误按原样处理。squared_epsilon_insensitive损失以类似方式运行，因为平凡导致误差更严重，但更大误差会影响构建更多模型。

在这两种情况下，设置正确的epsilon超参数至关重要。作为默认值，Scikitlearn建议epsilon = 0.1，但问题的最佳值必须通过交叉验证网格搜索来确定，具体过程将在下一段中看到。

请注意，在回归损失中，还可使用不启动SVM优化的'huber'损失，而只是通过从平方切换到线性损失传递epsilon参数值距离方式来修改常用的'squared_loss'，这样会对于异常值不敏感。

在本示例中，我们将重复流过程若干次，以演示如何设置不同超参数和变换特征;我们将使用方便的函数来减少重复的代码行数量。此外，限制实例数量或算法的容差值可以加快实例运行速度。以这种方式能保持最短训练和验证时间，而不会让你等太久。

至于方便的包装函数，第一个将有目的地一次流化部分或全部数据（使用max_rows参数设置限制）。完成流化后，该函数找出所有分类特征的级别并记录数字的不同范围。提醒一下，记录范围是非常重要的。SGD和SVM算法对不同范围尺度非常敏感，它们在处理［-1,1］范围以外的数据时性能较差。

我们的函数输出返回两个已训练的Scikitlearn对象：DictVectorizer（将字典中的特征范围转换为特征向量）和重新缩放［0,1］范围内的数值变量的MinMaxScaler（用于保持数据集中的值稀疏，从而使得内存使用率降低，并在大多数值为零时实现快速计算）。唯一约束是要求用户知道用于预测模型的数值和类别变量的特征名，实际上忽略未包含在binary_features或numeric_features参数列表中的特征。如果流没有特征名，则需要使用fieldnames参数对其命名: