- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Python大规模机器学习》— 2.2.5 关注实例排序

华章计算机发表于 2019/06/12 21:51:33 2019/06/12

【摘要】本节书摘来自华章计算机《Python大规模机器学习》一书中的第2章，第2.2.5节，作者是［荷］巴斯蒂安·贾丁（Bastiaan Sjardin）［意］卢卡·马萨罗（Luca Massaron）［意］阿尔贝托·博斯凯蒂（Alberto Boschetti）王贵财刘春明译。

2.2.5 关注实例排序

作为数据流主题的总结，必须警告读者：数据流传输时实际上包含了学习过程中的隐藏信息，因为你的学习是按实例顺序进行的。

事实上，在线学习器会根据所评估的每个实例优化其参数，在优化过程中，每个实例都会引导学习器朝某个方向前进。

如果有足够多的评估实例，则在全局过程中学习器应采取正确优化方向

。但是,如果学习器是由有偏差的观察数据训练的（例如，按时间排序或以某种有意义分组的观察数据），那么算法也将学习偏差。训练过程中可以设法不记住之前看见的实例，但不管怎样还是会引入某些偏差。如果正在学习时间序列（对时间流的响应常常是模型的一部分），这种偏差相当有用，但在大多数其他情况下，它会导致某种过拟合，并在最终的模型中导致某种程度的泛化缺失。

如果数据经过某种排序，并且你希望机器算法学习该排序（如ID排序）,则有必要在传输数据前尽量打乱其顺序，以获得更适合在线随机学习的最优随机顺序。

最快和占用更少磁盘空间的方式是在内存中流化数据。大多数情况下（但不是全部），由于所训练数据的相对稀疏性和冗余性，以及所使用的压缩算法，该方式是有效的。而在无效的情况下，需要你直接在磁盘上打乱数据，这也意味着要用更多磁盘空间。

这里，首先介绍一种内存中的快速打乱方法，所用的zlib包能快速将行数据压缩到内存中，还会用到random模块中的shuffle函数：