《Python大规模机器学习》 —2.1.3构建非核心学习系统
【摘要】 本节书摘来自华章计算机《Python大规模机器学习》 一书中第2章,第2.1.3节,作者是[荷]巴斯蒂安·贾丁(Bastiaan Sjardin)[意]卢卡·马萨罗(Luca Massaron)[意]阿尔贝托·博斯凯蒂(Alberto Boschetti),王贵财 刘春明 译。
2.1.3构建非核心学习系统
接下来的内容将说明随机梯度下降的内部工作原理,同时会提供更多细节和推理。现在知道非核心学习如何(由于随机梯度下降)允许我们更清楚地描述应该怎样让它在计算机上工作。可将我们的活动划分为不同任务:
1.准备逐实例访问数据存储库。该活动可能要求你在将数据传输到计算机之前对数据行的顺序进行随机化,以便删除排序可能带来的任何信息。
2.先做一些数据调查,也许是针对所有数据中的一部分(例如,前10 000行),尝试找出即将到达的数据实例是否具有一致的特征数、数据类型、是否存在数据值、每个变量的最小值和最大值,以及平均值和中位数。还要找出目标变量的范围或类。
3.将每个接收数据行准备成学习算法能接受的固定格式(密集或稀疏向量)。在这个阶段能执行任何基本转换,例如,将分类特征转换为数字特征,或者让数字特征本身通过交叉乘积进行交互。
4.在使示例顺序随机化后(如第一点所述),通过一定数量观察后使用系统数据或新数据建立验证程序。
5.通过重复流化数据或处理小数据来调整超参数,这也是特征提取工作(使用无监督学习和特殊转换函数,如核近似)以及利用正则化和特征选择的合适时机。
6.使用为训练保留的数据建立最终模型,并在理想情况下用全新的数据测试模型的效果。
首先,我们将讨论如何准备你的数据,然后轻松地创建一个适合在线学习的数据流,从而利用Python包(如pandas和Scikit-learn)的功能函数进行学习。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)