《Python大规模机器学习》— 2.2.2 第一个示例——流化共享单车数据集

华章计算机发表于 2019/06/12 21:39:18 2019/06/12

【摘要】本节书摘来自华章计算机《Python大规模机器学习》一书中的第2章，第2.2.2节，作者是［荷］巴斯蒂安·贾丁（Bastiaan Sjardin）［意］卢卡·马萨罗（Luca Massaron）［意］阿尔贝托·博斯凯蒂（Alberto Boschetti）王贵财刘春明译。

第一个示例是使用共享单车数据集。此数据集包含两个CSV文件，其中收集了2011~2012年间在美国华盛顿特区共享单车系统中每小时和每天所出租的自行车数。这些数据显示了与租车日对应的天气和季节信息。我们的第一个目标是使用前面定义的打包器函数将数据集保存到本地硬盘：

如果成功运行，代码会提示CSV文件的保存目录，并打印两个解压缩文件的名称。此时，用物理设备保存信息后，应编写脚本，以构建非核心学习系统的核心，从而提供来自文件的数据流。首先使用CSV库，有两个选择：将数据恢复为列表或Python字典。我们首先恢复为列表：

输出信息将显示已读取的行数、标题的内容（即CSV文件第一行，存储在列表中时）和行内容(为方便起见仅打印最后一页)。csv.reader函数创建一个迭代器，利用for循环逐个读取文件的每一行。注意，代码段内专门有两处注释，指出应将整章中其他代码放置在何处来进行数据预处理和机器学习。

这种情况下，必须使用位置方法来处理特征，即对表头中的标签位置进行索引。如果大量频繁操作特征可能会有点麻烦。一种解决方案是使用csv.DictReader生成Python字典作为输出(无序，但利用标签很容易识别特征)。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

《Python大规模机器学习》— ​2.2.2 第一个示例——流化共享单车数据集