《Python大规模机器学习》 —2.2.2第一个示例——流化共享单车数据集
【摘要】 本节书摘来自华章计算机《Python大规模机器学习》 一书中第2章,第2.2.2节,作者是[荷]巴斯蒂安·贾丁(Bastiaan Sjardin)[意]卢卡·马萨罗(Luca Massaron)[意]阿尔贝托·博斯凯蒂(Alberto Boschetti),王贵财 刘春明 译。
2.2.2第一个示例——流化共享单车数据集
第一个示例是使用共享单车数据集。此数据集包含两个CSV文件,其中收集了2011~2012年间在美国华盛顿特区共享单车系统中每小时和每天所出租的自行车数。这些数据显示了与租车日对应的天气和季节信息。我们的第一个目标是使用前面定义的打包器函数将数据集保存到本地硬盘:
如果成功运行,代码会提示CSV文件的保存目录,并打印两个解压缩文件的名称。此时,用物理设备保存信息后,应编写脚本,以构建非核心学习系统的核心,从而提供来自文件的数据流。首先使用CSV库,有两个选择:将数据恢复为列表或Python字典。我们首先恢复为列表:
输出信息将显示已读取的行数、标题的内容(即CSV文件第一行,存储在列表中时)和行内容(为方便起见仅打印最后一页)。csv.reader函数创建一个迭代器,利用for循环逐个读取文件的每一行。注意,代码段内专门有两处注释,指出应将整章中其他代码放置在何处来进行数据预处理和机器学习。
这种情况下,必须使用位置方法来处理特征,即对表头中的标签位置进行索引。如果大量频繁操作特征可能会有点麻烦。一种解决方案是使用csv.DictReader生成Python字典作为输出(无序,但利用标签很容易识别特征)。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)