《Python大规模机器学习》 —1.1.4使用Python进行向外扩展

华章计算机发表于 2020/02/14 17:51:33 2020/02/14

【摘要】本节书摘来自华章计算机《Python大规模机器学习》一书中第1章，第1.1.4节，作者是［荷］巴斯蒂安·贾丁（Bastiaan Sjardin）［意］卢卡·马萨罗（Luca Massaron）［意］阿尔贝托·博斯凯蒂（Alberto Boschetti），王贵财刘春明译。

这只需将多台计算机连接成一个集群即可。连接机器（向外扩展）时，你还可以使用更强大的配置（从而扩展CPU、内存和I/O）来扩展其中的每一个，从而应用前面提到的技术并提高它们的性能。

通过连接多台机器，能够以并行方式利用其计算能力。待处理数据将分布在多个存储磁盘/存储器上，通过让每台计算机仅处理可用数据（即自身存储磁盘或RAM内存），从而限制I/O传输。

本书通过以下方式有效利用外部资源：

H2O框架

Hadoop框架及其组件，如HDFS、MapReduce和另一个资源协商器(YARN）

Hadoop之上的Spark框架

每一个框架都将由Python控制（例如，Spark的Python接口名为pySpark）。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。