《Python大规模机器学习》—1.1.4 使用Python进行向外扩展
【摘要】 本节书摘来自华章计算机《Python大规模机器学习》一书中的第1章,第1.1.4节,作者是[荷]巴斯蒂安·贾丁(Bastiaan Sjardin)[意]卢卡·马萨罗(Luca Massaron)[意]阿尔贝托·博斯凯蒂(Alberto Boschetti)王贵财刘春明译。
1.1.4 使用Python进行向外扩展
这只需将多台计算机连接成一个集群即可。连接机器(向外扩展)时,你还可以使用更强大的配置(从而扩展CPU、内存和I/O)来扩展其中的每一个,从而应用前面提到的技术并提高它们的性能。
通过连接多台机器,能够以并行方式利用其计算能力。待处理数据将分布在多个存储磁盘/存储器上,通过让每台计算机仅处理可用数据(即自身存储磁盘或RAM内存),从而限制I/O传输。
本书通过以下方式有效利用外部资源:
H2O框架
Hadoop框架及其组件,如HDFS、MapReduce和另一个资源协商器(YARN)
Hadoop之上的Spark框架
每一个框架都将由Python控制(例如,Spark的Python接口名为pySpark)。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)