Spark案例:Python版统计单词个数

举报
howard2005 发表于 2021/12/29 23:40:03 2021/12/29
【摘要】 1、Python项目PythonSparkWordCount 2、input目录里的文本文件test.txt 3、创建word_count.py文件实现词频统计 import osimport shutil from pyspark import SparkContext inputpath = 'input'output...

1、Python项目PythonSparkWordCount

2、input目录里的文本文件test.txt

3、创建word_count.py文件实现词频统计


  
  1. import os
  2. import shutil
  3. from pyspark import SparkContext
  4. inputpath = 'input'
  5. outputpath = 'result'
  6. sc = SparkContext('local', 'wordcount')
  7. # 读取文件
  8. input = sc.textFile(inputpath)
  9. # 切分单词
  10. words = input.flatMap(lambda line: line.split(' '))
  11. # 转换成键值对并计数
  12. counts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)
  13. # 输出结果
  14. counts.foreach(print)
  15. # 删除输出目录
  16. if os.path.exists(outputpath):
  17. shutil.rmtree(outputpath, True)
  18. # 将统计结果写入结果文件
  19. counts.saveAsTextFile(outputpath)

运行程序,结果如下:

统计结果还保存在result目录下的part-00000文件里:

文章来源: howard2005.blog.csdn.net,作者:howard2005,版权归原作者所有,如需转载,请联系作者。

原文链接:howard2005.blog.csdn.net/article/details/79331562

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。