一零二四、pyspark在jupyter中的完美运行

举报
托马斯-酷涛 发表于 2022/08/31 00:28:24 2022/08/31
【摘要】 1、配置环境变量 (1)JAVA_HOME (2)SPARK_HOME (3)HADOOP_HOME 2、安装pyspark包 注意此处默认安装的是最新的pyspark包,最新的跑不起来,换为2.3.2 即可使用 org.apache.spark.api.python.PythonUtils.isEncryptio...

1、配置环境变量

(1)JAVA_HOME

(2)SPARK_HOME

(3)HADOOP_HOME

2、安装pyspark包

注意此处默认安装的是最新的pyspark包,最新的跑不起来,换为2.3.2 即可使用

org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does not exist in the JVM

这个报错即需要将 pyspark 版本降为 2.3.2 完美运行

pip install pyspark==2.3.2
 

最好加上镜像源,会快很多

https://blog.csdn.net/m0_54925305/article/details/126596822?spm=1001.2014.3001.5501

3、初始化找到spark环境

py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does not exist in the JVM


  
  1. import findspark
  2. findspark.init()

当然需要:(最好加上镜像源,会快很多)

pip install findspark

4、运行代码


  
  1. import findspark
  2. findspark.init()
  3. from pyspark import SparkConf, SparkContext
  4. ## 配置spark
  5. sc.stop() #多次运行需要先停止再重新运行
  6. sparkConf = SparkConf().setMaster("local[6]").setAppName("My App") #"spark://node1:7077"为主节点master的地址
  7. sc = SparkContext(conf=sparkConf)
  8. file = sc.textFile("E:\Python大数据分析程序\share\stu_Score.csv")
  9. file.collect()

 可以随便找个数据读一下看看

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) created by <module> at /usr/local/spark/python/pyspark/shell.py:59 

出现这个错误是因为之前已经启动了SparkContext,所以需要先关闭spark,然后再启动。

也就是前面写的sc.stop()

步骤总结:

1、配置环境变量

2、安装pyspark包(2.3.2)

3、安装findspark包并在程序中加入 import findspark  findspark.init() 这两行代码

4、运行程序

文章来源: tuomasi.blog.csdn.net,作者:托马斯-酷涛,版权归原作者所有,如需转载,请联系作者。

原文链接:tuomasi.blog.csdn.net/article/details/126598019

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。