大数据技术实战之Spark开发环境配置-scala项目
一、Spark开发环境配置-scala项目
1. 确认已安装scala插件
2. 创建一个新的scala工程(在已有的scala工程中配置也可以):
3. 配置Spark开发依赖包
(1) 点击菜单栏中的“File”->“Project Structure” ,选择“Libraries”。
(2) 单击“+”按钮,选择“Java”选项。
(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹,点击“OK”。
二、编写Spark WordCount程序
在src目录下创建scala class——object WordCount
三、提交程序到集群中运行
1. 在IDEA中将程序打成jar包
(%2) 选择“File”→“Project Structure”命令,在弹出的对话框中选择“Artifacts”选项。
(%2) 选择“+”下的“JAR”选项中的“Empty”。
(%2) 在弹出的对话框中修改“Name”为自定义的JAR包的名字“word”,双击右侧栏工程下的“‘scala23’compile output”,它会转移到左侧,这里的scala23表示当前工程名,跟我这里不同是正常的。设置完毕点“OK”。
2. 编译生成Artifact
(%2) 选择菜单栏中的“Build”→“Build Artifacts”命令。
(%2) 在弹出的方框中选择“word” →“build”。
(%2) 生成Artifact后,在工程目录中会有一个/out目录,可以看到生成的JAR包。
(%2) 在JAR包处单击右键,在弹出菜单中选择“Open in Explorer”命令,直接到达JAR包路径下。
3. 上传jar包及相关文件
(%2) 确认hadoop和spark集群已经启动。
(%2) 在Windows本地创建一个input目录,自建两个纯文本文件1.txt和2.txt,任意输入一些英文词句,作为词频统计的数据源。
(%2) 将JAR包和input目录都上传到/opt/module/spark-3.2.1目录下。
(%2) 将/opt/module/spark-3.2.1/input目录上传到HDFS的/目录下。
[syf@hadoop102 spark-3.2.1]$ hdfs dfs -put /opt/module/spark-3.2.1/input/ /
(%2) 打开HDFS web页面,查看确定数据上传成功后,可以进行下一步操作。
4. spark-submit提交任务
spark-submit --master<master-url>\ 指定要连接的集群URL
--deploy-mode <deploy-mode> \ 指定部署模式(cluster 或 client)
--conf <key>=<value> \ 使用key=value格式设置任意的SparkConf配置选项
... # other options
--class <main-class> \ 应用程序的入口点,指主程序
<application-jar> \ 包含应用程序和所有依赖关系的捆绑JAR的路径
application-arguments 传递给主类的main方法的参数
[syf@hadoop102 spark-3.2.1]$ spark-submit --master spark://hadoop102:7077 \
> --class WordCount \
> /opt/module/spark-3.2.1/word.jar \
> "/input" "/output"
任务执行完毕,可打开HDFS web端查看执行结果:
- 点赞
- 收藏
- 关注作者
评论(0)