大数据技术实战之Spark开发环境配置-scala项目

举报
tea_year 发表于 2024/06/10 17:33:31 2024/06/10
【摘要】 一、Spark开发环境配置-scala项目1. 确认已安装scala插件2. 创建一个新的scala工程(在已有的scala工程中配置也可以):3. 配置Spark开发依赖包(1) 点击菜单栏中的“File”->“Project Structure” ,选择“Libraries”。(2) 单击“+”按钮,选择“Java”选项。(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹,...

一、Spark开发环境配置-scala项目

1. 确认已安装scala插件


2. 创建一个新的scala工程(在已有的scala工程中配置也可以):

3. 配置Spark开发依赖包


(1) 点击菜单栏中的“File”->“Project Structure” ,选择“Libraries”。


(2) 单击“+”按钮,选择“Java”选项。


(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹,点击“OK”。



二、编写Spark WordCount程序

在src目录下创建scala class——object WordCount


三、提交程序到集群中运行

1. 在IDEA中将程序打成jar包

(%2) 选择“File”→“Project Structure”命令在弹出的对话框中选择“Artifacts”选项。

(%2) 选择“+”下的“JAR”选项中的“Empty”。


(%2) 在弹出的对话框中修改“Name”为自定义的JAR包的名字“word”,双击右侧栏工程下的“‘scala23’compile output”,它会转移到左侧,这里的scala23表示当前工程名,跟我这里不同是正常的设置完毕点“OK”。


2. 编译生成Artifact

(%2) 选择菜单栏中的“Build”→“Build Artifacts”命令。


(%2) 在弹出的方框中选择“word” →“build”。


(%2) 生成Artifact后,在工程目录中会有一个/out目录,可以看到生成的JAR包。


(%2) 在JAR包处单击右键,在弹出菜单中选择“Open in Explorer”命令,直接到达JAR包路径下。


3. 上传jar包及相关文件

(%2) 确认hadoop和spark集群已经启动。


(%2) Windows本地创建一个input目录,自建两个纯文本文件1.txt和2.txt,任意输入一些英文词句,作为词频统计的数据源


(%2) 将JAR包和input目录都上传到/opt/module/spark-3.2.1目录下


(%2) 将/opt/module/spark-3.2.1/input目录上传到HDFS的/目录下。

[syf@hadoop102 spark-3.2.1]$ hdfs dfs -put /opt/module/spark-3.2.1/input/ /



(%2) 打开HDFS web页面,查看确定数据上传成功后,可以进行下一步操作。


4. spark-submit提交任务

spark-submit --master<master-url>\    指定要连接的集群URL

--deploy-mode <deploy-mode> \    指定部署模式(cluster 或 client)

--conf <key>=<value> \        使用key=value格式设置任意的SparkConf配置选项

... # other options

--class <main-class> \        应用程序的入口点,指主程序

<application-jar> \            包含应用程序和所有依赖关系的捆绑JAR的路径

application-arguments        传递给主类的main方法的参数

[syf@hadoop102 spark-3.2.1]$ spark-submit --master spark://hadoop102:7077 \

> --class WordCount \

> /opt/module/spark-3.2.1/word.jar \

> "/input" "/output"


任务执行完毕,可打开HDFS web端查看执行结果:



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。