- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大数据技术实战之Spark开发环境配置-scala项目

tea_year 发表于 2024/06/10 17:33:31 2024/06/10

【摘要】一、Spark开发环境配置-scala项目1. 确认已安装scala插件2. 创建一个新的scala工程（在已有的scala工程中配置也可以）：3. 配置Spark开发依赖包(1) 点击菜单栏中的“File”->“Project Structure” ，选择“Libraries”。(2) 单击“+”按钮，选择“Java”选项。(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹，...

一、Spark开发环境配置-scala项目

1. 确认已安装scala插件

2. 创建一个新的scala工程（在已有的scala工程中配置也可以）：

3. 配置Spark开发依赖包

(1) 点击菜单栏中的“File”->“Project Structure” ，选择“Libraries”。

(2) 单击“+”按钮，选择“Java”选项。

(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹，点击“OK”。

二、编写Spark WordCount程序

在src目录下创建scala class——object WordCount

三、提交程序到集群中运行

1. 在IDEA中将程序打成jar包

(%2) 选择“File”→“Project Structure”命令，在弹出的对话框中选择“Artifacts”选项。

(%2) 选择“+”下的“JAR”选项中的“Empty”。

(%2) 在弹出的对话框中修改“Name”为自定义的JAR包的名字“word”，双击右侧栏工程下的“‘scala23’compile output”，它会转移到左侧，这里的scala23表示当前工程名，跟我这里不同是正常的。设置完毕点“OK”。

2. 编译生成Artifact

(%2) 选择菜单栏中的“Build”→“Build Artifacts”命令。

(%2) 在弹出的方框中选择“word” →“build”。

(%2) 生成Artifact后，在工程目录中会有一个/out目录，可以看到生成的JAR包。

(%2) 在JAR包处单击右键，在弹出菜单中选择“Open in Explorer”命令，直接到达JAR包路径下。

3. 上传jar包及相关文件

(%2) 确认hadoop和spark集群已经启动。

(%2) 在Windows本地创建一个input目录，自建两个纯文本文件1.txt和2.txt，任意输入一些英文词句，作为词频统计的数据源。

(%2) 将JAR包和input目录都上传到/opt/module/spark-3.2.1目录下。

(%2) 将/opt/module/spark-3.2.1/input目录上传到HDFS的/目录下。

[syf@hadoop102 spark-3.2.1]$ hdfs dfs -put /opt/module/spark-3.2.1/input/ /

(%2) 打开HDFS web页面，查看确定数据上传成功后，可以进行下一步操作。

4. spark-submit提交任务

spark-submit --master<master-url>\ 指定要连接的集群URL

--deploy-mode <deploy-mode> \ 指定部署模式（cluster 或 client）

--conf <key>=<value> \ 使用key=value格式设置任意的SparkConf配置选项

... # other options

--class <main-class> \ 应用程序的入口点，指主程序

<application-jar> \ 包含应用程序和所有依赖关系的捆绑JAR的路径

application-arguments 传递给主类的main方法的参数

[syf@hadoop102 spark-3.2.1]$ spark-submit --master spark://hadoop102:7077 \

> --class WordCount \

> /opt/module/spark-3.2.1/word.jar \

> "/input" "/output"

任务执行完毕，可打开HDFS web端查看执行结果：

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

大数据技术实战之Spark开发环境配置-scala项目

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品