《Spark机器学习进阶实战》—— 2.4 简单的数据分析实践
2.4 简单的数据分析实践
本节为了更清楚地说明简单的数据分析实现,搭建Spark开发环境,并使用gowalla数据集进行简单的数据分析,该数据集较小,可在Spark本地模式下,快速运行实践。
实践步骤如下。
1)环境准备:准备开发环境并加载项目代码;
2)数据准备:数据预处理及one-hot编码;
3)数据分析:使用均值、方差、皮尔逊相关性计算等进行数据分析。
简单数据分析实践的详细代码参考ch02\GowallaDatasetExploration.scala,本地测试参数和值如表2-3所示。
2.4.1 环境准备
Spark程序常用IntelliJ IDEA工具进行开发,下载地址为www.jetbrains.com/idea/,一般选择Community版,当前版本是ideaIC-2017.3.4,支持Windows、Mac OS X、Linux,可以根据自己的情况选择适合的操作系统进行安装。
(1)安装scala-intellij插件
启动IDEA程序,进入“Configure”界面,选择“Plugins”,点击安装界面左下角的“Install JetBrains plugin”选项,进入JetBrains插件选择页面,输入“Scala”来查找Scala插件,点击“Install plugin”按钮进行安装(如果网络不稳定,可以根据页面提示的地址下载,然后选择“Install plugin from disk”本地加载插件),插件安装完毕,重启IDEA。
(2)创建项目开发环境
启动IDEA程序,选择“Create New Project”,进入创建程序界面,选择Scala对应的sbt选项,设置Scala工程名称和本地目录(以book2-master为例),选择SDK、SBT、Scala版本(作者的开发环境是Jdk->1.8.0_162、sbt->1.1.2、scala->2.11.12),点击“Finish”按钮完成工程的创建。
导入Spark开发包具体步骤为:File->Project Structure->Libraries->+New Project Library(Java),选择spark jars(如:spark-2.3.0-bin-hadoop2.6/jars)和本地libs(如:\book2-master\libs,包括nak_2.11-1.3、scala-logging-api_2.11-2.1.2、scala-logging-slf4j_2.11-2.1.2)。
(3)拷贝项目代码
拷贝源代码中的2rd_data、libs、output、src覆盖本地开发项目目录,即可完成开发环境搭建。
除此之外,也可以通过Maven方式导入项目。
- 点赞
- 收藏
- 关注作者
评论(0)