《Spark机器学习进阶实战》—— 2.4 简单的数据分析实践

举报
华章计算机 发表于 2019/05/31 01:32:00 2019/05/31
【摘要】 本书摘自《Spark机器学习进阶实战》——书中的第2章,第2.4.1节,作者是马海平、于俊、吕昕、向海。

2.4 简单的数据分析实践

本节为了更清楚地说明简单的数据分析实现,搭建Spark开发环境,并使用gowalla数据集进行简单的数据分析,该数据集较小,可在Spark本地模式下,快速运行实践。

实践步骤如下。

1)环境准备:准备开发环境并加载项目代码;

2)数据准备:数据预处理及one-hot编码;

3)数据分析:使用均值、方差、皮尔逊相关性计算等进行数据分析。

简单数据分析实践的详细代码参考ch02\GowallaDatasetExploration.scala,本地测试参数和值如表2-3所示。image.png

2.4.1 环境准备

Spark程序常用IntelliJ IDEA工具进行开发,下载地址为www.jetbrains.com/idea/,一般选择Community版,当前版本是ideaIC-2017.3.4,支持Windows、Mac OS X、Linux,可以根据自己的情况选择适合的操作系统进行安装。

(1)安装scala-intellij插件

启动IDEA程序,进入“Configure”界面,选择“Plugins”,点击安装界面左下角的“Install JetBrains plugin”选项,进入JetBrains插件选择页面,输入“Scala”来查找Scala插件,点击“Install plugin”按钮进行安装(如果网络不稳定,可以根据页面提示的地址下载,然后选择“Install plugin from disk”本地加载插件),插件安装完毕,重启IDEA。

(2)创建项目开发环境

启动IDEA程序,选择“Create New Project”,进入创建程序界面,选择Scala对应的sbt选项,设置Scala工程名称和本地目录(以book2-master为例),选择SDK、SBT、Scala版本(作者的开发环境是Jdk->1.8.0_162、sbt->1.1.2、scala->2.11.12),点击“Finish”按钮完成工程的创建。

导入Spark开发包具体步骤为:File->Project Structure->Libraries->+New Project Library(Java),选择spark jars(如:spark-2.3.0-bin-hadoop2.6/jars)和本地libs(如:\book2-master\libs,包括nak_2.11-1.3、scala-logging-api_2.11-2.1.2、scala-logging-slf4j_2.11-2.1.2)。

(3)拷贝项目代码

拷贝源代码中的2rd_data、libs、output、src覆盖本地开发项目目录,即可完成开发环境搭建。

除此之外,也可以通过Maven方式导入项目。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。