- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Spark机器学习进阶实战》——2.3　数据分析的基本方法

华章计算机发表于 2019/05/31 01:21:28 2019/05/31

【摘要】本书摘自《Spark机器学习进阶实战》——书中的第2章，第2.3.1节，作者是马海平、于俊、吕昕、向海。

2.3　数据分析的基本方法

数据分析是以目标为导向的，通过目标实现选择数据分析的方法，常用的分析方法是统计分析，数据挖掘则需要使用机器学习构建模型。接下来介绍一些简单的数据分析方法。

2.3.1　汇总统计

统计是指用单个数或者数的小集合捕获很大值集的特征，通过少量数值来了解大量数据中的主要信息，常见统计指标包括以下几项。

分布度量：概率分布表、频率表、直方图；

频率度量：众数；

位置度量：均值、中位数；

散度度量：极差、方差、标准差；

多元比较：相关系数；

模型评估：准确率、召回率。

汇总统计对一个弹性分布式数据集（RDD）进行概括统计，它通过调用Statistics的colStats方法实现。colStats方法可以返回RDD的最大值、最小值、均值、方差等，代码实现如下：

import org.apache.spark.MLlib.linalg.Vector

import org.apache.spark.MLlib.stat.{MultivariateStatisticalSummary, Statistics}

// 向量[Vector]数据集

val data: RDD[Vector] = ...

// 汇总统计信息

val summary: statisticalSummary = Statistics.colStats(data)

// 平均值和方差

println(summary.mean)

println(summary.variance)

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Spark机器学习进阶实战》——2.3　数据分析的基本方法

2.3　数据分析的基本方法

2.3.1　汇总统计

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《Spark机器学习进阶实战》——2.3 数据分析的基本方法

2.3 数据分析的基本方法

2.3.1 汇总统计

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《Spark机器学习进阶实战》——2.3　数据分析的基本方法

2.3　数据分析的基本方法

2.3.1　汇总统计