《Spark机器学习进阶实战》——2.3 数据分析的基本方法
【摘要】 本书摘自《Spark机器学习进阶实战》——书中的第2章,第2.3.1节,作者是马海平、于俊、吕昕、向海。
2.3 数据分析的基本方法
数据分析是以目标为导向的,通过目标实现选择数据分析的方法,常用的分析方法是统计分析,数据挖掘则需要使用机器学习构建模型。接下来介绍一些简单的数据分析方法。
2.3.1 汇总统计
统计是指用单个数或者数的小集合捕获很大值集的特征,通过少量数值来了解大量数据中的主要信息,常见统计指标包括以下几项。
分布度量:概率分布表、频率表、直方图;
频率度量:众数;
位置度量:均值、中位数;
散度度量:极差、方差、标准差;
多元比较:相关系数;
模型评估:准确率、召回率。
汇总统计对一个弹性分布式数据集(RDD)进行概括统计,它通过调用Statistics的colStats方法实现。colStats方法可以返回RDD的最大值、最小值、均值、方差等,代码实现如下:
import org.apache.spark.MLlib.linalg.Vector
import org.apache.spark.MLlib.stat.{MultivariateStatisticalSummary, Statistics}
// 向量[Vector]数据集
val data: RDD[Vector] = ...
// 汇总统计信息
val summary: statisticalSummary = Statistics.colStats(data)
// 平均值和方差
println(summary.mean)
println(summary.variance)
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)