《Spark机器学习进阶实战》——2.3 数据分析的基本方法

举报
华章计算机 发表于 2019/05/31 01:21:28 2019/05/31
【摘要】 本书摘自《Spark机器学习进阶实战》——书中的第2章,第2.3.1节,作者是马海平、于俊、吕昕、向海。

2.3 数据分析的基本方法

数据分析是以目标为导向的,通过目标实现选择数据分析的方法,常用的分析方法是统计分析,数据挖掘则需要使用机器学习构建模型。接下来介绍一些简单的数据分析方法。

2.3.1 汇总统计

统计是指用单个数或者数的小集合捕获很大值集的特征,通过少量数值来了解大量数据中的主要信息,常见统计指标包括以下几项。

分布度量:概率分布表、频率表、直方图;

频率度量:众数;

位置度量:均值、中位数;

散度度量:极差、方差、标准差;

多元比较:相关系数;

模型评估:准确率、召回率。

汇总统计对一个弹性分布式数据集(RDD)进行概括统计,它通过调用Statistics的colStats方法实现。colStats方法可以返回RDD的最大值、最小值、均值、方差等,代码实现如下:

import org.apache.spark.MLlib.linalg.Vector

import org.apache.spark.MLlib.stat.{MultivariateStatisticalSummary, Statistics}

// 向量[Vector]数据集

val data: RDD[Vector] = ... 

// 汇总统计信息

val summary: statisticalSummary = Statistics.colStats(data)

// 平均值和方差

println(summary.mean)

println(summary.variance) 


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。