《Spark机器学习进阶实战》——2.4.3 数据分析
【摘要】 本书摘自《Spark机器学习进阶实战》——书中的第2章,第2.4.3节,作者是马海平、于俊、吕昕、向海。
2.4.3 数据分析
通过简单的数据分析流程,实现对均值、方差、非零元素的目录的统计,以及皮尔逊相关性计算,来实现对数据分析的流程和方法的理解。
简单的数据分析代码示例如下:
// 统计分析
val summary: MultivariateStatisticalSummary = Statistics.colStats(data)
// 均值、方差、非零元素的目录
println("Mean"+summary.mean)
println("Variance"+summary.variance)
println("NumNonzeros"+summary.numNonzeros)
// 皮尔逊
val correlMatrix: Matrix = Statistics.corr(data, "pearson")
println("correlMatrix"+correlMatrix.toString)
简单的数据分析示例运行结果如下:
均值:[60.16221566503564,25.30645613117692,37.17676390393301]
方差:[18547.42981193066,1198.630729157736,7350.7365871949905]
非零元素:[107092.0,107092.0,107092.0]
皮尔逊相关性矩阵:
1.0 0.7329442022276709 0.9324997691135504
0.7329442022276709 1.0 0.5920355112372706
0.9324997691135504 0.5920355112372706 1.0
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)