《Spark机器学习进阶实战》——2.4.3 数据分析
2.4.3 数据分析
通过简单的数据分析流程,实现对均值、方差、非零元素的目录的统计,以及皮尔逊相关性计算,来实现对数据分析的流程和方法的理解。
简单的数据分析代码示例如下:
// 统计分析
val summary: MultivariateStatisticalSummary = Statistics.colStats(data)
// 均值、方差、非零元素的目录
println("Mean"+summary.mean)
println("Variance"+summary.variance)
println("NumNonzeros"+summary.numNonzeros)
// 皮尔逊
val correlMatrix: Matrix = Statistics.corr(data, "pearson")
println("correlMatrix"+correlMatrix.toString)
简单的数据分析示例运行结果如下:
均值:[60.16221566503564,25.30645613117692,37.17676390393301]
方差:[18547.42981193066,1198.630729157736,7350.7365871949905]
非零元素:[107092.0,107092.0,107092.0]
皮尔逊相关性矩阵:
1.0 0.7329442022276709 0.9324997691135504
0.7329442022276709 1.0 0.5920355112372706
0.9324997691135504 0.5920355112372706 1.0
- 点赞
- 收藏
- 关注作者
评论(0)