Apache Spark 机器学习概述
1 机器学习概述
关于如何让计算机更加的智能化,从计算机诞生之时,应该就是不少计算机科学家的梦想。在智能计算领域,先后提出人工智能(Artificial Intelligence)、数据挖掘(Data Mining)、机器学习(Machine Learning)和深度学习(Deep Learning),这几块都有各自的专有内容,同时也有交集。根据百度百科上的定义,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径。它是当前计算机领域的研究热点。最近,我国提出新型基础设施建设(新基建)主要包括5G基站建设、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、大数据中心、人工智能、工业互联网七大领域,提供数字转型、智能升级、融合创新等服务的基础设施体系。
2 Spark MLlib
Spark当中也专门提供了机器学习算法库MLlib(Machine Learning Library)。MLlib中已经包含了一些通用的学习算法,具体罗列如下:
2.1 分类(Classification)算法
- Logistic regression
- Decision tree classifier
- Random forest classifier
- Gradient-boosted tree classifier
- Multilayer perceptron classifier
- Linear Support Vector Machine
- One-vs-Rest classifier
- Naive Bayes
- Factorization machines classifier
2.2 回归Regression算法
- Linear regression
- Generalized linear regression
- Decision tree regression
- Random forest regression
- Gradient-boosted tree regression
- Survival regression
- Isotonic regression
- Factorization machines regressor
2.3 聚类Clustering
- K-means
- Latent Dirichlet allocation (LDA)
- Bisecting k-means
- Gaussian Mixture Model (GMM)
- Power Iteration Clustering (PIC)
2.4 协同过滤(Collaborative Filtering)
2.5 关联规则(Frequent Pattern Mining)
2.6 降维(Dimensionality Reduction)
- Singular value decomposition (SVD)
- Principal component analysis (PCA)
算法库MLlib除了提供了基本的机器学习算法外,还提供了如下工具:
- 特征化(Featurization)
特征提取,变换,降维和选择。
- 管道(Pipelines)
用于构建,评估和调整ML管道的工具
- 持久性(Persistence)
保存和加载算法,模型和管道
- 通用工具(Utilities)
线性代数,统计信息,数据处理等。
算法中有分类和回归之分,其实本质上分类模型和回归模型是一样的,分类模型是将回归模型的输出离散化,比如预测某个上市公司财务是否良好,用1代表好,用0代表不好。而回归模型用于处理连续的值,比如预测一个公司明年的产量。
- 点赞
- 收藏
- 关注作者
评论(0)