Apache Spark 机器学习概述

举报
jackwangcumt 发表于 2021/10/20 21:05:07 2021/10/20
【摘要】 机器学习是人工智能的核心,是使计算机具有智能的根本途径。它是当前计算机领域的研究热点。最近,我国提出新型基础设施建设(新基建)主要包括5G基站建设、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、大数据中心、人工智能、工业互联网七大领域,提供数字转型、智能升级、融合创新等服务的基础设施体系。

1 机器学习概述


  关于如何让计算机更加的智能化,从计算机诞生之时,应该就是不少计算机科学家的梦想。在智能计算领域,先后提出人工智能(Artificial Intelligence)、数据挖掘(Data Mining)、机器学习(Machine Learning)和深度学习(Deep Learning),这几块都有各自的专有内容,同时也有交集。根据百度百科上的定义,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

  机器学习是人工智能的核心,是使计算机具有智能的根本途径。它是当前计算机领域的研究热点。最近,我国提出新型基础设施建设(新基建)主要包括5G基站建设、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、大数据中心、人工智能、工业互联网七大领域,提供数字转型、智能升级、融合创新等服务的基础设施体系。

2 Spark MLlib


Spark当中也专门提供了机器学习算法库MLlibMachine Learning Library)。MLlib中已经包含了一些通用的学习算法,具体罗列如下:

2.1 分类(Classification)算法

  • Logistic regression
  • Decision tree classifier
  • Random forest classifier
  • Gradient-boosted tree classifier
  • Multilayer perceptron classifier
  • Linear Support Vector Machine
  • One-vs-Rest classifier
  • Naive Bayes
  • Factorization machines classifier

2.2 回归Regression算法

  • Linear regression
  • Generalized linear regression
  • Decision tree regression
  • Random forest regression
  • Gradient-boosted tree regression
  • Survival regression
  • Isotonic regression
  • Factorization machines regressor

2.3 聚类Clustering

  • K-means
  • Latent Dirichlet allocation (LDA)
  • Bisecting k-means
  • Gaussian Mixture Model (GMM)
  • Power Iteration Clustering (PIC)

2.4 协同过滤(Collaborative Filtering

2.5 关联规则(Frequent Pattern Mining

2.6 降维(Dimensionality Reduction

  • Singular value decomposition (SVD)
  • Principal component analysis (PCA)

算法库MLlib除了提供了基本的机器学习算法外,还提供了如下工具:

  • 特征化(Featurization

特征提取,变换,降维和选择。

  • 管道(Pipelines

用于构建,评估和调整ML管道的工具

  • 持久性(Persistence

保存和加载算法,模型和管道

  • 通用工具(Utilities

线性代数,统计信息,数据处理等。

算法中有分类和回归之分,其实本质上分类模型和回归模型是一样的,分类模型是将回归模型的输出离散化,比如预测某个上市公司财务是否良好,用1代表好,用0代表不好。而回归模型用于处理连续的值,比如预测一个公司明年的产量。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。