Follow Me Study HCIE-Big Data-Data Mining 第一章 数据挖掘介绍 模块一

举报
高级云网管 发表于 2022/06/28 23:36:50 2022/06/28
【摘要】 HCIE-Big Data-Data Mining

image.png

华为大数据HCIE-Big Data-Data Mining数据挖掘专家在线课程 V2.0

数据挖掘基础数理知识、数据挖掘平台工具使用、爬虫技术、ETL技术、常用数据挖掘算法、模型评估与优化、Spark MLlib、大数据架构和大数据治理等


数据挖掘概述

数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程

数据挖掘的其他名称

  • 数据库内知识发现(KDD- Knowledge discovery in databases )
  • 数据/模式分析
  • 商业智能
  • 人工智能
  • ……

所谓"数据挖掘"的一种更广义的说法,知识发现是从各种信息中,根据不同的需求获得知识的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有效的、新颖的、潜在有用的知识,直接向使用者报告。

大数据概念

维基百科“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”

麦肯锡 “大数据指的是那些大小超过标准数据库工具软件能否收集、存储、管理和分析的数据集”

Gartner“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增产率和多样化的信息资产”

IDC “一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据流;或者从小数据开始,但数据每年增长60%”

大数据与数据挖掘的关系

大数据存储

image.png


  • 分布式存储 一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落

  • 关系数据库 建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据,同时也是一个被组织成一组拥有正式描述性的表格,该形式的表格作用的实质是装载着数据项的特殊收集体,这些表格中的数据能以许多不同的方式被存取或重新召集而不需要重新组织数据库表格

  • 云存储 在云计算(cloud computing)概念上延伸和衍生发展出来的一个新的概念。云计算是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。

大数据应用

image.png


  • 数据管理 利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。

  • 统计分析 指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。它是继统计设计、统计调查、统计整理之后的一项十分重要的工作,是在前几个阶段工作的基础上通过分析从而达到对研究对象更为深刻的认识。

  • 数据挖掘(Data mining) 又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

  • 并行计算(Parallel Computing) 指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。

  • 分布式计算 一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

数据挖掘所覆盖的学科

image.png

  • 数据挖掘是多个领域的融合

    • 人工智能
    • 数据库
    • 统计学
    • 并行计算
    • 图形学
    • ……
  • ① 数据挖掘某种意义上更多的是关注从大量的数据中获得新的见解

  • ② 机器学习聚焦于进行已知的任务,而数据挖掘则是搜寻隐藏的信息


数据挖掘场景

数据挖掘可以解决哪些问题

  • 如何能降低用户流失率?
  • 某个用户是否会响应本次营销活动?
  • 如何细分现有目标市场?
  • 如何制定交叉销售策略以提升销售额?
  • 如何预测未来销量?

image.png


金融

image.png


警务

image.png


政府

image.png


园区

image.png


电商

image.png


数据挖掘模式分类

image.png


(有)监督学习 – 分类

image.png

  • 对现有的数据进行学习,得到一个目标函数或规则,把每个属性集x映射到一个预先定义的类标号y上。
  • 上图的分类案例为识别手写数字图像

(有)监督学习 – 回归

image.png

  • 回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据。
  • 上图的回归案例为将299个增强(300个决策树)与单个决策树回归器进行比较,属于AdaBoost决策树回归算法

非(无)监督学习 – 聚类

image.png

  • 将数据对象分组成为多个类或者簇,它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
  • 上图的聚类案例为查找高密度的核心样本并从中扩展聚类,属于DBSCAN聚类算法

神经网络(不考)

image.png

  • 由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。

  • 上图的神经网络案例为在MNIST数据集上训练的MLPClassifier中的第一层权重


预处理

image.png

  • 在工程实践中,我们得到的数据会存在有缺失值、重复值、单位不统一等问题,在使用之前需要进行数据预处理。

  • 上图的预处理案例为未缩放的数据与StandardScaler缩放的数据应用PCA之后的可视化图进行比较

    • 第一个图中各个特征的数量级相差很大,
    • 第二个图中所有特征的数量级大致相同。
    • 通过朴素贝叶斯分类器后StandardScaler缩放的数据的预测精度远大于未缩放的数据。

特征(列)选择

image.png

  • 将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。

  • 上图的特征选择案例为通过交叉验证选择特征数量。最佳特征数量是3。


数据挖掘误区

(笔试考点,基本Flase)

image.png


数据分析 vs 数据挖掘

image.png


image.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。