数据挖掘
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、但又是潜在有用的信息和知识的过程。
数据挖掘又称为数据库中的知识发现(KDD:Knowledge Discovery in Database),实际上数据挖掘是知识发现过程的一个基本步骤。
数据挖掘的基本步骤包括:商业理解,数据理解,数据准备,数据建模,模型评估,模型实施。
商业理解:这一初始阶段集中在从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。具体地,包括:
确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;
项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;
确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等;
提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。
数据理解:数据理解阶段开始于原始数据的收集,然后是熟悉数据,标明数据质量问题,探索对数据的初步理解,发觉有趣的子集以形成对隐藏信息的假设。具体地,包括:
收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;
描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;
探索数据:对数据做简单的统计分析,例如关键属性的分布等;
检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。
数据准备:数据准备阶段包括所有从原始的未加工的数据构造最终数据集的活动(这些数据集指将要嵌入建模工具中的数据)。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务包括表格、记录和属性的选择以及按照建模工具要求,对数据的转换和清洗。具体地,包括:
数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择;
数据清洁:提高选择好的数据的质量,例如去除噪音,估计缺失值等;
数据创建:在原有数据的基础上是生成新的属性或记录;
数据合并:利用表连接等方式将几个数据集合并在一起;
数据格式化:把数据转换成适合数据挖掘处理的格式。
数据建模:在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题类型,会有多种模型技术。一些技术对数据格式有特殊的要求。因此,常常需要返回到数据准备阶段。具体地,包括:
选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;
测试方案设计:设计某种测试模型的质量和有效性的机制;
模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型;
模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。
模型评估:进入项目中的这个阶段时,你已经建立了一个模型(或者多个),从数据分析的角度来看,该模型似乎有很高的质量。在模型最后发布前,有一点是很重要的——更为彻底地评估模型和检查建立模型的各个步骤,从而确保它真正地达到了商业目标。此阶段关键目的是决定是否存在一些重要地商业问题仍未得到充分地考虑。关于数据挖掘结果的使用决定应该在此阶段结束时确定下来。具体地,包括:
结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;
过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误;
确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。
模型实施:模型的创建通常并不是项目的结尾。即使建模的目的是增加对数据的了解,所获得的了解也需要进行组织并以一种客户能够使用的方式呈现出来。具体地,包括:
实施计划:对在业务运作中部署模型作出计划;
监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型;
作出最终报告:项目总结,项目经验和项目结果;
项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。
- 点赞
- 收藏
- 关注作者
评论(0)