数据挖掘算法初识
《数据挖掘技术与应用》
【实验名称】 实验一:数据挖掘算法初识 |
【实验目的】 |
1.了解挖掘算法的理论基础 2.平台实现算法 3. Mining平台实现 |
【实验原理】 |
Mining大数据挖掘平台是一款基于组件的数据挖掘,机器学习和数据分析的工具。它包括一系列可视化、探索、预处理和建模组件。除了以python模块使用之外,Mining大数据挖掘平台还提供了GUI,可以用预先定义好的多种模块组成工作流来完成复杂的数据挖掘工作。 |
【实验环境】 |
OS:Ubuntu16.04 PyCharm: 2017.3 Mining |
【实验步骤】 |
题目一:Mining数据的导入 题目二:Mining数据的处理 题目三:Mining数据的可视化 题目四:Mining数据的分类 题目五:Mining数据的聚类 题目六:Mining模型的评测 题目七:使用Mining数据挖掘平台进行汽车数据分析 实验流程图: 原始数据集可在斯洛文尼亚OPSI门户获取: 在探索数据时,我们首先要做的是查看分布。使用distribution组件我们观察到新买的二手车的分布,我们可以看出,男人更喜欢二手车,而女人更喜欢新车。或者我们可以观察到的年龄分布看,老年人更倾向于购买新车 。 但是如果我们在地图上看到数据,Mining的真正力量就可以显现出。为了做到这一点,我们首先需要使用Geocoding模块编码市的名字地区,可选择包含市名称的列显示在地图上(c1.3-obcina uporabnika),单击“应用”。 Geocoding模块可以与Choropleth模块同时使用。Choropleth模块中我们选择属性d.1-znamka和聚集的模式,我们得到了一个 可视化显示最常买的各区域模式。你能猜出哪个厂家符合粉红色(ISH)的颜色吗?这就是大众,在一些地区,高尔夫与帕萨特等地区。 但可视化给我们只是每个市最常见的价值。如果我们想知道更多呢?与所有可视化的情况一样,您可以单击地图上的特定区域来选择它,并在输出中获取相应的数据。然后,我们可以使用清除域忽略在选定区域中未销售的模型和框图,以可视化模型或制造商的分布。 使用Box Plot模块,选择znamka作为变量和子群,你得到的汽车制造商在选定的区域分布概述。但那只是第一步。我们也可以采取增加一新Box Plot模块观测菲亚特轿车分销。现在你可以选择制造商,并获得详细的销售特定车型。如果你注意定位的Windows,你可以创建一个交互式浏览器,你点击的区域并立即在连接的盒状图查看详细分布。 |
总结
机器学习和数据分析的工具。它包括一系列可视化、探索、预处理和建模组件。学习python模块使用之外、GUI,可以用预先定义好的多种模块组成工作流来完成复杂的数据挖掘工作
- 点赞
- 收藏
- 关注作者
评论(0)