- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

如何使用免费notebook完成频繁项集的挖掘

职场菜鸟发表于 2021/06/29 11:37:01 2021/06/29

【摘要】使用notebook完成FP-growth算法的编写并输出频繁项集

FP-growth算法的原理等更多详情可参考：https://github.com/shurenlee/MachineLearning-1/blob/python-2.7/docs/12.%E4%BD%BF%E7%94%A8FP-growth%E7%AE%97%E6%B3%95%E6%9D%A5%E9%AB%98%E6%95%88%E5%8F%91%E7%8E%B0%E9%A2%91%E7%B9%81%E9%A1%B9%E9%9B%86.md

FP-growth 原理

基于数据构建FP树

步骤1:

遍历所有的数据集合，计算所有项的支持度。
丢弃非频繁的项。
基于支持度降序排序所有的项。
所有数据集合按照得到的顺序重新整理。
重新整理完成后，丢弃每个集合末尾非频繁的项。

步骤2: 读取每个集合插入FP树中，同时用一个头部链表数据结构维护不同集合的相同项。

从FP树中挖掘出频繁项集

步骤3:

对头部链表进行降序排序
对头部链表节点从小到大遍历，得到条件模式基，同时获得一个频繁项集。
从头部链表 t 节点开始遍历，t 节点加入到频繁项集。找到以 t 节点为结尾的路径如下:
去掉FP树中的t节点，得到条件模式基<左边路径,左边是值>[z,x,y,s,t]:2，[z,x,y,r,t]:1 。条件模式基的值取决于末尾节点 t ，因为 t 的出现次数最小，一个频繁项集的支持度由支持度最小的项决定。所以 t 节点的条件模式基的值可以理解为对于以 t 节点为末尾的前缀路径出现次数。
条件模式基继续构造条件 FP树，得到频繁项集，和之前的频繁项组合起来，这是一个递归遍历头部链表生成FP树的过程，递归截止条件是生成的FP树的头部链表为空。根据步骤 2 得到的条件模式基 [z,x,y,s,t]:2，[z,x,y,r,t]:1 作为数据集继续构造出一棵FP树，计算支持度，去除非频繁项，集合按照支持度降序排序，重复上面构造FP树的步骤。最后得到下面 t-条件FP树 : 然后根据 t-条件FP树的头部链表进行遍历，从 y 开始。得到频繁项集 ty 。然后又得到 y 的条件模式基，构造出 ty的条件FP树，即 ty-条件FP树。继续遍历ty-条件FP树的头部链表，得到频繁项集 tyx，然后又得到频繁项集 tyxz. 然后得到构造tyxz-条件FP树的头部链表是空的，终止遍历。我们得到的频繁项集有 t->ty->tyz->tyzx，这只是一小部分。

条件模式基:头部链表中的某一点的前缀路径组合就是条件模式基，条件模式基的值取决于末尾节点的值。
条件FP树:以条件模式基为数据集构造的FP树叫做条件FP树。

一、在Modelarts总览界面点击CodeLab：

二、点击Conda-python3，新建一个python环境

将初始化树节点、创建FP树以及挖掘频繁项集的代码分别初始化到代码中

初始化数据集：

输出频繁项集：

FP-growth.txt

5.08KB 下载次数：0次

附件下载

FP-growth.txt 5.08KB 下载次数：0次

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

如何使用免费notebook完成频繁项集的挖掘

FP-growth 原理

将初始化树节点、创建FP树以及挖掘频繁项集的代码分别初始化到代码中

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

如何使用免费notebook完成频繁项集的挖掘

FP-growth 原理

将初始化树节点、创建FP树以及挖掘频繁项集的代码分别初始化到代码中

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品