基于apriori的实验

举报
俺想吃蜂蜜 发表于 2022/04/13 08:19:30 2022/04/13
【摘要】 首先我们需要了解一下什么是apriori算法Apriori算法是一种通过频繁项集来挖掘关联规则的算法。该算法既可以发现频繁项集,又可以挖掘物品之间关联规则。分别采用支持度和置信度来量化频繁项集和关联规则。其核心思想是通过候选集生成和情节的向下封闭检验检测两个阶段来挖掘频繁项集。实验如下:加载 weather.nomianl.arff 数据,切换至 Associate 标签页,依次选择choo...

首先我们需要了解一下什么是apriori算法

Apriori算法是一种通过频繁项集来挖掘关联规则的算法。该算法既可以发现频繁项集,又可以挖掘物品之间关联规则。分别采用支持度和置信度来量化频繁项集和关联规则。其核心思想是通过候选集生成和情节的向下封闭检验检测两个阶段来挖掘频繁项集。

实验如下:

加载 weather.nomianl.arff 数据,切换至 Associate 标签页,依次选择

choose->Apriori 算法,如下如所示:

image.png

点击 Choose 右边的文本框,弹出 Apriori 的设置参数:

image.png

各参数含义如下:

car:如果设为真,则会挖掘类关联规则而不是全局关联规则。

classindex:类属性索引。如果设置为-1,最后的属性被当做类属性。

delta:以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规
则。

lowerBoundMinsupport:最小支持度下界。

metricType:度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置
信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)。

在weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是:

Lift : P(A,B)/(P(A)P(B)) Lift=1时表示A和E独立。这个数越大(>1),越表明z和e存在于
一个购物篮中不是偶然现象,有较强的关联度.

Leverage :P(A,B)-P(A)P(B)Leverage=0时A和s独立,Leverage越大a和B的关系越密切

Conviction:P(A)P(!B)/P(A,!B)(! B表示B没有发生) Conviction也是用来衡量A和a的独立性。从它和lift的关系(对s取反,代入Lift公式后求倒数)可以看出,这个值越大,A、B越关联。

minMtric:度量的最小值。

numRules:要发现的规则数。

outputItemSets:如果设置为真,会在结果中输出项集。

removeAllMissingcols:移除全部为缺省值的列。

significanceLevel:重要程度。重要性测试(仅用于置信度)。

参数设置好,点击 start,运行 Apriori 算法,结果如下

image.png

设置参数 outputItemSets 为 true,再次运行 Apriori 算法,会生成各频繁项目集及他们的支
持数如下:

image.png
加载 vote.arff 数据集,该数据集中各属性含义如下:

image.png
切换至 Associate 标签页,选择 Apriori 算法,保持默认选项,单击 start 按钮,

结果如下:

image.png

加载 supermarket.arff 数据集,运行 Apriori 算法,结果如下:

image.png

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。