基于apriori的实验
首先我们需要了解一下什么是apriori算法
Apriori算法是一种通过频繁项集来挖掘关联规则的算法。该算法既可以发现频繁项集,又可以挖掘物品之间关联规则。分别采用支持度和置信度来量化频繁项集和关联规则。其核心思想是通过候选集生成和情节的向下封闭检验检测两个阶段来挖掘频繁项集。
实验如下:
加载 weather.nomianl.arff 数据,切换至 Associate 标签页,依次选择
choose->Apriori 算法,如下如所示:
点击 Choose 右边的文本框,弹出 Apriori 的设置参数:
各参数含义如下:
car:如果设为真,则会挖掘类关联规则而不是全局关联规则。
classindex:类属性索引。如果设置为-1,最后的属性被当做类属性。
delta:以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规
则。
lowerBoundMinsupport:最小支持度下界。
metricType:度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置
信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)。
在weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是:
Lift : P(A,B)/(P(A)P(B)) Lift=1时表示A和E独立。这个数越大(>1),越表明z和e存在于
一个购物篮中不是偶然现象,有较强的关联度.
Leverage :P(A,B)-P(A)P(B)Leverage=0时A和s独立,Leverage越大a和B的关系越密切
Conviction:P(A)P(!B)/P(A,!B)(! B表示B没有发生) Conviction也是用来衡量A和a的独立性。从它和lift的关系(对s取反,代入Lift公式后求倒数)可以看出,这个值越大,A、B越关联。
minMtric:度量的最小值。
numRules:要发现的规则数。
outputItemSets:如果设置为真,会在结果中输出项集。
removeAllMissingcols:移除全部为缺省值的列。
significanceLevel:重要程度。重要性测试(仅用于置信度)。
参数设置好,点击 start,运行 Apriori 算法,结果如下
设置参数 outputItemSets 为 true,再次运行 Apriori 算法,会生成各频繁项目集及他们的支
持数如下:
加载 vote.arff 数据集,该数据集中各属性含义如下:
切换至 Associate 标签页,选择 Apriori 算法,保持默认选项,单击 start 按钮,
结果如下:
加载 supermarket.arff 数据集,运行 Apriori 算法,结果如下:
- 点赞
- 收藏
- 关注作者
评论(0)