关联规则与先验算法

type

Post

status

Published

date

Feb 8, 2023

slug

summary

1. 关联规则 2. 先验算法规则 3. 先验算法例子

关联规则与先验算法

关联规则

先验算法规则

先验算法例子

Association rules 关联规则：

association 关联性不一定是 causation因果关系

例子：X→Y，用了X的更愿意用Y

confidence 置信度（X→Y）：

公式：给定购买X而后购买Y的条件概率

说明：一个顾客买了啤酒，那么ta同时购买薯片的概率有多大；啤酒→薯片
注：单独一个物品购买的概率也称为expected confidence 期望置信度

support 支持度：

公式：某个事件发生的总体概率

说明：同时购买薯片啤酒的顾客占总顾客数的比例。如果support的数值高，说明这个关联规则很有统计学意义

lift 提升度：

公式：置信度与期望可信度的比值

说明：说明了物品集X的出现，对物品集Y出现的概率有多大的变化；

正常数值区间大于1；
如果lift=1 说明X,Y事件为互相独立事件，物品集X的出现不会改变物品集Y出现的概率；

Apriori algorithm 先验算法

说明：比如找到一个X,Y→Z（买X和Y的人更容易买Z）这样的规则。每个这样的rules，需要有足够的support 和 confidence；来证明这个规则有效
步骤：

寻找有足够support的frequent（频繁的）物品组

如果 {X,Y,Z} frequent，那么 {X,Y},{X,Z}, and {Y,Z} 也应该是frequent
如果{X,Y} not frequent，它的所有超集都not frequent

将找到的frequent itemsets且有足够confidence 转化为关联关系

如果找到了就转化为形如X,Y→Z; X→Y,Z;之类的关系
检查每一个是否有足够confidence，没有就移除

例子

题目要求最低support=2，就是2/9=22%
最低confidence=70%
第一步

数每一个item 出现的次数，是否超过support，超过就留下

第二步

将L1中所有的项互相join；生成2个物品的组，算support，将没超过的删掉

将L1和L1join，生成C2。然后将C2内容扫描一遍出现次数。生成L2

第三步

将L2和L2加入，去掉已经被排除掉的L2中项目的超集

apriori property：如果一个不frequent所有的supersets 都不能是frequent

第四步

生成四个物品的物品组（但因为生成的四项物品组里有被剪掉物品组的超集，所以没有四个物品的物品组）

第五步

最后，计算所有被选中得关联得confidence

遍历所有frequent itemsets

首先，确定一个集合

最终有的集合有{I1，I2},{I1,I5},{I2,I5},{I1},{I2},{I5}

找rule的时候，左边-》右边。左边和右边都必须在上面，左边在下面。

可以把最长的放上面，然后下面都是短项

把之前数值代入。超过70%就可以