type
Post
status
Published
date
Feb 8, 2023
slug
summary
1. 关联规则
2. 先验算法规则
3. 先验算法例子
tags
文字
机器学习
category
笔记
icon
关联规则与先验算法
- 关联规则
- 先验算法规则
- 先验算法例子
- Association rules 关联规则:
- association 关联性 不一定是 causation因果关系
- 例子:X→Y,用了X的更愿意用Y
- confidence 置信度(X→Y):
- 公式:给定购买X而后购买Y的条件概率
- 说明:一个顾客买了啤酒,那么ta同时购买薯片的概率有多大;啤酒→薯片
- 注:单独一个物品购买的概率也称为expected confidence 期望置信度
- support 支持度:
- 公式:某个事件发生的总体概率
- 说明:同时购买薯片啤酒的顾客占总顾客数的比例。如果support的数值高,说明这个关联规则很有统计学意义
- lift 提升度:
- 公式:置信度与期望可信度的比值
- 说明:说明了物品集X的出现,对物品集Y出现的概率有多大的变化;
- 正常数值区间大于1;
- 如果lift=1 说明X,Y事件为互相独立事件,物品集X的出现不会改变物品集Y出现的概率;



- Apriori algorithm 先验算法
- 说明:比如找到一个X,Y→Z(买X和Y的人更容易买Z)这样的规则。每个这样的rules,需要有足够的support 和 confidence;来证明这个规则有效
- 步骤:
- 寻找有足够support的frequent(频繁的)物品组
- 如果 {X,Y,Z} frequent,那么 {X,Y},{X,Z}, and {Y,Z} 也应该是frequent
- 如果{X,Y} not frequent,它的所有超集都not frequent
- 将找到的frequent itemsets且有足够confidence 转化为 关联关系
- 如果找到了就转化为形如X,Y→Z; X→Y,Z;之类的关系
- 检查每一个是否有足够confidence,没有就移除
- 例子
- 题目要求最低support=2,就是2/9=22%
- 最低confidence=70%
- 第一步
- 第二步
- 第三步
- 第四步
- 第五步

数每一个item 出现的次数,是否超过support,超过就留下

将L1中所有的项互相join;生成2个物品的组,算support,将没超过的删掉


将L1和L1join,生成C2。然后将C2内容扫描一遍出现次数。生成L2

将L2和L2加入,去掉已经被排除掉的L2中项目的超集

apriori property:如果一个不frequent所有的supersets 都不能是frequent
生成四个物品的物品组(但因为生成的四项物品组里有被剪掉物品组的超集,所以没有四个物品的物品组)

最后,计算所有被选中得关联得confidence
遍历所有frequent itemsets

首先,确定一个集合

最终有的集合有{I1,I2},{I1,I5},{I2,I5},{I1},{I2},{I5}
找rule的时候,左边-》右边。左边和右边都必须在上面,左边在下面。
可以把最长的放上面,然后下面都是短项
把之前数值代入。超过70%就可以
- 作者:博
- 链接:https://www.zyb88.top/article/9596c0bf-75df-4f01-a816-4b9a944ca44c
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章