- 数据挖掘经典方法 - 关联规则挖掘 - 现实中的关联关系 - 某事件导致另一事件 - 示例:尿布与啤酒的购买关联 - 年轻父亲行为模式 - 购物体验优化 - 商品摆放策略 - 关联规则概念 - 形式:A → B - A为先导,B为后继 - 支持度(Support) - A和B同时出现的概率 - 置信度(Confidence) - A出现时B出现的条件概率 - 示例:计算机与财务软件 - 支持度2% - 置信度60% - 关联规则分类 - 布尔型与数值型 - 单层与多层 - 示例:笔记本电脑与电脑类别 - 单维与多维 - 示例:买啤酒与买尿布 - 强规则定义 - 满足最小支持度与最小置信度 - 实用价值与可信性 - 关联规则挖掘实质 - 发现强规则 - 示例:事务集中的AC、AD、BE、AB - 关联规则挖掘基本元素 - 相集(itemset) - 所有商品品类集合 - 事务(T) - 相集子集,一次购买行为 - 事务数据集 - 表格形式表示 - 关联规则挖掘步骤 - 找出频繁项集 - 满足最小支持度 - 找出强关联规则 - 满足最小置信度 - Apriori算法 - 经典频繁项集发现方法 - 设计思想 - 逐层搜索(level-wise) - 频繁k项集生成频繁k+1项集 - APR性质 - 频繁项集的子集也是频繁项集 - 剪枝原理 - 不频繁项集的超集无需生成或测试 - 示例执行过程 - 原始事务集扫描 - 频繁1项集筛选 - 频繁2项集筛选 - 频繁3项集筛选 - 挑战与改进思路 - 多次扫描数据库 - 候选项集数量巨大 - 支持度计算繁重 - 改进方向 - 减少扫描次数 - 缩减候选项集数量 - 优化支持度计算 - 改进算法示例 - FP-Growth算法