- 数据挖掘经典方法
  - 关联规则挖掘
    - 现实中的关联关系
      - 某事件导致另一事件
      - 示例:尿布与啤酒的购买关联
        - 年轻父亲行为模式
        - 购物体验优化
        - 商品摆放策略
    - 关联规则概念
      - 形式:A → B
        - A为先导,B为后继
      - 支持度(Support)
        - A和B同时出现的概率
      - 置信度(Confidence)
        - A出现时B出现的条件概率
      - 示例:计算机与财务软件
        - 支持度2%
        - 置信度60%
    - 关联规则分类
      - 布尔型与数值型
      - 单层与多层
        - 示例:笔记本电脑与电脑类别
      - 单维与多维
        - 示例:买啤酒与买尿布
    - 强规则定义
      - 满足最小支持度与最小置信度
      - 实用价值与可信性
    - 关联规则挖掘实质
      - 发现强规则
      - 示例:事务集中的AC、AD、BE、AB
    - 关联规则挖掘基本元素
      - 相集(itemset)
        - 所有商品品类集合
      - 事务(T)
        - 相集子集,一次购买行为
      - 事务数据集
        - 表格形式表示
    - 关联规则挖掘步骤
      - 找出频繁项集
        - 满足最小支持度
      - 找出强关联规则
        - 满足最小置信度
    - Apriori算法
      - 经典频繁项集发现方法
      - 设计思想
        - 逐层搜索(level-wise)
        - 频繁k项集生成频繁k+1项集
      - APR性质
        - 频繁项集的子集也是频繁项集
      - 剪枝原理
        - 不频繁项集的超集无需生成或测试
      - 示例执行过程
        - 原始事务集扫描
          - 频繁1项集筛选
          - 频繁2项集筛选
          - 频繁3项集筛选
      - 挑战与改进思路
        - 多次扫描数据库
        - 候选项集数量巨大
        - 支持度计算繁重
        - 改进方向
          - 减少扫描次数
          - 缩减候选项集数量
          - 优化支持度计算
      - 改进算法示例
        - FP-Growth算法

版权所有:全国高校教师网络培训中心

技术支持:北京畅想数字教育科技股份有限公司

联系地址:北京市西城区德外大街4号院A座2层

咨询电话:400-6699-800

京ICP备08008005号 京公网安备110102004467