Keshawn_lu's Blog

数据挖掘期末复习汇总

字数统计: 1.7k阅读时长: 6 min
2021/01/11 Share

第一章

1.2 什么是数据挖掘?

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

知识发现过程步骤:

  1. 数据清理
  2. 数据集成
  3. 数据选择
  4. 数据变换
  5. 数据挖掘
  6. 模式评估
  7. 知识表示

1.3 输入什么类型

  • 数据库数据
  • 数据仓库
  • 事务数据
  • 其他类型(数据流,空间数据等)

1.4 输出什么类型

  • 特征化与区分
  • 频繁模式
  • 关联和相关性挖掘
  • 分类和回归
  • 聚类分析
  • 离群点分析

第二章

2.1 属性类型

  • 标称属性
  • 二元属性
  • 序数属性
  • 数值属性

2.2 统计描述基本概念

  • 均值

  • 中位数

  • 众数

  • 加权平均

  • 极差(最大值和最小值之差)

  • 四分位数(

  • 四分位数极差(

  • 方差(总体方差,样本方差)

  • 标准差(总体标准差,样本标准差)

  • 盒图,q-q图(P53)

2.4 相似性和相异性

  • 数据矩阵
  • 相异性矩阵,d(i, j)i, j的相异性程度,相异性越大值越大,
  • 相似性矩阵,sim(i, j) = 1 - d(i, j)
  • m为匹配的数目(i, j取相同状态),p为属性总数
  • 二元相异性(q: i=j=1; r: i=1,j=0; s: i=0,j=1; t: i=j=0)
    • 对称的二元相异性:
    • 非对称的二元相异性:

第三章

3.1 数据预处理主要步骤

  • 数据清理
  • 数据集成
  • 数据归约
  • 数据变换

3.2 数据清理

  1. 缺失值处理方法
    • 忽略元组
    • 人工填写缺失值
    • 使用一个全局常量填充缺失值
  2. 噪声数据处理方法
    • 分箱
    • 回归
    • 离群点分析

3.3 冗余和相关分析(P62)

做题理解

3.4 数据归约

重点:3.4.4;3.4.6;3.4.9

3.5 数据变换和数据离散化(第三章作业题)

  1. 规范化
    • 最小-最大规范化
    • z分数规范化
  2. 离散化
    • 通过分箱离散化
    • 通过直方图离散化

第四章(有一道综合题)(作业题P118, 4.4)

4.1 数据仓库

4.1.1 什么是数据仓库?

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。

4.1.2 操作数据库系统和数据仓库的区别(OLTP和OLAP)

  • 用户和系统的面向性:OLTP面向顾客,OLAP面向市场

  • 数据内容:OLTP系统管理当前数据,OLAP系统管理大量历史数据

  • 数据库设计:OLTP系统通常采用ER数据模型和面向应用的数据库设计,OLAP系统通常采用星型或雪花模型和面向主题的数据库设计

  • 视图:OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同单位的数据,OLAP系统常常跨越数据库模式的多个版本,还处理来自不同单位的信息。

  • 访问模式:OLTP系统的访问主要由短的原子事务组成,对OLAP系统的访问大部分是只读操作

4.1.4 数据仓库每层的作用

  1. 仓库数据库服务器:数据提取、清理和变换,装入和刷新
  2. OLAP服务器:实现使用关系OLAP或多维OLAP模型
  3. 前端客服层:包括查询和报告工具、分析工具,或数据挖掘工具

4.2 数据仓库建模

4.2.2 星型、雪花、事实星座模式(P91,画图)

  • 星型

  • 雪花

  • 事实星座

4.2.5 典型的OLAP操作

  • 上卷
  • 下钻
  • 切片和切块
  • 转轴

第六章

6.1 基本概念

  • 关联规则
  • 支持度、置信度
  • 频繁项集

6.2 Apriori算法(综合题候选之一)(第六章作业题P177, 6.6)

6.2.3 如何提高Apriori算法效率

  • 基于散列的技术
  • 事务压缩
  • 划分
  • 抽样
  • 动态项集计数

6.3 (了解即可,P172)

第八章

8.1 什么是分类

数据分析任务都是分类,都需要构造一个模型或分类器来预测类标号。

8.2 决策树归纳法构造分类模型(只要求信息增益,P217)(综合题候选之一)

8.3 朴素贝叶斯,拉普拉斯标准(P230)(综合题候选之一)

8.5 模型评估和选择

8.5.1 各种概念理解掌握

  • TP:被分类器正确分类的正元组
  • TN:被分类器正确分类的负元组
  • FP:错误标记为正元组的负元组
  • FN:错误标记为负元组的正元组
  • P:正样本数
  • F:负样本数
  • 准确率:
  • 错误率:
  • 敏感度、召回率:
  • 特效率:
  • 精度:
  • F分数:
  • 混淆矩阵(P237)

8.5.3 交叉验证(10-折交叉验证)(P241)

8.5.5 t检验(P242)

8.5.6 ROC(作业题)

第十章

10.1 聚类分析

10.1.1 什么是聚类分析

把一个数据对象划分成子集的过程。每个子集是一个簇,有聚类分析产生的簇的集合称作一个聚类。

10.1.3 基本聚类方法概述(优缺点?)

  • 划分:最简单,最基本
  • 层次
  • 基于密度

10.2 k-均值(综合题候选之一,P293)(作业题P320, 10.2)

优点:

  1. 相对有效性
  2. 当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好

缺点:

  1. 需要预先指定簇的数目k
    • 改进:提供K的近似范围,比较不同K的结果,确定最佳K值
  2. 对于不是凸的数据集比较难收敛
    • 改进:基于密度的聚类算法更加适合,比如DESCAN算法
  3. 对噪声和异常点比较敏感
    • 改进:改成求点的中位数,这种聚类方式即K-Mediods聚类(K中值)
  4. 只有在簇的平均值被定义的情况下才能使用
  5. 聚类结果依赖于初始聚类中心的选择
    • 改进:多次运行,选择较优解

10.3 层次方法

10.3.1 凝聚层次聚类方法(P299)(综合题候选之一)

  1. 计算邻近度矩阵
  2. 每个点作为一个簇
  3. Repeat
  4. 合并最接近的两个簇
  5. 更新邻近度矩阵
  6. Until 仅剩下一个簇

10.3.2 簇的距离度量(P300)

  • 最小距离

                                                ![](https://img.imgdb.cn/item/601931383ffa7d37b374579a.png)
    
  • 最大距离

  • 均值距离

  • 平均距离

10.4 DBSCAN(填空)

一种基于高密度连通区域的基于密度的聚类

CATALOG
  1. 1. 第一章
    1. 1.1. 1.2 什么是数据挖掘?
    2. 1.2. 1.3 输入什么类型
    3. 1.3. 1.4 输出什么类型
  2. 2. 第二章
    1. 2.1. 2.1 属性类型
    2. 2.2. 2.2 统计描述基本概念
    3. 2.3. 2.4 相似性和相异性
  3. 3. 第三章
    1. 3.1. 3.1 数据预处理主要步骤
    2. 3.2. 3.2 数据清理
    3. 3.3. 3.3 冗余和相关分析(P62)
    4. 3.4. 3.4 数据归约
    5. 3.5. 3.5 数据变换和数据离散化(第三章作业题)
  4. 4. 第四章(有一道综合题)(作业题P118, 4.4)
    1. 4.1. 4.1 数据仓库
      1. 4.1.1. 4.1.1 什么是数据仓库?
      2. 4.1.2. 4.1.2 操作数据库系统和数据仓库的区别(OLTP和OLAP)
      3. 4.1.3. 4.1.4 数据仓库每层的作用
    2. 4.2. 4.2 数据仓库建模
      1. 4.2.1. 4.2.2 星型、雪花、事实星座模式(P91,画图)
      2. 4.2.2. 4.2.5 典型的OLAP操作
  5. 5. 第六章
    1. 5.1. 6.1 基本概念
    2. 5.2. 6.2 Apriori算法(综合题候选之一)(第六章作业题P177, 6.6)
      1. 5.2.1. 6.2.3 如何提高Apriori算法效率
    3. 5.3. 6.3 (了解即可,P172)
  6. 6. 第八章
    1. 6.1. 8.1 什么是分类
    2. 6.2. 8.2 决策树归纳法构造分类模型(只要求信息增益,P217)(综合题候选之一)
    3. 6.3. 8.3 朴素贝叶斯,拉普拉斯标准(P230)(综合题候选之一)
    4. 6.4. 8.5 模型评估和选择
      1. 6.4.1. 8.5.1 各种概念理解掌握
      2. 6.4.2. 8.5.3 交叉验证(10-折交叉验证)(P241)
      3. 6.4.3. 8.5.5 t检验(P242)
      4. 6.4.4. 8.5.6 ROC(作业题)
  7. 7. 第十章
    1. 7.1. 10.1 聚类分析
      1. 7.1.1. 10.1.1 什么是聚类分析
      2. 7.1.2. 10.1.3 基本聚类方法概述(优缺点?)
    2. 7.2. 10.2 k-均值(综合题候选之一,P293)(作业题P320, 10.2)
    3. 7.3. 10.3 层次方法
      1. 7.3.1. 10.3.1 凝聚层次聚类方法(P299)(综合题候选之一)
      2. 7.3.2. 10.3.2 簇的距离度量(P300)
    4. 7.4. 10.4 DBSCAN(填空)