第一章
1.2 什么是数据挖掘?
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
知识发现过程步骤:
- 数据清理
- 数据集成
- 数据选择
- 数据变换
- 数据挖掘
- 模式评估
- 知识表示
1.3 输入什么类型
- 数据库数据
- 数据仓库
- 事务数据
- 其他类型(数据流,空间数据等)
1.4 输出什么类型
- 特征化与区分
- 频繁模式
- 关联和相关性挖掘
- 分类和回归
- 聚类分析
- 离群点分析
第二章
2.1 属性类型
- 标称属性
- 二元属性
- 序数属性
- 数值属性
2.2 统计描述基本概念
均值
中位数
众数
加权平均
极差(最大值和最小值之差)
四分位数()
四分位数极差()
方差(总体方差,样本方差)
标准差(总体标准差,样本标准差)
盒图,q-q图(P53)
2.4 相似性和相异性
- 数据矩阵
- 相异性矩阵,
d(i, j)
为i, j
的相异性程度,相异性越大值越大, - 相似性矩阵,
sim(i, j) = 1 - d(i, j)
- ,
m
为匹配的数目(i, j
取相同状态),p
为属性总数 - 二元相异性(
q: i=j=1; r: i=1,j=0; s: i=0,j=1; t: i=j=0
)- 对称的二元相异性:
- 非对称的二元相异性:
第三章
3.1 数据预处理主要步骤
- 数据清理
- 数据集成
- 数据归约
- 数据变换
3.2 数据清理
- 缺失值处理方法
- 忽略元组
- 人工填写缺失值
- 使用一个全局常量填充缺失值
- 噪声数据处理方法
- 分箱
- 回归
- 离群点分析
3.3 冗余和相关分析(P62)
做题理解
3.4 数据归约
重点:3.4.4;3.4.6;3.4.9
3.5 数据变换和数据离散化(第三章作业题)
- 规范化
- 最小-最大规范化
- z分数规范化
- 离散化
- 通过分箱离散化
- 通过直方图离散化
第四章(有一道综合题)(作业题P118, 4.4)
4.1 数据仓库
4.1.1 什么是数据仓库?
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。
4.1.2 操作数据库系统和数据仓库的区别(OLTP和OLAP)
用户和系统的面向性:OLTP面向顾客,OLAP面向市场
数据内容:OLTP系统管理当前数据,OLAP系统管理大量历史数据
数据库设计:OLTP系统通常采用ER数据模型和面向应用的数据库设计,OLAP系统通常采用星型或雪花模型和面向主题的数据库设计
视图:OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同单位的数据,OLAP系统常常跨越数据库模式的多个版本,还处理来自不同单位的信息。
访问模式:OLTP系统的访问主要由短的原子事务组成,对OLAP系统的访问大部分是只读操作
4.1.4 数据仓库每层的作用
- 仓库数据库服务器:数据提取、清理和变换,装入和刷新
- OLAP服务器:实现使用关系OLAP或多维OLAP模型
- 前端客服层:包括查询和报告工具、分析工具,或数据挖掘工具
4.2 数据仓库建模
4.2.2 星型、雪花、事实星座模式(P91,画图)
星型
雪花
事实星座
4.2.5 典型的OLAP操作
- 上卷
- 下钻
- 切片和切块
- 转轴
第六章
6.1 基本概念
- 关联规则
- 支持度、置信度
- 频繁项集
6.2 Apriori算法(综合题候选之一)(第六章作业题P177, 6.6)
6.2.3 如何提高Apriori算法效率
- 基于散列的技术
- 事务压缩
- 划分
- 抽样
- 动态项集计数
6.3 (了解即可,P172)
第八章
8.1 什么是分类
数据分析任务都是分类,都需要构造一个模型或分类器来预测类标号。
8.2 决策树归纳法构造分类模型(只要求信息增益,P217)(综合题候选之一)
8.3 朴素贝叶斯,拉普拉斯标准(P230)(综合题候选之一)
8.5 模型评估和选择
8.5.1 各种概念理解掌握
- TP:被分类器正确分类的正元组
- TN:被分类器正确分类的负元组
- FP:错误标记为正元组的负元组
- FN:错误标记为负元组的正元组
- P:正样本数
- F:负样本数
- 准确率:
- 错误率:
- 敏感度、召回率:
- 特效率:
- 精度:
- F分数:
- 混淆矩阵(P237)
8.5.3 交叉验证(10-折交叉验证)(P241)
8.5.5 t检验(P242)
8.5.6 ROC(作业题)
第十章
10.1 聚类分析
10.1.1 什么是聚类分析
把一个数据对象划分成子集的过程。每个子集是一个簇,有聚类分析产生的簇的集合称作一个聚类。
10.1.3 基本聚类方法概述(优缺点?)
- 划分:最简单,最基本
- 层次
- 基于密度
10.2 k-均值(综合题候选之一,P293)(作业题P320, 10.2)
优点:
- 相对有效性
- 当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好
缺点:
- 需要预先指定簇的数目k
- 改进:提供K的近似范围,比较不同K的结果,确定最佳K值
- 对于不是凸的数据集比较难收敛
- 改进:基于密度的聚类算法更加适合,比如DESCAN算法
- 对噪声和异常点比较敏感
- 改进:改成求点的中位数,这种聚类方式即K-Mediods聚类(K中值)
- 只有在簇的平均值被定义的情况下才能使用
- 聚类结果依赖于初始聚类中心的选择
- 改进:多次运行,选择较优解
10.3 层次方法
10.3.1 凝聚层次聚类方法(P299)(综合题候选之一)
- 计算邻近度矩阵
- 每个点作为一个簇
- Repeat
- 合并最接近的两个簇
- 更新邻近度矩阵
- Until 仅剩下一个簇
10.3.2 簇的距离度量(P300)
最小距离
![](https://img.imgdb.cn/item/601931383ffa7d37b374579a.png)
最大距离
均值距离
平均距离
10.4 DBSCAN(填空)
一种基于高密度连通区域的基于密度的聚类