首页  思维导图  详情



 



数据挖掘导论

2021-04-13 10:55:02   1  举报





AI智能生成

🔆简单参考 🔸期末考试 🔸简单整理 🖌纯属博主个人补考时的题目（开卷补考）

数据挖掘

模板推荐

作者其他创作

大纲/内容

绪论

什么是数据挖掘

Pang-Ning Tan《数据挖掘导论》中的定义

Jiawei Han的定义

一个类似于Jiawei Han的定义

引发数据挖掘的挑战

可伸缩

高维

异构数据和复杂数据

数据的所有权与分布

非传统的分析

数据挖掘的起源

多学科交叉领域

数据挖掘任务

预测(Prediction)

描述(Description)

数据

数据类型

属性

标称（nominal）

序数（ ordinal ）

区间（interval）

比率（ratio）

数据质量

测量和数据收集问题

数据预处理

相似性和相异性度量

探索数据

汇总统计

可视化

联机分析处理（OLAP）

关联分析：基本概念和算法

基本概念：关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系，所发现的模式通常用关联规则或频繁项集的形式表示

算法

Apriori算法

FP增长算法

关联模式的评估

回归分析

线性回归

一元线性回归

多元线性回归

非线性回归及其它

非线性回归

稀疏（系数收缩）回归

Logistic回归

分类⸺基本概念、决策树与模型评价

分类任务

根据数据集学习一个映射（目标函数f），使得利用f能正确预测未见输入x对应的输出y

决策树归纳算法

Hunt算法

信息增益 Information gain

增益比率 Gain ratio

基尼指数 Gini index

模型评估

训练误差

模型复杂度

测试模型在验证数据集上的性能

贝叶斯分类方法

基本概念

一种基于统计的学习方法

利用概率统计知识进行分类学习

主要算法

朴素贝叶斯分类算法

条件独立性

边缘概率的计算

离散属性（频率估计）

连续属性（密度估计）

贝叶斯信念网络分类算法

因果关系图模型

条件独立性

概率表

使用贝叶斯网络进行推理

情形1：没有先验信息

情形2：高血压

情形3：高血压、饮食健康、经常锻炼身体

神经网络

基本概念

生物神经网络

人工神经网络

神经元的特性（激活函数）

神经元之间相互连接的形式（拓扑结构）

为适应环境而改善性能的学习规则（确定网络参数）

感知器

步骤

根据训练数据集，寻找合适的input-output映射模型

模仿神经元

模型训练

感知器学习算法

不足

只能解决线性可分的问题，对于线性不可分的问题无能为力

多层神经网络

步骤

确定神经网络的架构（拓扑结构）

选择神经元的激活函数

确定损失函数，建立优化问题

设计优化算法进行求解，确定网络参数

支持向量机

线性支持向量机

线性判别函数

线性可分情形的SVM

线性不可分情形的SVM

非线性支持向量机

概念

选择恰当的非线性映射将x映射到高维特征空间Z，在Z中构造最优超平面，以提高可分性

在特征空间中分类模型

模型求解

映射到高维空间带来的问题

解决方法

核函数

集成学习

基本概念

构建多个基分类器（base classifier）或个体分类器（individual classifier），将它们组合起来使用以达到提高分类性能的目的

串行生成【强依赖】

Boosting

训练

分类

关键点

样本权重如何设置调整

基分类器如何组合

并行生成【非强依赖】

Bagging

利用自助抽样（bootstrap）产生多个训练数据集，然后在这些数据集上训练得到多个基分类器，最后再将它们组合起来

随机森林

RF是Bagging的一个扩展变体

聚类分析

概念

将数据对象分组，使得同一组内的对象彼此相似（或相关），而不同组中的对象是不同的（或不相关）

组内的相似性（同质性）越大，组间差别越大，则聚类（分组）越好

类型

划分的（partitional）、层次的（hierarchical）

互斥的（exclusive）、重叠的（overlapping）、模糊的（fuzzy）

完全的（complete）、部分的（partial）

算法

K均值

凝聚的层次聚类

基于密度的聚类

异常检测

异常

异常对象通常也叫“离群点”

异常数据往往具有特殊的意义和很高的实用价值

异常的成因

测量、输入错误或系统运行错误所致

数据内在特性所决定

客体的异常行为所致

异常检测

异常检测（anomaly detection）也被称为离群点检测（outlier detection）、偏差检测（deviation detection）、例外挖掘（exception mining）

主要方法

按类标号（正常/异常）利用的程度

无监督的异常检测方法

有监督的异常检测方法

半监督的异常检测方法

按使用的主要技术路线角度

基于统计的异常检测

基于邻近度的异常检测

基于密度的异常检测

 Collect

Get Started

文本挖掘逻辑框架

 Collect

Get Started

神经网络（大数据导论课期末总结）

 Collect

Get Started

日志挖掘

 Collect

Get Started

挖掘流程





0 条评论

下一页