数据挖掘导论
2021-04-13 10:55:02 1 举报
AI智能生成
🔆简单参考 🔸期末考试 🔸简单整理 🖌纯属博主个人补考时的题目(开卷补考)
作者其他创作
大纲/内容
绪论
什么是数据挖掘<br>
Pang-Ning Tan《数据挖掘导论》中的定义<br>
Jiawei Han的定义<br>
一个类似于Jiawei Han的定义<br>
引发数据挖掘的挑战<br>
可伸缩
高维
异构数据和复杂数据
数据的所有权与分布
非传统的分析
数据挖掘的起源<br>
多学科交叉领域
数据挖掘任务
预测(Prediction)<br>
描述(Description)<br>
数据
数据类型
属性
标称(nominal)<br>
序数( ordinal )<br>
区间(interval)<br>
比率(ratio)<br>
数据质量
测量和数据收集问题
数据预处理
相似性和相异性度量
探索数据
汇总统计<br>
可视化<br>
联机分析处理(OLAP)<br>
关联分析:基本概念和算法
基本概念:关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示
算法
Apriori算法
FP增长算法
关联模式的评估
回归分析
线性回归
一元线性回归
多元线性回归
非线性回归及其它
非线性回归
稀疏(系数收缩)回归
Logistic回归
分类⸺基本概念、决策树与模型评价
分类任务
根据数据集学习一个映射(目标函数f),使得利用f能正确预测未见输入x对应的输出y
决策树归纳算法
Hunt算法
信息增益 Information gain
增益比率 Gain ratio
基尼指数 Gini index
模型评估
训练误差
模型复杂度<br>
测试模型在验证数据集上的性能
贝叶斯分类方法
基本概念
一种基于统计的学习方法<br>
利用概率统计知识进行分类学习
主要算法
朴素贝叶斯分类算法<br>
条件独立性
边缘概率的计算
离散属性(频率估计)<br>
连续属性(密度估计)<br>
贝叶斯信念网络分类算法<br>
因果关系图模型 <br>
条件独立性<br>
概率表
使用贝叶斯网络进行推理
情形1:没有先验信息 <br>
情形2:高血压<br>
情形3:高血压、饮食健康、经常锻炼身体<br>
神经网络
基本概念
生物神经网络
人工神经网络
神经元的特性(激活函数)
神经元之间相互连接的形式(拓扑结构)
为适应环境而改善性能的学习规则(确定网络参数)
感知器
步骤
根据训练数据集,寻找合适的input-output映射模型
模仿神经元<br>
模型训练<br>
感知器学习算法
不足
只能解决线性可分的问题,对于线性不可分的问题无能为力<br>
多层神经网络
步骤
确定神经网络的架构(拓扑结构)
选择神经元的激活函数
确定损失函数,建立优化问题
设计优化算法进行求解,确定网络参数
支持向量机
线性支持向量机<br>
线性判别函数
线性可分情形的SVM
线性不可分情形的SVM
非线性支持向量机
概念
选择恰当的非线性映射将x映射到高维特征空间Z,在Z中构造最优超平面,以提高可分性
在特征空间中分类模型
模型求解
映射到高维空间带来的问题
解决方法
核函数
集成学习
基本概念
构建多个基分类器(base classifier)或个体分类器(individual classifier),将它们组合起来使用以达到提高分类性能的目的
串行生成【强依赖】<br>
Boosting<br>
训练<br>
分类<br>
关键点<br>
样本权重如何设置调整
基分类器如何组合
并行生成【非强依赖】<br>
Bagging<br>
利用自助抽样(bootstrap)产生多个训练数据集,然后在这些数据集上训练得到多个基分类器,最后再将它们组合起来
随机森林
RF是Bagging的一个扩展变体<br>
聚类分析
概念
将数据对象分组,使得同一组内的对象彼此相似(或相关),而不同组中的对象是不同的(或不相关)
组内的相似性(同质性)越大,组间差别越大,则聚类(分组)越好
类型
划分的(partitional)、层次的(hierarchical)<br>
互斥的(exclusive)、重叠的(overlapping)、模糊的(fuzzy)<br>
完全的(complete)、部分的(partial)<br>
算法
K均值
凝聚的层次聚类
基于密度的聚类
异常检测
异常
异常对象通常也叫“离群点”
异常数据往往具有特殊的意义和很高的实用价值<br>
异常的成因
测量、输入错误或系统运行错误所致<br>
数据内在特性所决定<br>
客体的异常行为所致<br>
异常检测
异常检测(anomaly detection)也被称为离群点检测(outlier detection)、偏差检测(deviation detection)、例外挖掘(exception mining)<br>
主要方法
按类标号(正常/异常)利用的程度<br>
无监督的异常检测方法
有监督的异常检测方法
半监督的异常检测方法
按使用的主要技术路线角度<br>
基于统计的异常检测
基于邻近度的异常检测
基于密度的异常检测
0 条评论
下一页