数据分析、挖掘相关整理思维导图模板

数据挖掘主要任务

1.关联分析：

简单关联、时序关联、因果关联

2.预测

分类问题：决策树、最近邻分类、朴素贝叶斯分类、人工神经网络、支持向量机

回归问题：线性回归、逻辑回归、多项式回归

3.聚类分析

划分方法：将给定的具有n个对象的集合，构建数据的k个分区。大部分的划分方法基于距离进行数据对象的划分。

层次方法：创建给定数据对象集的层次分解。层次方法分为凝聚（自底向上）的方法和分裂（自顶而下）的方法。

基于密度的方法：只要邻域中的密度超过某个阈值，就进行簇的增长，可以用来过滤噪声或离群点，发现任意形状的簇。

基于网格的方法

4.离群点检测

基于统计的检测方法：箱线图分析、平均值、最大最小值分析和统计学3σ

基于距离的检测方法：KNN

基于密度的检测方法：

基于聚类的检测方法

Q&A：聚类分析与分类分析的区别？

聚类分析的目的是发现数据中潜在的类别或结构，不需要事先定义类别或规则，而是根据数据本身的相似性或距离来划分，属于非监督式学习。

分类分析的目的是根据已知的类别或标签来预测新数据的归属，需要事先定义类别或规则，然后根据数据的特征或属性来判断，属于监督式学习。

数据挖掘主要技术

统计学：判别分析、主成分分析、因子分析、相关分析、多元回归分析

机器学习

监督学习：利用一直某种特性的样本（x，y）作为训练集，建立数学模型，求解f：x->y预测未知样本。分类的标签是离散的，回归的标签是连续的。

半监督学习：利用少量标注了的样本和大量未标注的样本进行训练和测试。

一般基于三种假设：平滑假设、聚类假设、流行假设

非监督学习：训练数据集只有x而没有标签y，目的是试图提取数据中隐含的结构和规律。

主动学习：用较少的训练样本获得较好的分类器，主要通过一定算法查询最有用的未标记样本，再由专家标记，然后用查询到的样本训练分类模型提高模型的精确度。

强化学习：输入模型作为对模型的反馈，不像监督模型那样，输入模型仅作为一个检查模型正确与否的方式。

数据分析主要工具

数据收集：MySQL、八爪鱼大数据、ParseHub、问卷星

数据分析：SPSS、MatLab、R、Python

数据可视化：Visio、Tableau、Qlik、Echarts

Q&A

描述性统计、推断行统计的区别？

描述性统计学是研究如何收集、整理、展示和总结数据的特征的一门学科。它可以用图表或数值的方式来简化和概括数据，但不涉及对数据的推断或预测。

描述性统计学是研究如何收集、整理、展示和总结数据的特征的一门学科1。它可以用图表或数值的方式来简化和概括数据，但不涉及对数据的推断或预测2。

推断性统计学是研究如何根据样本数据去推断总体数量特征的方法1。它可以用参数估计或假设检验的方式来分析数据中存在的不确定性，并给出以概率形式表述的结论2。

机器学习是人工智能的一个子领域，它研究如何让计算机通过数据和算法来自动地学习和改进3。它更关注最小化预测误差的某种度量，比如模型的泛化能力、预测的准确率或召回率3。

描述性统计、推断性统计和机器学习之间有一定的联系和区别。描述性统计是对数据进行基本处理和分析的前提，推断性统计是对数据进行深入理解和解释的方法，机器学习是对数据进行高效利用和应用的技术。

（1）定义

（2）性质

（3）计算

（4）🔷例题

题目类型①

@例题

总结 @💡

题目类型②

@例题

总结 @💡

...

推断性统计学是研究如何根据样本数据去推断总体数量特征的方法。它可以用参数估计或假设检验的方式来分析数据中存在的不确定性，并给出以概率形式表述的结论

错1 @错题

错解❌

正解✔

总结 @💡

错2 @错题 ❓

错解❌

正解✔

总结 @💡

统计学习、深度学习与机器学习的区别？

统计学习是理论驱动的，对数据分布进行假设，以强大的数学理论支撑解释因果，注重参数推断（Inference）。统计学习的优点是它有强大的数学理论支撑，可以对数据分布进行假设和检验，可以解释变量之间的因果关系，可以评估模型参数的显著性和健壮性，可以在小规模数据上得出可信的结论。统计学习的缺点是它对数据分布有较强的假设，可能不适用于复杂和非线性的现实问题，也可能无法处理高维和大规模的数据。

机器学习是数据驱动的，依赖于大数据规模预测未来，弱化了收敛性问题，注重模型预测（Prediction）。机器学习的优点是它是数据驱动的，可以利用大数据规模提高预测效果，可以设计灵活和强大的模型或目标函数，可以提高算法效率和可扩展性。机器学习的缺点是它对数据质量和数量有较高的要求，可能忽视了数据中潜在的结构或规律，也可能牺牲了模型的可解释性和可信度。

深度学习与机器学习的区别？（一般来讲，机器学习包含深度学习）

数据类型：机器学习通常处理的是结构化数据，即有明确的标签或类别的数据，如表格、数值、文本等。深度学习通常处理的是非结构化数据，即没有明确的标签或类别的数据，如图像、音频、视频等。

特征提取：机器学习依赖于人工设计和选择合适的特征来描述数据，这可能需要专业知识和经验。深度学习可以自动从原始数据中提取特征，无需人工干预，这可以减少人为误差和偏见。

学习方式：机器学习通常使用监督学习或半监督学习的方法，即需要有标签的数据来训练模型，并通过反馈来调整模型参数。深度学习可以使用无监督学习或自监督学习的方法，即不需要有标签的数据来训练模型，并通过自我生成目标来调整模型参数。

模型结构：机器学习通常使用浅层或线性的模型结构，如决策树、支持向量机、逻辑回归等。深度学习通常使用深层或非线性的模型结构，如神经网络、卷积神经网络、循环神经网络等。

所有之间的联系

描述性统计是对数据进行基本处理和分析的前提，推断性统计是对数据进行深入理解和解释的方法，机器学习是对数据进行高效利用和应用的技术。

数据挖掘与数据分析的区别？

目的：数据分析的目的是根据分析目标，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。数据挖掘的目的是从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识。

数据：数据分析处理的数据通常是有明确需求或假设的，而数据挖掘处理的数据通常是海量且复杂多变的。

方法：数据分析主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法；而数据挖掘主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。

结果：数据分析一般都是得到一个指标统计量结果，如总和、平均值等，这些指标数据都需要与业务结合进行解读。而数据挖掘输出模型或规则，并且可相应得到模型得分或标签，如流失概率值、总和得分、相似度、预测值等。