数据分析、挖掘相关整理
2023-04-23 23:53:17 2 举报
AI智能生成
数据分析、挖掘相关整理
作者其他创作
大纲/内容
<b>数据挖掘</b><b><font color="#faf200">主要任务</font></b>
<b>1.关联分析:</b>
<font color="#797ec9">简单关联、时序关联、因果关联</font>
<b>2.预测</b>
分类问题:<font color="#797ec9">决策树、最近邻分类、朴素贝叶斯分类、人工神经网络、支持向量机</font>
回归问题:<font color="#797ec9">线性回归、逻辑回归、多项式回归</font>
<b>3.聚类分析</b>
<font color="#797ec9">划分方法:</font>将给定的具有n个对象的集合,构建数据的k个分区。大部分的划分方法<b><font color="#ffaf38">基于距离</font></b>进行数据对象的划分。
<font color="#797ec9">层次方法:</font>创建给定数据对象集的层次分解。层次方法分为<b><font color="#ffaf38">凝聚(自底向上)</font></b>的方法和<b><font color="#ffaf38">分裂(自顶而下)</font></b>的方法。
<font color="#797ec9">基于密度的方法:</font>只要邻域中的密度超过某个阈值,就进行簇的增长,可以用来<b><font color="#ffaf38">过滤噪声或离群点</font></b>,发现任意形状的簇。
<font color="#797ec9">基于网格的方法</font>
<b>4.离群点检测</b>
基于统计的检测方法:箱线图分析、平均值、最大最小值分析和统计学3σ
基于距离的检测方法:KNN
基于密度的检测方法:
基于聚类的检测方法
Q&A:<b>聚类分析</b>与<b>分类分析</b>的区别?
<b>聚类分析</b>的目的是发现数据中潜在的类别或结构,不需要事先定义类别或规则,而是根据数据本身的相似性或距离来划分,属于<b><font color="#ffaf38">非监督式学习</font></b>。
<b>分类分析</b>的目的是根据<b><font color="#ffaf38">已知的类别或标签来预测新数据</font></b>的归属,需要事先定义类别或规则,然后根据数据的特征或属性来判断,属于<b><font color="#ffaf38">监督式学习</font></b>。
<b>数据挖掘主要技术</b>
<b>统计学</b>:判别分析、主成分分析、因子分析、相关分析、多元回归分析
<b>机器学习</b>
<b>监督学习</b>:利用一直某种特性的样本(x,y)作为训练集,建立数学模型,求解f:x->y预测未知样本。分类的标签是离散的,回归的标签是连续的。
<b>半监督学习</b>:利用少量标注了的样本和大量未标注的样本进行训练和测试。
一般基于三种假设:平滑假设、聚类假设、流行假设
<b>非监督学习</b>:训练数据集只有x而没有标签y,目的是试图提取数据中隐含的结构和规律。
<b>主动学习</b>:用较少的训练样本获得较好的分类器,主要通过一定算法查询最有用的未标记样本,再由专家标记,然后用查询到的样本训练分类模型提高模型的精确度。
<b>强化学习</b>:输入模型作为对模型的反馈,不像监督模型那样,输入模型仅作为一个检查模型正确与否的方式。
<b>数据分析主要工具</b>
数据收集:MySQL、八爪鱼大数据、ParseHub、问卷星
数据分析:SPSS、MatLab、R、Python
数据可视化:Visio、Tableau、Qlik、Echarts
<b>Q&A</b>
<b>描述性统计、推断行统计的区别?</b>
<b>描述性统计学</b>是研究如何<b><font color="#ffaf38">收集、整理、展示和总结数据的特征</font></b>的一门学科。它可以用图表或数值的方式来<b><font color="#ffaf38">简化和概括</font></b>数据,但不涉及对数据的推断或预测。
描述性统计学是研究如何收集、整理、展示和总结数据的特征的一门学科1。它可以用图表或数值的方式来简化和概括数据,但不涉及对数据的推断或预测2。
推断性统计学是研究如何根据样本数据去推断总体数量特征的方法1。它可以用参数估计或假设检验的方式来分析数据中存在的不确定性,并给出以概率形式表述的结论2。
机器学习是人工智能的一个子领域,它研究如何让计算机通过数据和算法来自动地学习和改进3。它更关注最小化预测误差的某种度量,比如模型的泛化能力、预测的准确率或召回率3。
描述性统计、推断性统计和机器学习之间有一定的联系和区别。描述性统计是对数据进行基本处理和分析的前提,推断性统计是对数据进行深入理解和解释的方法,机器学习是对数据进行高效利用和应用的技术。
(1)定义
(2)性质
(3)计算
(4)🔷<font color="#3da8f5">例题</font>
题目类型①
<span class="tag">@例题</span><font color="#3da8f5"> </font>
总结 <span class="tag">@💡</span>
题目类型②
<span class="tag">@例题</span><font color="#3da8f5"> </font>
总结 <span class="tag">@💡</span>
...
<b>推断性统计学</b>是研究如何<b><font color="#ffaf38">根据样本数据去推断总体数量特征</font></b>的方法。它可以用参数估计或假设检验的方式来分析数据中存在的不确定性,并给出以概率形式表述的结论
<i>错1 </i><span class="tag">@错题</span>
错解❌
正解✔
总结 <span class="tag">@💡</span>
<i>错2 </i><span class="tag">@错题</span> ❓
错解❌
正解✔
总结 <span class="tag">@💡</span>
<b>统计学习、深度学习与机器学习的区别?</b>
<b>统计学习</b>是<b><font color="#ffaf38">理论驱动</font></b>的,对数据分布进行假设,以强大的数学理论支撑解释因果,<b><font color="#ffaf38">注重参数推断</font></b>(Inference)。统计学习的优点是它有强大的数学理论支撑,可以对数据分布进行假设和检验,可以解释变量之间的因果关系,可以评估模型参数的显著性和健壮性,可以在<b><font color="#ffaf38">小规模数据上</font></b>得出可信的结论。统计学习的缺点是它对数据分布有较强的假设,可能<b><font color="#ffaf38">不适用于复杂和非线性</font></b>的现实问题,也可能无法处理高维和大规模的数据。
<b>机器学习</b>是<b><font color="#ffaf38">数据驱动</font></b>的,依赖于大数据规模预测未来,弱化了收敛性问题,<b><font color="#ffaf38">注重模型预测</font></b>(Prediction)。机器学习的优点是它是数据驱动的,可以利用大数据规模提高预测效果,可以设计灵活和强大的模型或目标函数,可以提高算法效率和可扩展性。机器学习的缺点是它对数据质量和数量有较高的要求,可能<b><font color="#ffaf38">忽视了数据中潜在的结构或规律</font></b>,也可能<b><font color="#ffaf38">牺牲了模型的可解释性和可信度</font></b>。
<b>深度学习与机器学习的区别?</b>(一般来讲,机器学习包含深度学习)
<b>数据类型:机器学习</b>通常处理的是<b><font color="#ffaf38">结构化数据</font></b>,即有明确的标签或类别的数据,如表格、数值、文本等。<b>深度学习</b>通常处理的是<b><font color="#ffaf38">非结构化数据</font></b>,即没有明确的标签或类别的数据,如图像、音频、视频等。
<b>特征提取:机器学习</b>依赖于<b><font color="#ffaf38">人工设计和选择合适的特征</font></b>来描述数据,这可能需要专业知识和经验。<b>深度学习</b>可以自动<b><font color="#ffaf38">从原始数据中提取</font></b>特征,无需人工干预,这可以减少人为误差和偏见。
<b>学习方式:机器学习</b>通常使用<b><font color="#ffaf38">监督学习或半监督学习</font></b>的方法,即<b><font color="#ffaf38">需要有标签</font></b>的数据来训练模型,并通过反馈来调整模型参数。<b>深度学习</b>可以使用<b><font color="#ffaf38">无监督学习或自监督学习</font></b>的方法,即不需要有标签的数据来训练模型,并通过自我生成目标来调整模型参数。
<b>模型结构:机器学习</b>通常使用<b><font color="#ffaf38">浅层或线性的模型</font></b>结构,如<u>决策树、支持向量机、逻辑回归</u>等。深度学习通常使用<b><font color="#ffaf38">深层或非线性的模型</font></b>结构,如<u>神经网络、卷积神经网络、循环神经网络</u>等。
<b>所有之间的联系</b>
<b>描述性统计</b>是对数据进行基本<u>处理和分析的前提</u>,<b>推断性统计</b>是对数据进行<u>深入理解和解释</u>的方法,<b>机器学习</b>是对数据进行<u>高效利用和应用</u>的技术。
<b>数据挖掘与数据分析的区别?</b>
<b>目的:数据分析</b>的目的是<b><font color="#ffaf38">根据分析目标</font></b>,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。<b>数据挖掘</b>的目的是从大量的数据中,通过统计学、人工智能、机器学习等方法,<b><font color="#ffaf38">挖掘出未知的、且有价值的信息和知识</font></b>。
<b>数据:数据分析</b>处理的数据通常是有<b><font color="#ffaf38">明确需求或假设</font></b>的,而<b>数据挖掘</b>处理的数据通常是海量且复杂多变的。
<b>方法:数据分析</b>主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法;而<b>数据挖掘</b>主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。
<b>结果:数据分析</b>一般都是<b><font color="#ffaf38">得到一个指标统计量结果</font></b>,如总和、平均值等,这些指标数据都需要与业务结合进行解读。而<b>数据挖掘</b><b><font color="#ffaf38">输出模型或规则,并且可相应得到模型得分或标签</font></b>,如流失概率值、总和得分、相似度、预测值等。
0 条评论
下一页