数据分析-数据分析思维
2022-05-05 10:58:43 2 举报
AI智能生成
掌握常用的数据分析方法论是培养数据分析思维的基础,俗话说“工欲善其事,必先利其器”,而数据分析方法论就是数据分析是最强大的武器之一。
作者其他创作
大纲/内容
将彼此相关的一组指标向量转化为彼此独立的一组新的指标向量,并用其中较少的几个新指标变量综合反映原多个指标变量中所办函的主要信息。
目的:1、数据的压缩;2、数据的解释
指标数繁杂,需要进行分类
帮助我们去找可以代表原有指标的新指标(人均耕地面积、农民人均收入、人均粮食产量概括为人均资源量)
理解
一般要求所选主成分的方差总和占全部方差的80%就可以了
做主成分分析前要标准化
注意事项
主成分所代表的原始变量的信息用其方差来表示。
所选择的第一个主成分是所有主成分中方差最大者;
如第一个主成分不足以代表原来的多个变量,在考虑选择第二个主成分;
一般要求选择所选主成分的方差占全部方差的80%以上就可以了
这些主成分互不相关,且方差递减
选择标准
对原来的P个指标进行标准化,以消除变量在水平和量纲上的影响;
根据标准化后的数据矩阵求出相关系数矩阵;
求出协方差矩阵的特征根和特征向量;
确定主成分,并对各主成分所包含的信息给予适当的解释;
操作步骤
主成分分析
y1=ax1+bx2+cx3
y2=dx1+ex2+fx3
示例:自变量x为学科(语数外物理化学),探究相关性,数学好--物理好--化学好,因变量y理科好
主成分:原指标组合,选前n个y当主成分;
x1=af1+bf2+cf3
x2=df1+ef2+ff3
示例:微信公众号文章的x阅读、转化 拆解为 f文章价值、吸引力等因子
因子:原指标拆解,把x拆成新指标f,用f去描述样本
主成分分析与因子分析的区别
因子分析
按照中心点或者分层的方式对输入数据进行归类。聚类算法都试图找到数据的内在结构,以便按照最大共同点将数据进行归类。
确定所有聚类变量
数据预处理
确定聚类个数并用处理后的聚类因子进行聚类分析
分析聚类效果和聚类结果
结合实际情况分析每类的意义
方法
对噪点和离群点敏感
变量共线会对聚类效果产生影响
涉及算距离的算法则需要数值型,且要进行标准化
对数据类型要求高,适合数值型数据
圆环形蔟
非线性聚合
不能对如下的蔟正确聚类
局限性
K-Means
为避免K-Means对离群点的敏感性,一个解决方法是不采用蔟中对象的均值作为参考点,而是挑选实际对象来代表蔟,每个蔟使用一个代表对象(选择依据:它到当前蔟中其他所有点的距离之和最小)
K-Medoids
基于密度的聚类--考察样本密度来衡量样本之间的可连接性,不断拓展聚类蔟实现聚类目的
DBSCAN给予邻域参数(邻域半径,邻域内最小样本点数)来刻画样本分布的紧密程度。
DBSCAN
事先不确定要分多少类,而是把每一个对象作为一类,然后一层一层进行分类
常用的是离差平均和
单纯使用:用户划分
结合使用:提取数据特征
应用场景
层次聚类
若接近1,说明聚类合理;若接近-1,说明应该分类到其他蔟;若接近0,说明在两个蔟的边界上
聚类效果检验:轮廓系数
聚类算法
基于频繁项集的一种挖掘关联规则的算法
概念
最典型的是购物篮分析,在其他的搜索相关性的场景中也能得到很好的应用,比如关联推荐、产品组合设计、客户消费习惯挖掘等
场景
只能处理分类变量,无法处理数值型变量
特点
Support(A->B)=P(A∩B)支持度揭示了A与B同时出现的概率
支持度Support
Confident(A->B)=P(B|A)置信度揭示了A出现时,B是否也会出现或有多大概率出现
置信度Confient
:设定支持度和置信度的最小值,高于最小值才有意义
最小支持度和最小置信度
在含有A的条件下,同时含有B的概率,与不含A的条件下却含有B的概率之比Lift(A→B)=P(B|A)/P(B)
满足最小支持度和最小置信度
Lift(A→B)>1,则A→B是有效的强关联规则
Lift(A→B)≤1,则A→B是无效的强关联规则
Lift(A→B)=1,则A→B相互独立
强关联规则
提升度Lift
确定列表中所有项
确定最小支持度和最小置信度
设置合理参数进行关联分析,将结果进行整理,按要求写出频繁项集和强关联规则等
模型结果结合实际情况给出建议
核心算法
关联规则
描述性数据分析
特点:预测未来发生了什么
模型是由算法训练出来的结果≠算法
模型与算法的区别
回归
分类
类别
概念:找出X与Y之间的映射关系
监督学习
聚类
思想:只有X没有Y,找出X的关系
非监督学习
简介
训练误差:模型在训练数据集上表现的误差
100个数据,80个训练集,20个测试集
留出法
一份数据集,随机分为10份,9份训练,1份测试,然后重新随机分布,如此循环,取K次的结果取均值进行验证
交叉验证(K折交叉验证)
抽取样本作为训练集,未被抽取作为测试集
优点:样本量少,可扩充训练集
缺点:样本重复,改变原数据分布状态
原始数据集有放回的随机测试
自助法
生产测试集的方法
泛化误差:模型在测试数据集上表现的误差
只可减轻不可消除
过拟合:训练误差很小,而泛化误差很大
模型弱,学习效果差,可以消除
欠拟合:训练误差较大
过拟合与欠拟合
对候选模型的泛化误差进行评估,选择泛化误差最小的那个模型
如何选择模型和模型参数
除了需要一个训练数据集来训练模型外,还需要一个测试数据集来测试模型对新样本的判别能力,以测试集上的误差作为泛化误差的近似。
如何进行模型评估
建模过程中的普遍问题(预测/分类)
模型预测对的分类处在混淆矩阵的对角线上
精确度accuracy定义为模型预测对的样本数量比样本总体的数量
混淆矩阵与accuracy
TP: 将正类预测为正类数
FN: 将正类预测为负类数
FP: 将负类预测为正类数
TN: 将负类预测为负类数
T/F 预测结果与预测样本对比是否正确
P/N预测结果为正确/错误
准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)
精确率(precision) = TP/(TP+FP) ,分母为预测后正类
召回率(recall) = TP/(TP+FN) ,分母为预测前正类
准确率与召回率
一般情况下我们希望精确率和召回率越大越好,但事实上两者在某些凭空是矛盾的
分支主题
结合精确率和召回率综合评分
F1-Score
ROC曲线向左上角凸,分类器效果越好
AUC值为ROC曲线下方的面积
ROC曲线与AUC值
预测/分类器效果检验指标
概述
F整体显著性≤0.05
t单个回归系数显著性≤0.05
线性回归
Logistics是一种分类方法,主要用于二分类问题
损失函数
大部分机器学习获取最优解的方法
梯度下降
表示为1类的概率
假设函数
次原函数
推导过程
共线性问题正则项:解决共线性问题(不用向前选择、向后删除、逐步回归)
哑变量
表示类别的字符型变量(如东南西北)不可直接使用,需要进行数据转换
异常值对模型影响很大,应该删除
预测结果界于0和1之间的概率
适用于连续型和类别性
容易使用,可解释性较强
优点
对自变量的多重共线性较为敏感
容易欠拟合
分类精度不高
缺点
逻辑回归(Logistic回归)
神经元网络
信息增益最大(频数统计)
ID3
信息增益率最大
C4.5
基尼系数(Gini)最小
永远只是二叉树
CRAT(卡特树)
易于理解与实现
数据的准备往往是简单或者是不必要的
能够同时处理数据型和常规型属性
在相对短的时间内能够对大型数据源做出可行且效果良好的结果
对缺失值不敏感,可以处理不相关特征数据
删除重复值
遍历所有节点对比信息增益
对连续型的字段比较难预测
当类别太多时,错误可能就会增加的比较快
在处理特征关联性比较强的数据时表现不是太好
过拟合问题的出现
决策树
原理:近朱者赤近墨者黑
算距离:对于未知样本,计算它与训练集中的每个对象的距离
找邻居:固定距离最近的K个训练对象,作为未知样本的近邻
做分类:根据这K个近邻归属的主要类别,来对测试对象分类
计算步骤
欧式距离
曼哈顿距离
切比雪夫距离
常见测距方式
改进方法:加权
样本分布不均匀会导致错误
简单易于理解、实现,无需估计参数,无需训练,适合对稀有事件进行分类
特别适合于多分类问题
懒惰算法,对测试样本分类计算量大,内存开销大,评分慢
可解释性较差,无法给出决策树那样的规则
K-近邻算法(KNN)
对训练样本集采取有放回的采样,生成n个样本集,分别用来训练n个基分类器
预测时,每个基分类对新样本进行分类,整体模型结果为得票数多的类别
Bagging的准确率通常显著高于由原始样本得到的单个分类器,受异常值影响和过拟合风险都更小
基本原理
用随机的方式建立一个森林,森林由很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行判断,看看这个样本属于哪一类,然后再看看哪一类被选择最多,就预测这个样本为那一类。
准确率可以和adaboost媲美
对噪声和离群点不敏感
过拟合风险低
每次划分只考虑很少的特征,故在大型数据库上非常有效
运行速度可能比bagging和boost更快
随机森林
个体学习器间不存在强依赖关系,可同时生成的并行化方法。代表的是Bagging方法,随机森林(Random Forest)
个体学习器间存在强依赖关系,必须串行生成的序列化方法。代表是Boosting方法
主要分类
集成学习
支持向量机
预测性数据分析
数据分析思维
0 条评论
回复 删除
下一页