主成分分析
将彼此相关的一组指标向量转化为彼此独立的一组新的指标向量,并用其中较少的几个新指标变量综合反映原多个指标变量中所办函的主要信息。
目的:1、数据的压缩;2、数据的解释
理解
指标数繁杂,需要进行分类
帮助我们去找可以代表原有指标的新指标(人均耕地面积、农民人均收入、人均粮食产量概括为人均资源量)
注意事项
一般要求所选主成分的方差总和占全部方差的80%就可以了
做主成分分析前要标准化
选择标准
主成分所代表的原始变量的信息用其方差来表示。
所选择的第一个主成分是所有主成分中方差最大者;
如第一个主成分不足以代表原来的多个变量,在考虑选择第二个主成分;
一般要求选择所选主成分的方差占全部方差的80%以上就可以了
这些主成分互不相关,且方差递减
操作步骤
对原来的P个指标进行标准化,以消除变量在水平和量纲上的影响;
根据标准化后的数据矩阵求出相关系数矩阵;
求出协方差矩阵的特征根和特征向量;
确定主成分,并对各主成分所包含的信息给予适当的解释;
聚类算法
按照中心点或者分层的方式对输入数据进行归类。聚类算法都试图找到数据的内在结构,以便按照最大共同点将数据进行归类。
聚类算法
K-Means
方法
确定所有聚类变量
数据预处理
确定聚类个数并用处理后的聚类因子进行聚类分析
分析聚类效果和聚类结果
结合实际情况分析每类的意义
局限性
对噪点和离群点敏感
变量共线会对聚类效果产生影响
对数据类型要求高,适合数值型数据
涉及算距离的算法则需要数值型,且要进行标准化
K-Medoids
为避免K-Means对离群点的敏感性,一个解决方法是不采用蔟中对象的均值作为参考点,而是挑选实际对象来代表蔟,每个蔟使用一个代表对象(选择依据:它到当前蔟中其他所有点的距离之和最小)
DBSCAN
基于密度的聚类--考察样本密度来衡量样本之间的可连接性,不断拓展聚类蔟实现聚类目的
DBSCAN给予邻域参数(邻域半径,邻域内最小样本点数)来刻画样本分布的紧密程度。
层次聚类
事先不确定要分多少类,而是把每一个对象作为一类,然后一层一层进行分类
常用的是离差平均和
应用场景
单纯使用:用户划分
结合使用:提取数据特征
聚类效果检验:轮廓系数
若接近1,说明聚类合理;若接近-1,说明应该分类到其他蔟;若接近0,说明在两个蔟的边界上
关联规则
场景
最典型的是购物篮分析,在其他的搜索相关性的场景中也能得到很好的应用,比如关联推荐、产品组合设计、客户消费习惯挖掘等
核心算法
支持度Support
Support(A->B)=P(A∩B)支持度揭示了A与B同时出现的概率
置信度Confient
Confident(A->B)=P(B|A)置信度揭示了A出现时,B是否也会出现或有多大概率出现
最小支持度和最小置信度
:设定支持度和置信度的最小值,高于最小值才有意义
提升度Lift
在含有A的条件下,同时含有B的概率,与不含A的条件下却含有B的概率之比Lift(A→B)=P(B|A)/P(B)
强关联规则
满足最小支持度和最小置信度
Lift(A→B)>1,则A→B是有效的强关联规则
Lift(A→B)≤1,则A→B是无效的强关联规则
Lift(A→B)=1,则A→B相互独立
操作步骤
确定列表中所有项
数据预处理
确定最小支持度和最小置信度
设置合理参数进行关联分析,将结果进行整理,按要求写出频繁项集和强关联规则等
模型结果结合实际情况给出建议