特征工程
2016-09-29 20:33:30 0 举报
AI智能生成
特征工程思维导图
作者其他创作
大纲/内容
特征构建
功能:从原始数据中人工地构建新的特征
方法:
切分属性:如将数据中的日期字段切分为按照季度或周期或者一天的上午、下午去构建特征
组合属性
特征:对数据敏感,分析能力强
特征提取
功能:将原始特征转换为一组具有物理意义或者统计意义的过程,比如减小原始数据中某个特征的取值个数
目的:
特征抽取后的特征要能够精确地表示样本信息,使得信息丢失很小(PCA)
特征抽取后的特征,要使得分类后的准确率很高,不能比原来特征分类的准确率低(对于线性来说,对应于LDA)
方法:
PCA:主成分分析(降维)
设计的特征矩阵上使用主要成分分析,来进行特征提取从而创建新的特征
ICA:独立成分分析
LDA:线性判别分析
其他: 图像数据----SIFT
特征选择
功能:从特征集合中挑选最有统计意义的特征子集,从而达到降维效果
特征子集生成
功能:从特征集合中搜索特征子集
方法分类:
Filter:筛选器,侧重于单个特征
描述:自变量和目标变量的关联,通过分析特征子集内部的特点来衡量其好坏,然后选择排名靠前的TOP XX ,从而达到特征选择的目的
评价函数:
person相关系数
Gini-index 基尼指数
IG 信息增益、互信息
卡方检验
DistanceMetrics 距离(相似性度量):如欧氏距离、标准化欧氏距离、马氏距离等
特点:
优点:计算时间上比较高效,对于过拟合问题具有较高的鲁棒性
缺点:倾向于选择冗余的特征:它们不会考虑特征之间的相关性,有些特征单独的分类能力差,但是和其他特征组合起来分类能力会很强
Wrapper:封装器,侧重于特征子集
描述:实际上是一个分类器,用选取的特征子集对样本集进行分类,分类的精度作为衡量子集好坏的标准,经过比较选出最好的特征子集
产生特征子集:
错误分类率(classifier error rate):使用特定的分类器,用给定的特征子集对样本进行分类,用分类的精度来衡量子集的好坏
向前选择(Forward selection):初始时假设已选择特征的集合为空集,算法采取贪心的方式逐步扩充该集合,直到该集合的特征数达到一个阈值(该阈值可以预先设定,也可以通过交叉验证获得)
向后选择(Backward selection):初始时假设一选特征集合为所有特征的全集,算法每次删除一个特征,直到所选特征集合的特征数达到阈值或者被删空。
尤其是一些启发式的优化算法,如GA,PSO,DE,ABC
逐步回归(Stepwise regression):
特点:
优点:
虑了特征与特征之间的关联性
缺点:
观测数据较少时容易过拟合
特征数量较多时,计算时间又会增长
评价方法:根据产生的子集,使用交叉验证进行试验
Embeded:集成方法
描述:学习器自身自动选择特征
方法:
Regularization正则化
L1---Lasso
L2----Ridge
决策树算法
ID3,C45,CART
决策树算法在树增长的每个递归步都必须选择一个特征,将样本集划分成较小的子集,选择特征的依据通常是划分后子节点的纯度(越纯越好),可见决策树生成的过程也就是特征选择的过程
特点:
优点:结合了前两种方法的优点
缺点:必须事先知道什么是最好的选择
特征验证
功能:在验证数据集上选出来的特征子集的有效性
0 条评论
下一页