首页  思维导图  详情

特征工程

2016-09-29 20:33:30   0  举报





仅支持查看

AI智能生成

特征工程思维导图

特征工程

特征构建

特征提取

特征选择

机器学习

machine learning

feature

作者其他创作

大纲/内容

特征构建

功能：从原始数据中人工地构建新的特征

方法：

切分属性：如将数据中的日期字段切分为按照季度或周期或者一天的上午、下午去构建特征

组合属性

特征：对数据敏感，分析能力强

特征提取

功能：将原始特征转换为一组具有物理意义或者统计意义的过程，比如减小原始数据中某个特征的取值个数

目的：

特征抽取后的特征要能够精确地表示样本信息，使得信息丢失很小（PCA）

特征抽取后的特征，要使得分类后的准确率很高，不能比原来特征分类的准确率低（对于线性来说，对应于LDA）

方法：

PCA:主成分分析(降维)

设计的特征矩阵上使用主要成分分析，来进行特征提取从而创建新的特征

ICA:独立成分分析

LDA：线性判别分析

其他: 图像数据----SIFT

特征选择

功能：从特征集合中挑选最有统计意义的特征子集，从而达到降维效果

特征子集生成

功能：从特征集合中搜索特征子集

方法分类：

Filter：筛选器，侧重于单个特征

描述：自变量和目标变量的关联，通过分析特征子集内部的特点来衡量其好坏，然后选择排名靠前的TOP XX ，从而达到特征选择的目的

评价函数：

person相关系数

Gini-index 基尼指数

IG 信息增益、互信息

卡方检验

DistanceMetrics 距离（相似性度量）：如欧氏距离、标准化欧氏距离、马氏距离等

特点：

优点：计算时间上比较高效，对于过拟合问题具有较高的鲁棒性

缺点：倾向于选择冗余的特征：它们不会考虑特征之间的相关性，有些特征单独的分类能力差，但是和其他特征组合起来分类能力会很强

Wrapper：封装器，侧重于特征子集

描述：实际上是一个分类器，用选取的特征子集对样本集进行分类，分类的精度作为衡量子集好坏的标准，经过比较选出最好的特征子集

产生特征子集：

错误分类率（classifier error rate）：使用特定的分类器，用给定的特征子集对样本进行分类，用分类的精度来衡量子集的好坏

向前选择（Forward selection）：初始时假设已选择特征的集合为空集，算法采取贪心的方式逐步扩充该集合，直到该集合的特征数达到一个阈值（该阈值可以预先设定，也可以通过交叉验证获得）

向后选择（Backward selection）：初始时假设一选特征集合为所有特征的全集，算法每次删除一个特征，直到所选特征集合的特征数达到阈值或者被删空。

尤其是一些启发式的优化算法，如GA，PSO，DE，ABC

逐步回归（Stepwise regression）：

特点：

优点：

虑了特征与特征之间的关联性

缺点：

观测数据较少时容易过拟合

特征数量较多时,计算时间又会增长

评价方法：根据产生的子集，使用交叉验证进行试验

Embeded:集成方法

描述：学习器自身自动选择特征

方法：

Regularization正则化

L1---Lasso

L2----Ridge

决策树算法

ID3,C45,CART

决策树算法在树增长的每个递归步都必须选择一个特征，将样本集划分成较小的子集，选择特征的依据通常是划分后子节点的纯度（越纯越好），可见决策树生成的过程也就是特征选择的过程

特点：

优点：结合了前两种方法的优点

缺点：必须事先知道什么是最好的选择

特征验证

功能：在验证数据集上选出来的特征子集的有效性

 收藏

立即使用

数据挖掘内容

 收藏

立即使用

kmeans过程

 收藏

立即使用

聚类框架图

 收藏

立即使用

坐标转换

PO夏

职业：暂无

去主页





0 条评论

下一页

为你推荐

查看更多

