Python数据分析技巧
2024-01-25 14:56:23 0 举报
AI智能生成
登录查看完整内容
常用的异常值处理、检验和特征选择方法的Python实现
作者其他创作
大纲/内容
isnull()
duplicated()
发现异常值
drop()
dropna(subset=['']) 删除某列带空值的行
删除异常值
fillna()
插值 Series.interpolate(method='')
填充异常值
异常值处理
相关系数、假设检验
连续X vs 连续Y
相关系数、连续二值化(最小Gini切分、最大熵增益切分)
连续X vs 离散二值Y
相关系数(定序)
连续X vs 离散非二值Y
相关系数、熵相关、F分值
离散二值X vs 离散二值Y
熵相关、Gini、相关系数(定序)
离散X vs 离散非二值Y
选择方法
SelectKBest
sklearn.feature_selection
过滤思想
RFE
包裹思想
SelectFromModel
嵌入思想
选择思想
numpy.log
缩小尺度
对数化
numpy.exp
扩大尺度
指数化
对指化
等频(等深)分箱
等距(等宽)分箱
自因变量优化
离散化
MinMaxScaler
sklearn.preprocessing
Min-Max
归一化
StandardScaler
Z-Score
标准化
LabelEncoder
标签化
定序数据
OneHotEncoder
独热化
定类数据
数值化
norm='l1'/'l2'
Normalizer
正则化
特征变换
PCA
带标注降维,不同标注间距离最大,同标注内距离最小
LDA
特征降维
特征选择
特征工程
数据分析与建模
0 条评论
回复 删除
下一页