Data Preprocessing
2017-03-28 23:48:57 0 举报
数据预处理是数据分析中至关重要的一步,它涉及到对原始数据的清洗、转换和整合,以便为后续的建模和分析做好准备。在数据预处理过程中,我们需要识别并处理缺失值、异常值和重复值,以确保数据的质量和准确性。此外,我们还需要对数据进行标准化、归一化和特征选择等操作,以降低数据的维度和复杂度,提高模型的性能。最后,通过将不同来源和格式的数据进行整合,我们可以构建一个更完整、更具代表性的数据集,为后续的分析提供有力支持。总之,数据预处理是确保数据分析成功的关键步骤,它有助于提高模型的准确性和可靠性,从而为我们带来更多有价值的洞察和结论。
作者其他创作
大纲/内容
产生多项式特征Generating Polynomial Features
Preprocessing
类别特征编码Encoding Categorical Features
m种值转换为m个二元位
sklearn.preprocessing.PolynomialFeatures类
从字典中加载特征
sklearn.preprocessing.scale()
sklearn.feature_extraction.DictVectorizer类
sklearn.preprocessing.normalize()
缺失值处理Imputation of Missing Values
sklearn.preprocessing.Binarizer类
正则化Normalization
属性缩放到指定范围(Scaling features to a range)
sklearn.preprocessing.Imputer类
标准化Standarization
sklearn.preprocessing.Normalizer类
sklearn.preprocessing.FunctionTransformer类
将任意一个函数变为转换器来做数据处理或清理
个性化转换器Custom Transformers
均值去除和方差缩放(Z-Score) (mean removal and variance scaling)
二值化Binarization
sklearn.preprocessing.binarize()
sklearn.preprocessing.StandardScaler类
可得到特征的高次和交互项
sklearn.preprocessing.OneHotEncoder类
收藏
0 条评论
下一页