过程整理

2021-06-11 20:10:44   0  举报





仅支持查看

AI智能生成

过程整理

IOT

模板推荐

作者其他创作

大纲/内容

EDA

pandas_profiling

##依赖库import seaborn as snsimport pandas as pdimport pandas_profiling as ppfimport matplotlib.pyplot as plt

##查看报表report = ppf.ProfileReport(data)report

train.head()#默认显示前五行

full.info()

箱线图

plt.figure(figsize=(10,8))##指定figure的宽和高，单位为英寸sns.boxplot(train.YearBuilt, train.SalePrice)##箱型图是看异常值的，离群点

散点图

plt.figure(figsize=(12,6))plt.scatter(x=train.GrLivArea, y=train.SalePrice)##可以用来观察存在线型的关系plt.xlabel(&quot;GrLivArea&quot;, fontsize=13)plt.ylabel(&quot;SalePrice&quot;, fontsize=13)plt.ylim(0,800000)

数据清洗

缺失值

##查看缺失值，并且缺失的个数要从高到低排序miss = full.isnull().sum()#统计出空值的个数miss[miss&gt;0].sort_values(ascending=True)#由低到高排好序full.info()#看空值数量

空值的填充与删除

对字符类型的进行填充

cols1 = [&quot;PoolQC&quot; , &quot;MiscFeature&quot;, &quot;Alley&quot;, &quot;Fence&quot;, &quot;FireplaceQu&quot;, &quot;GarageQual&quot;, &quot;GarageCond&quot;, &quot;GarageFinish&quot;, &quot;GarageYrBlt&quot;, &quot;GarageType&quot;, &quot;BsmtExposure&quot;, &quot;BsmtCond&quot;, &quot;BsmtQual&quot;, &quot;BsmtFinType2&quot;, &quot;BsmtFinType1&quot;, &quot;MasVnrType&quot;]for col in cols1: full[col].fillna(&quot;None&quot;,inplace=True)

对数值类型的进行填充

cols=[&quot;MasVnrArea&quot;, &quot;BsmtUnfSF&quot;, &quot;TotalBsmtSF&quot;, &quot;GarageCars&quot;, &quot;BsmtFinSF2&quot;, &quot;BsmtFinSF1&quot;, &quot;GarageArea&quot;]for col in cols: full[col].fillna(0, inplace=True)

对某一列空值进行填充（用这一列的均值）

full[&quot;LotFrontage&quot;].fillna(np.mean(full[&quot;LotFrontage&quot;]),inplace=True)

对这些列进行众数填充

cols2 = [&quot;MSZoning&quot;, &quot;BsmtFullBath&quot;, &quot;BsmtHalfBath&quot;, &quot;Utilities&quot;, &quot;Functional&quot;, &quot;Electrical&quot;, &quot;KitchenQual&quot;, &quot;SaleType&quot;,&quot;Exterior1st&quot;, &quot;Exterior2nd&quot;]for col in cols2: full[col].fillna(full[col].mode()[0], inplace=True)

查看哪些是还没填充好的

full.isnull().sum()[full.isnull().sum()&gt;0]##至此我们已经把空值填充好了

离群点处理

##pandas 里面的条件索引train.drop(train[(train[&quot;GrLivArea&quot;]&gt;4000)&(train[&quot;SalePrice&quot;]&lt;300000)].index,inplace=True)

合并数据

pd.concat

full = pd.concat([train,test],ignore_index=True)

去除id列

full.drop(&quot;Id&quot;,axis=1,inplace=True)

对不连续的数字或者文本进行数字化处理

sklearn.preprocessing.LableEncoder

for col in cols2: full[col]=full[col].astype(str)##astype来进行数据转换成字符串类型