首页  思维导图  详情

Python数据预处理

2024-04-17 16:08:20   5  举报





AI智能生成

为你推荐

查看更多



123

php

作者其他创作

大纲/内容

创建一维数组

创建二维数组

创建三维数组

array()函数：需要接收一个列表或元组

根据Python现有数据类型创建数组

zeros()函数：创建一个元素值都为0的数组

ones()函数：创建一个元素值都为1的数组；

empty()函数：创建一个元素值都为随机数的数组。

根据指定数值创建数组

arange()函数：创建一个基于指定区间均匀分布数值的数组

reshape()函数：用于改变数组的形状，但不会改变数组的元素

根据指定数值范围创建数组

创建数组

ndim

shape

size

dtype

itemsize

ndarray 对象的常用属性

获取该数组中的单个元素或一行元素

整数索引

以整数组成的数组或列表为索引

使用花式索引访问一维数组

方法：二维数组[花式索引，花式索引]

使用花式索引访问二维数组

花式索引

以布尔值组成的数组或列表为索引

布尔索引

索引

一维数组的切片操作

传入一个切片

传入两个切片

混合传入整数索引与切片

二维数组的切片操作

切片

访问数据元素

形状相同的数组

某一维度为1

某一维度相等

广播机制

形状不同的数组

数组运算

实现数组排序功能，数组的每行元素默认会按照从小到大的顺序排列，返回排序后的数组。

sort()

实现数组排序功能，对数组中的元素进行从小到大排序，并返回相应序列元素的数组下标（序号）。

argsort()

排序

用于判断数组的所有元素是否全部满足条件，满足条件则返回True，否则返回False。

all

用于判断数组的元素是否有一个满足条件，满足条件则返回True，否则就返回False。

any

检索数组元素

实现元素唯一化功能，将查找的唯一元素进行排序后返回

uniuqe()

数据去重

tile()

repeat()

数据重复

数组横向组合

数组纵向组合

数据组合

数组横向分割

数组纵向分割

数据分割

数组操作

transpose()

T属性

数组转置

sum()

mean()

std()

var()

min()

max()

argmin()

argmax()

cumsum()

cumprod()

常用统计函数

Numpy

最简单方法是传入一个Python列表

可以通过 index 参数来指定行索引

可以根据字典创建Series类的对象

pandas.Series()

创建

形状

s.shape

元素个数

s.size

s.index

值

s.values

同index

s.keys()

数据类型

s.dtypes

常用属性和方法

计算 Series 数据中元素的平均值

s.mean()

计算 Series 数据中元素的最大值

s.max()

计算 Series 数据中元素的最小值

s.min()

计算 Series 数据中元素的标准差

s.std()

统计 Series 数据中不同元素的个数

s.value_counts()

s.count()

显示 Series 数据中元素的各种统计值

s.describe()

常用统计方法

Series 和数值型数据运算

Series 和另一 Series 运算

Series 运算

数据统计与计算

Series

可以使用字典来创建DataFrame

可以使用二维列表来创建DataFrame

创建时可以指定索引

pandas.DataFrame()

df.value

df.shape

个数

df.size

维度

df.ndim

行索引

df.index

列索引

df.columns

df.dtypes

每列的结构

df.info()

计算 DataFrame 数据中每列元素的最大值

计算 DataFrame 数据中每列元素的最小值

统计 DataFrame 数据中每列非空(NaN)元素的个数

显示 DataFrame 数据中每列元素的各种统计值

DataFrame 和数值型数据运算

DataFrame 和另一 DataFrame 运算

Dataframe 运算

DataFrame

Series.index()

DataFrame.index()

显示索引

[]

自定义的标签索引

loc

自动生成的整数索引

iloc

iat

使用单层索引访问数据

使用分层索引访问数据

bool索引

索引操作

可以让Series类对象DataFrame类对象按索引的大小进行排序。

sort_index()

按索引排序

将Series、DataFrmae类对象按值的大小排序。

sort_values()

按值排序

Pandas数据结构

把DataFrame中的任何列转换为其他dtype

astype()

默认情况下，该值为 raise，如果 to_numeric 遇到无法转换的值时，会抛错

设置为coerce：如果 to_numeric 遇到无法转换的值时，会返回NaN

设置为ignore：如果 to_numeric 遇到无法转换的值时，会放弃转换，什么都不做

参数 errors，它决定了当该函数遇到无法转换的数值时该如何处理

to_numeric()

类型转换

分类数据类型 category

Pandas数据类型

Pandas

read_csv()

从CSV和TXT文件读取数据

read_excel()

从Excel文件读取数据

read_json()

从JSON文件读取数据

read_html()

从HTML表格读取数据

获取Word文件中的段落对象列表

paragraphs

获取Word文件中的表格对象列表

tables

获取Word文件中每个小节访问权限的对象

sections

获取Word文件中的样式对象

styles

Document类的常用属性

获取段落中的文本字符串

text

获取段落中的节段对象（Run类对象）

runs

获取段落的样式对象（ParagraphStyle类对象）

style

Paragraph类的常用属性

获取表格中指定的单元格

获取表格中包含行数据的对象

rows

获取表格中包含列数据的对象

columns

获取表格中文本字符串

Table类的常用属性或方法

python-docx库

从word文件读取数据

返回一个包含创建日期、修改日期、作者等信息的字典

metadata

返回一个包含PDF文件每页实例的列表

pages

PDF类的常用属性

提取页面中所有单词及其相关信息

extract_words()

提取页面中所有的文本数据和表格数据

extract_text()

提取页面中表格的数据

extract_tables()

Page类的常用方法

pdfplumber

从PDF文件读取数据

数据获取

NaN

nan

None

什么是缺失值？

若返回的值为True，说明存在缺失值

isnull()

若返回的值为False，说明存在缺失值

notnull()

isna()

notna()

检测

isnull().sum()

统计缺失值

用于删除缺失值所在的一行或一列数据，并返回一个删除缺失值后的新对象

dropna()

删除缺失值

既可以使用指定的数据填充，也可以使用缺失值前面或后面的数据填充

fillna()

填充缺失值

根据相应的插值方法求得的值进行填充

interpolate()

插补缺失值

处理

缺失值

duplicated()

drop_duplicates()

一般是删除

重复值

散点图方法

箱线图分析

3σ法则

保留异常值

删除异常值

替换异常值

异常值

数据清理

merge()

concat()

combine_first()

数据集成

pivot()

melt()

轴向旋转

groupby()

分组

内置的聚合方法

agg()

transfrom()

apply()

聚合

分组与聚合

cut()

面元划分

数据变换

stack()

unstack()

重塑分层索引

resample()

降采样

数据规约

Series 的 apply 方法

DataFrame 的 apply 方法

Apply自定义函数

Pivot Table

数据透视表

datetime数据类型

折线图：默认参数

条形图：bar

直方图：hist

散点图：scatter

plot()方法

Pandas绘图操作

plt.figure

figure.add_subplot

创建画布与创建子图

plt.title

plt.xlabel

plt.ylabel

plt.xlim

plt.ylim

plt.xticks

plt.yticks

plt.legend

添加画布内容

plt.savefig

plt.show

存与展示图形

步骤

折线图：plot

pyplot模块

matplotlib

数据可视化

数据预处理

 收藏

立即使用

Python数据预处理

yanniskwan

职业：暂无

去主页





0 条评论

回复删除



取消

下一页