Python数据预处理
2024-04-17 16:08:20 5 举报
AI智能生成
123
作者其他创作
大纲/内容
创建一维数组
创建二维数组
创建三维数组
array()函数:需要接收一个列表或元组
根据Python现有数据类型创建数组
zeros()函数:创建一个元素值都为0的数组
ones()函数:创建一个元素值都为1的数组;
empty()函数:创建一个元素值都为随机数的数组。
根据指定数值创建数组
arange()函数:创建一个基于指定区间均匀分布数值的数组
reshape()函数:用于改变数组的形状,但不会改变数组的元素
根据指定数值范围创建数组
创建数组
ndim
shape
size
dtype
itemsize
ndarray 对象的常用属性
获取该数组中的单个元素或一行元素
整数索引
以整数组成的数组或列表为索引
使用花式索引访问一维数组
方法:二维数组[花式索引,花式索引]
使用花式索引访问二维数组
花式索引
以布尔值组成的数组或列表为索引
布尔索引
索引
一维数组的切片操作
传入一个切片
传入两个切片
混合传入整数索引与切片
二维数组的切片操作
切片
访问数据元素
形状相同的数组
某一维度为1
某一维度相等
广播机制
形状不同的数组
数组运算
实现数组排序功能,数组的每行元素默认会按照从小到大的顺序排列,返回排序后的数组。
sort()
实现数组排序功能,对数组中的元素进行从小到大排序,并返回相应序列元素的数组下标(序号)。
argsort()
排序
用于判断数组的所有元素是否全部满足条件,满足条件则返回True,否则返回False。
all
用于判断数组的元素是否有一个满足条件,满足条件则返回True,否则就返回False。
any
检索数组元素
实现元素唯一化功能,将查找的唯一元素进行排序后返回
uniuqe()
数据去重
tile()
repeat()
数据重复
数组横向组合
数组纵向组合
数据组合
数组横向分割
数组纵向分割
数据分割
数组操作
transpose()
T属性
数组转置
sum()
mean()
std()
var()
min()
max()
argmin()
argmax()
cumsum()
cumprod()
常用统计函数
Numpy
最简单方法是传入一个Python列表
可以通过 index 参数来指定行索引
可以根据字典创建Series类的对象
pandas.Series()
创建
形状
s.shape
元素个数
s.size
s.index
值
s.values
同index
s.keys()
数据类型
s.dtypes
常用属性和方法
计算 Series 数据中元素的平均值
s.mean()
计算 Series 数据中元素的最大值
s.max()
计算 Series 数据中元素的最小值
s.min()
计算 Series 数据中元素的标准差
s.std()
统计 Series 数据中不同元素的个数
s.value_counts()
s.count()
显示 Series 数据中元素的各种统计值
s.describe()
常用统计方法
Series 和 数值型数据运算
Series 和 另一 Series 运算
Series 运算
数据统计与计算
Series
可以使用字典来创建DataFrame
可以使用二维列表来创建DataFrame
创建时可以指定索引
pandas.DataFrame()
df.value
df.shape
个数
df.size
维度
df.ndim
行索引
df.index
列索引
df.columns
df.dtypes
每列的结构
df.info()
计算 DataFrame 数据中每列元素的最大值
计算 DataFrame 数据中每列元素的最小值
统计 DataFrame 数据中每列非空(NaN)元素的个数
显示 DataFrame 数据中每列元素的各种统计值
DataFrame 和 数值型数据运算
DataFrame 和 另一 DataFrame 运算
Dataframe 运算
DataFrame
Series.index()
DataFrame.index()
显示索引
[]
自定义的标签索引
loc
自动生成的整数索引
iloc
at
iat
使用单层索引访问数据
使用分层索引访问数据
bool索引
索引操作
可以让Series类对象DataFrame类对象按索引的大小进行排序。
sort_index()
按索引排序
将Series、DataFrmae类对象按值的大小排序。
sort_values()
按值排序
Pandas数据结构
把DataFrame中的任何列转换为其他dtype
astype()
默认情况下,该值为 raise,如果 to_numeric 遇到无法转换的值时,会抛错
设置为coerce:如果 to_numeric 遇到无法转换的值时,会返回NaN
设置为ignore:如果 to_numeric 遇到无法转换的值时,会放弃转换,什么都不做
参数 errors,它决定了当该函数遇到无法转换的数值时该如何处理
to_numeric()
类型转换
分类数据类型 category
Pandas数据类型
Pandas
read_csv()
从CSV和TXT文件读取数据
read_excel()
从Excel文件读取数据
read_json()
从JSON文件读取数据
read_html()
从HTML表格读取数据
获取Word文件中的段落对象列表
paragraphs
获取Word文件中的表格对象列表
tables
获取Word文件中每个小节访问权限的对象
sections
获取Word文件中的样式对象
styles
Document类的常用属性
获取段落中的文本字符串
text
获取段落中的节段对象(Run类对象)
runs
获取段落的样式对象(ParagraphStyle类对象)
style
Paragraph类的常用属性
获取表格中指定的单元格
获取表格中包含行数据的对象
rows
获取表格中包含列数据的对象
columns
获取表格中文本字符串
Table类的常用属性或方法
python-docx库
从word文件读取数据
返回一个包含创建日期、修改日期、作者等信息的字典
metadata
返回一个包含PDF文件每页实例的列表
pages
PDF类的常用属性
提取页面中所有单词及其相关信息
extract_words()
提取页面中所有的文本数据和表格数据
extract_text()
提取页面中表格的数据
extract_tables()
Page类的常用方法
pdfplumber
从PDF文件读取数据
数据获取
NaN
nan
None
什么是缺失值?
若返回的值为True,说明存在缺失值
isnull()
若返回的值为False,说明存在缺失值
notnull()
isna()
notna()
检测
isnull().sum()
统计缺失值
用于删除缺失值所在的一行或一列数据,并返回一个删除缺失值后的新对象
dropna()
删除缺失值
既可以使用指定的数据填充,也可以使用缺失值前面或后面的数据填充
fillna()
填充缺失值
根据相应的插值方法求得的值进行填充
interpolate()
插补缺失值
处理
缺失值
duplicated()
drop_duplicates()
一般是删除
重复值
散点图方法
箱线图分析
3σ法则
保留异常值
删除异常值
替换异常值
异常值
数据清理
merge()
concat()
combine_first()
数据集成
pivot()
melt()
轴向旋转
groupby()
分组
内置的聚合方法
agg()
transfrom()
apply()
聚合
分组与聚合
cut()
面元划分
数据变换
stack()
unstack()
重塑分层索引
resample()
降采样
数据规约
Series 的 apply 方法
DataFrame 的 apply 方法
Apply自定义函数
Pivot Table
数据透视表
datetime数据类型
折线图:默认参数
条形图:bar
直方图:hist
散点图:scatter
plot()方法
Pandas绘图操作
plt.figure
figure.add_subplot
创建画布与创建子图
plt.title
plt.xlabel
plt.ylabel
plt.xlim
plt.ylim
plt.xticks
plt.yticks
plt.legend
添加画布内容
plt.savefig
plt.show
存与展示图形
步骤
折线图:plot
pyplot模块
matplotlib
数据可视化
数据预处理
收藏
0 条评论
回复 删除
下一页