Pandas
2021-03-12 11:43:04 0 举报
AI智能生成
登录查看完整内容
pandas数据分析思维导图
作者其他创作
大纲/内容
Pandas
数据合并
行合并
列合并
concat
纵向连接
横向连接
内连接
连接时创建层次索引
用字典的方式
时间序列
生成时间
应用:可以将时间作为索引
过滤时间
truncate(before = \" \
获取时间
long_ts['2020']按年份获取;
long_ts['2020-05']按年份和日期获取;
long_ts['2020-05-01':'2020-05-06']切片获取;
between_time()返回位于指定时间段的数据集
移位日期
时间转换
时间时区转换
tz_localize('UTC').tz_convert('Asia/Shanghai')
分组聚合
单列分组
groupby('列名')
多列分组
聚合函数
实现聚合功能函数
认知
pandas基于numpy的一种工具
解决数据分析
Series
创建形式
从列表中创建
从字典中创建
to_dict()方法将DataFrame对象转换为字典
range生成
多层索引
MultiIndex.from_product构造多层索引
属性
values内容
index索引
iteritems()索引和值对
索引下标 index指定
位置下标 默认从0开始
基本操作
切片:类似列表
重新赋值索引: reindex
丢弃指定项drop
运算
算数运算
+ - * /
对 Series 的算术运算都是基于 index 进行的。我们可以用加减乘除(+ - * /)这样的运算符对两个 Series 进行运算,Pandas 将会根据索引 index,对响应的数据进行计算,结果将会以浮点数的形式存储,以避免丢失精度。如果 Pandas 在两个 Series 里找不到相同的 index,对应的位置就返回一个空值 NaN
numpy运算
布尔过滤
标量乘法
数学函数
DataFrame
DataFrame可以存在多列数据
通过NumPy形式创建
index.tolist() 行索引
columns.tolist() 列索引
dtypes()数据类型
ndim维度
values数值以二维ndarray形式返回DataFrame数据
info概览
查询数据
浏览DataFrame行数据
head(n) 头n行
tail(n) 末尾n行
查询DataFrame列数据
df.['列索引'] 查看单列
按标签索引查看
df.loc()
按位置索引查看
df.iloc()
按照某列索引排序
修改index和column
重新构建df.index=[]
添加数据
删除数据
数据处理
过滤缺失值
dropna()过滤缺失值
isnull()/notnull() 缺失值/非缺失值布尔序列
dropna(how='all') 滤除全为NaN的数据
dropna(how='any') 只要有nan就删除
填充缺失值
fillna(常数) 用常数填充
fillna(df1.mean()) 填充平均值
fillna(method=\" \
移除重复数据
duplicated() 判断是否重复
drop_duplicates()去除重复行
指定列去除重复行
0 条评论
回复 删除
下一页