Pandas 思维导图模板_ProcessOn思维导图、流程图

引入

参考资料

Pandas菜鸟教程

Pandas官方文档

安装

普通环境

隔离环境

conda install pandas

导入

import pandas as pd

一维数据结构 Series

格式

pd.Series( data, index, dtype, name, copy)

参数说明

name

设置名称

index

数据索引标签，如果不指定，默认从 0 开始

a = ["Google", "Runoob", "Wiki"] myvar = pd.Series(a, index = ["x", "y", "z"]) print(myvar["y"])

使用列表创建

a = [1, 2, 3] myvar = pd.Series(a)

使用字典创建

sites = {1: "Google", 2: "Runoob", 3: "Wiki"} myvar = pd.Series(sites, index = [1, 2])

字典的 key 变成了索引值。 如果我们只需要字典中的一部分数据，只需要指定需要数据的索引即可

转换成list

s.tolist()

二维数据结构 DataFrame

特点

每列可以是不同的值类型， 既有行索引也有列索引

格式

pd.DataFrame( data, index, columns, dtype, copy)

参数说明

index

索引值，或者可以称为行标签

columns

列标签，默认为 RangeIndex (0, 1, 2, …, n) 

从列表创建

data = [['Google',10],['Runoob',12],['Wiki',13]] df = pd.DataFrame(data,columns=['Site','Age'],dtype=float)

从字典创建

data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]} df = pd.DataFrame(data)

字典不等长，直接转DataFrame会报错

如果字典只有一个值，那么要传递index参数，说明行索引是什么

pd.DataFrame(dummy_most_frequent_train['weighted avg'],  index=[0])

创建空PD

参考资料

Pandas创建一个空DataFrame，并逐行插入数据

#创建一个空的Dataframe result =pd.DataFrame(columns=('idx','degree','weight','diameter')) #将计算结果逐行插入result,注意变量要用[]括起来,同时ignore_index=True，否则会报错， # ValueError: If using all scalar values, you must pass an index for i in idx:     degree=     weight=     diameter=     result=result.append(pd.DataFrame({'idx':[i],'degree':[degree],'weight':[weight],'diameter':[diameter]}),ignore_index=True)

从df创建

参考资料

Python pandas.DataFrame.copy函数方法的使用

copy

格式

df.copy(deep=True)

从Series创建

参考资料

pandas中Series转成DataFrame格式

数据存取

TXT

读取

df = read_table('./texting.csv', sep=',')

参数

注意要加sep分隔符

JSON

读取

df = pd.read_json('sites.json')

返回DataFrame

存储

内嵌数据

df_nested_list = pd.json_normalize(data, record_path =['students'])

展开stuents列的内嵌数据

CSV

读取

格式

pd.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', ...)

参数

header

对无表头的数据，需设置header=None，否则第一行数据被作为表头 对无表头的数据，设置header=None，表头会默认设置为[0,1,2,3,...] 对有表头的数据，设置header=None会报错

实例

df = pd.read_csv('nba.csv')

返回DataFrame

存储

df.to_csv('site.csv')

df.to_csv('site.txt')

EXCEL

读取

read_excel()

存储

to_excel()

HTML

读取

read_html()

存储

to_html()

SQLite3

参考资料

Pandas 读写sqlite数据库

Jupyter中使用pandas链接Mysql报错解决：No module named 'sqlalchemy'

安装

conda install sqlalchemy

读取

import pandas as pd from sqlalchemy import create_engine engine = create_engine('sqlite:///cba_log_rv.sqlite') log_rv = pd.read_sql('log_rv',engine) # 第一个参数是表名

实例

数据定位

参考资料

Python pandas 中loc函数的意思及用法，及跟iloc的区别

pandas取dataframe特定行/列

取特定行

取特定列

df['column_name'] 或者 df.column_name

df[['column_name_1','column_name_2']]

使用条件表达式 选择特定的行

格式

df[condition]

ix

解释

可以使用整数也可以使用索引进行定位

在0.20.0之后已经不推荐使用，建议使用iloc和loc

iloc

格式

df.iloc[row_position, column_position]

解释

主要用于使用整数进行位置定位

输入

单个整数

5

整数列表或者数组

[4, 3, 0]

切片对象

1:7

不同于一般的python切片，start和stop都包括

实例

loc

格式

df.loc[index,column]

解释

主要用于label和boolean，也即index和columns的label

输入

单个标签

5或者'a'，这里的5是指索引

标签列表或者数组

['a', 'b', 'c']

切片

'a':'f'

不同于一般的python切片，start和stop都包括

实例

query

格式

实例

searchsorted

格式

s.searchsorted(value, side='left', sorter=None)

解释

查找一个值在序列中应该插入的位置

可以用来找特定值在这个序列中的位置

没有合适的位置时返回1或者序列长度

参数

side

'left'

找到的第一个合适位置

'right'

找到的最后一个合适位置

iat

at

where

参考资料

pandas where函数用法

格式

df.where(cond, other=nan, inplace=False, axis=None,  level=None, errors='raise', try_cast=NoDefault.no_default)

解释

替代某些值

参数

cond

true, false 序列，对应每个元素

other

cond为false的元素的值替换为other

inplace

实例

mask

数据排序

参考资料

Pandas系列教程（8）pandas数据排序

pandas按照列的值排序(某一列或者多列)

sort_values

格式

df.sort_values(by, axis=0, ascending=True, inplace=False,  kind='quicksort', na_position='last', ignore_index=False, key=None)

s.sort_values(axis=0, ascending=True, inplace=False,  kind='quicksort', na_position='last', ignore_index=False, key=None)

解释

参数

by

Series的sort_values没有这个参数

ascending

Series

默认为True升序排列，为Flase降序排序

DataFrame

bool或者list,升序还是降序，如果是list对应by的多列

inplacce

是否修改原始的DataFrame

数据类型

时间

参考资料

01-pandas时间类型dt类属性及方法

pandas时间序列——时间基础、时间增量、时间周期、日期偏移处理

pandas的to_datetime时间转换使用方法以及学习的心得

time data '2018-07-01' does not match format '%y-%m-%d'

转换成datetime类型

基本使用

data['date_parsed'] = pd.to_datetime(data['date'],format="%m/%d/%y")

实例

获取年份

df['column_name'].dt.year

获取月份

df['column_name'].dt.year

获取周几

df['column_name'].dt.year

时间增量

Dateoffset

参考资料

Dateoffset 官方文档

基本使用

from pandas.tseries.offsets import DateOffset ts = pd.Timestamp('2017-01-01 09:10:11') ts + DateOffset(months=3)

获取当前时间

数据信息

head(n=5)

print(df.head())

tail(n=5)

print(df.tail())

info()

print(df.info())

describe()

统计信息

平均值 mean()

x = df["ST_NUM"].mean()

中位数 median()

众数 mode()

shape

（行数，列数）

unique()

实例

解释

返回series里面所有的值（去掉重复值）

value_counts()

实例

解释

返回Series里面的值和出现的次数

行信息

df.index

列信息

df.columns

dtypes

返回一个Series，有各列的种类信息

数据运算

逻辑运算符

参考资料

pandas 的逻辑运算符 不能用 and or not

&

|

~

实例

data.iloc[(data.loc[:,'Elevation']>= a) & (data.loc[:,'Elevation'] <= b)]

比较运算符

实例

data.loc[:,'Elevation']>= a

数据合并

concat()

格式

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,         keys=None, levels=None, names=None, verify_integrity=False, copy=True):

解释

最强大，可用于横向和纵向合并拼接

默认纵向拼接

参数解析

objs

需要连接的对象集合，一般是列表或字典；

axis

axis=0代表纵向合并，axis=1代表横向合并

keys

创建多层索引

join

参数为‘outer’或‘inner’；

ignore_index=True

重建索引

实例

df = pd.concat([df1, df2])

merge()

格式

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,         left_index=False, right_index=False, sort=True,         suffixes=('_x', '_y'), copy=True, indicator=False)

解释

最常用，主要用于基于列的横向合并（合并列）

参数解析

left和right

两个不同的DataFrame

how

连接方式，有inner、left、right、outer，默认为inner

on

指的是用于连接的列索引名称，必须存在于左右两个DataFrame中， 如果没有指定且其他参数也没有指定，则以两个DataFrame列名交集作为连接键；

left_on

左侧DataFrame中用于连接键的列名，这个参数左右列名不同但代表的含义相同时非常的有用；

right_on

右侧DataFrame中用于连接键的列名

left_index

使用左侧DataFrame中的行索引作为连接键

right_index

使用右侧DataFrame中的行索引作为连接键

sort

默认为True，将合并的数据进行排序，设置为False可以提高性能

suffixes

字符串值组成的元组，用于指定当左右DataFrame存在相同列名时在列名后面附加的后缀名称，默认为('_x', '_y')

copy

默认为True，总是将数据复制到数据结构中，设置为False可以提高性能

indicator

显示合并数据中数据的来源情况

实例

pd.merge(left, right)

join()

格式

df.join(other, on=None, how='left', lsuffix='', rsuffix='',sort=False)

解释

最简单，主要用于基于索引的横向合并（不会增加新行）

参数

how

连接方式，有inner、left、right、outer，默认为inner

on

指的是用于连接的列索引名称，必须存在于左右两个DataFrame中， 如果没有指定且其他参数也没有指定，则以两个DataFrame列名交集作为连接键；

sort

默认为True，将合并的数据进行排序，设置为False可以提高性能

lsuffix

字符串值组成的元组，用于指定当左右DataFrame存在相同列名时在列名后面附加的后缀名称

rsuffix

字符串值组成的元组，用于指定当左右DataFrame存在相同列名时在列名后面附加的后缀名称

实例

df1.join(df2)

combine_first()

append()

格式

df.append(other, ignore_index=False, verify_integrity=False, sort=False)

解释

主要用于纵向追加，增加一行

实例

增加一列

参考资料

pandas新增一列作为id，或者新增有默认值的一列

nlist = range(1,n) data['id'] = nlist   data['label'] = 0

数据变换

转置

df.T

概述

行列变换（Pivoting）

stack()

格式

df.stack(level=-1, dropna=True)

unstack()

格式

df.unstack(level=-1, fill_value=None)

举例

pivot()

格式

df.pivot(index=None, columns=None, values=None)

参数

index

Index就是层次字段，要通过透视表获取什么信息就按照相应的顺序设置字段

values

Values可以对需要的计算数据进行筛选

columns

类似Index可以设置列层次字段，它不是一个必要参数，作为一种分割数据的可选方式

pivot_table()

格式

pd.pivot_table(data, values=None, index=None, columns=None,aggfunc='mean',                      fill_value=None, margins=False, dropna=True, margins_name='All')

参数

index

Index就是层次字段，要通过透视表获取什么信息就按照相应的顺序设置字段

values

Values可以对需要的计算数据进行筛选

aggfunc

参数可以设置我们对数据聚合时进行的函数操作

columns

类似Index可以设置列层次字段，它不是一个必要参数，作为一种分割数据的可选方式

实例

table=pd.pivot_table(df,index=[u'对手',u'胜负'],columns=[u'主客场'],values=[u'得分',u'助攻',u'篮板'],         aggfunc={u'得分':np.mean, u'助攻':[min, max, np.mean]},fill_value=0)

数据清洗

参考资料

pandas删除某大于 数_详解pandas如何去掉、过滤数据集中的某些值或者某些行？...

删除数据

drop()

格式

df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

解释

删除一行或一列

参数

labels

labels要配合axis使用，默认删除行索引数据

axis

0删除横向数据，1删除纵向数据

index

labels, axis=0 相当于 index=labels

columns

labels, axis=1 相当于 columns=labels

del

解释

删除一列

实例

del frames1['ball']

清洗空值

判断空值

isnull()

如果是NaN，返回布尔值True的DataFrame

notnull()

如果不是NaN，返回True

解释

经常在filters里面使用（[]里面，用作定位）

移除空值的行

格式

df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

参数说明

axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。

how：默认为 'any' 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how='all' 一行（或列）都是 NA 才去掉这整行

thresh：设置需要多少非空值的数据才可以保留下来的。

subset：设置想要检查的列。如果是多个列，可以使用列名的 list 作为参数。

inplace：如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。

替换空值的字段

格式

df.fillna(value, inplace=False)

使用均值替换

x = df["ST_NUM"].mean() df["ST_NUM"].fillna(x, inplace = True)

使用中位数替换

x = df["ST_NUM"].median() df["ST_NUM"].fillna(x, inplace = True)

使用众数替换

x = df["ST_NUM"].mode() df["ST_NUM"].fillna(x, inplace = True)

清洗重复数据

判断是不是重复数据

duplicated()

person = {   "name": ['Google', 'Runoob', 'Runoob', 'Taobao'],   "age": [50, 40, 40, 23]   } df = pd.DataFrame(person) print(df.duplicated())

0    False 1    False 2     True 3    False dtype: bool

删除重复数据

df.drop_duplicates(inplace = False)

persons = {   "name": ['Google', 'Runoob', 'Runoob', 'Taobao'],   "age": [50, 40, 40, 23]   } df = pd.DataFrame(persons) df.drop_duplicates(inplace = True) print(df)

name  age 0  Google   50 1  Runoob   40 3  Taobao   23

替代数据

replace()

格式

df.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')

解释

参数

to_replace

被替换的值

value

替换后的值

inplace