Python
2023-03-30 18:41:54 0 举报
AI智能生成
登录查看完整内容
python,大数据学习笔记
作者其他创作
大纲/内容
Python
df.dropna(thresh=2)#丢弃含有两个Nan的行
缺失值
data2.duplicated()
重复数据
data3['food'].map(meat)
数据转换
替换
tran=lambda x:x[:4].upper()data.index.map(tran)
重命名索引
cats.categories 标签
pd.value_counts(cats) 划分并且统计数量
面元划分
假设把绝对值为3以上的数视为异常值df1[(np.abs(df1)>3).any(1)]
异常值过滤
sam=np.random.permutation(2)df.take(sam)
排列与随机采样
'::'.join(p)
'c'in P
val.endwith/val.startwith
val.upper()/val.lower()
data.str.split('@') 矢量化
字符串操作
res=re.compile('\\s+')编译res.split(text)
正则表达式
数据连接
列索引转换为行索引,(DataFrame->Series)r=data.stack() 默认过滤缺失值
重塑层次化索引
轴向旋转
自定义聚合函数def diff(arr):return arr.max()-arr.min()df1.groupby('fruit')['price'].agg(diff)
分组与聚合
数据清洗和整理
df.idxmax()-该列最大值对应的索引
df.cumsum()-累计求和
df.describe()-描述
计算
applymap:df.applymap(f2)-函数应用到每个数据上
uni1=data3.unique()-唯一值
data3.value_counts()#统计重复出现的次数
data4.index.is_unique-判断索引是否唯一
data3.isin([5])-判断成员是否存在
判断:isnull();丢弃:dropna();填充:fillna()
函数应用
重新索引
下标增加:e1[1]=999 增加的是列,且会改变原表
append:e2=s0.append(s1) 对Series增加,对列增加,不改变原表
增
删除
增删
高级索引
交换:s1.swaplevel()
交换并排序:s1.swaplevel().sortlevel()
层级索引
索引操作
数组:s2=pd.Series(arr1)
字典:s3=pd.Series(dict)
若指定索引/顺序,那么增加参数index=[]
Series创建
字典类
列表类
DataFrame创建
索引和列的转换
info1.to_csv('info1_copy.csv')
写
info_csv1=pd.read_csv('filepython1.csv'),默认有标题
读
读写文件
pandas
read_csv(r'路径)
read.head()默认前五行
read.tail()默认后五行
读写操作文件
arr=np.random.random(行数,列数):随机产生0-1之间的数
arr=np.random.randn()生成均值为0,标准差为1的标准正态分布
np.random.shuffle(b)打乱顺序
数组的创建
arr=arr.flatten():转成一维数组,不影响原数组
arr=arr.ravel():转成一维数组,影响原数组
数组维度
print(arr[1])
索引
c1[(c1<2)|(c1>10)]
布尔索引
print(arr[4:6:2])
切片
数组索引和切片
a2[1:3]#2-3行
查询2-3行
第2行,第2列
第一行第二列和第二行第五列,不连续
基于两行的基础上,连续导出两列
获取某一列
数组查询
c2[c2<4]=1
数组值的替换
数组的叠加
数组的切割
一元函数
二元函数
聚合函数
布尔判断函数
排序函数
其他
函数
numpy
0 条评论
回复 删除
下一页