机器学习(科学计算库)
2023-08-29 21:02:18 3 举报
AI智能生成
登录查看完整内容
机器学习(科学计算库)
作者其他创作
大纲/内容
数据
算法
CPU:IO密集型
GPU:计算密集型
cpu和gpu的区别
计算力
人工智能必备三要素
知识图谱
语音识别
人脸识别
用户画像
人工智能主要分支
是从数据中自动分析,获得模型,并利用模型对未知数据进行分析
定义
1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
ps:一定阅读课件中拓展内容
流程
有目标值的数据
没有目标值的数据
获取数据
对数进行缺失值、去除异常值等处理
数据基本处理
特征提取
特征预处理
特征降维
特征工程
回归问题
分类问题
监督学习
无监督 学习
半监督学习
强化学习
机器学习算法
准确率
精确率
召回率
分类评估
均方误差(MSE)
均方根误差(RMSE)
平方绝对误差(MAE)
回归评估
欠拟合
过拟合
拟合
模型评估
机器学习
仿神经元构造的神经网络层
前面层识别简单的东西
后面层识别比较复杂的内容
深度学习
人工智能概述
专门用于开发2d图表
以渐进、交互式方式实现数据可视化
简介
1.创建画布
2.绘制
3.显示
绘制流程
plt.plot()
能够显示数据的变化趋势,反映事物的变化情况。(变化)
折线图
plt.scatter()
散点图
plt.bar()
柱状图
plt.hist()
绘制连续性的数据展示一组或者多组数据的分布状况(统计)
直方图
plt.pie()
分类数据的占比情况(占比)
饼图
各种图像
plt.savefig("")
注意:一定要在释放之前进行保存
保存
添加网格显示
plt.xlabel()
plt.ylabel()
plt.title()
添加描述信息
其实就是再次对新的数据进行绘制(plot)
多次plot
plt.legend()
在plot(label="")
图例展示
返回对象: img对象;axes绘图区
添加多个绘图区
辅助功能
Matplotlib
是一个开源的Python科学计算库
用于快速处理任意维度的数组
Numpy使用ndarray对象来处理多维数组
Numpy介绍
1.内存块风格
2.ndarray支持并行化运算(向量化运算)
3.Numpy底层使用C语言编写,内部解除了GIL
ndarray的优势
ndarray.shape 数组维度的元组[***]
ndarray.ndim 数组维数
ndarray.size 数组中的元素数量
ndarray.itemsize 一个数组元素的长度(字节)
ndarray.dtype 数组元素的类型[*]
1.ndarray的属性
0维 ()
...
2 ndarray的形状
N维数组-ndarray
生成0和1的数组
np.array()
np.asarray()
从现有数组生成
生成固定范围的数组
均匀分布
正态分布[****]
生成随机数组
生成数组的方法
ndarray.T
ndarray.reshape([]) 产生新的对象
ndarray.resize([]) 对自身进行改变
形状修改
np.unique(temp)
数组去重
基本操作
逻辑运算
通用判断函数
三元运算符
np.min()
np.max()
np.median()
np.mean()
np.std()
np.var()
np.argmax() -- 返回最大值所在的索引
np.argmin() -- 返回最小值所在的索引
统计运算
数组与数的运算
维度相等
shape(其中相对应的一个地方为1)
数组与数组的运算 --广播机制
数组间运算
矩阵和矩阵相乘
np.matmul()
也可以矩阵和标量相乘
np.dot()
矩阵运算
运算
numpy
结合了numpy 和 matplotlib的优势
专门用于数据挖掘的开源python库
Pandas介绍
pd.Series(np.arange())
pd.Series({})
1.创建
index
values
2.属性
series
index= -- 行索引
columns = -- 列索引
pd.DataFrame()
1. shape -- 形状
2. index -- 行索引
3. columns -- 列索引
4. values -- 查看值(ndarray)
5. T -- 转置
6. head() -- 前几行
7. tail() -- 后几行
重设索引-- df.reset_index(drop=False)
设置新的索引 -- df.set_index("")
3.DataFrame索引的设置
DataFrame
把dataframe进行整合
df.index
df.index.names
1. multiIndex
2. panel
三种结构
data[][]
data.loc[]
data.iloc[]
1.索引操作
data[""] = **
data.close = **
2.赋值
df.sort_index(ascending=)
dataframe
df[""].sort_values()
df[""].sort_index()
3.排序
基本数据操作
df[""].add()
df[""].sub()
算术运算
符号
df.query()
df[df[""].isin([])]
describe
sum()
min()
idxmax()
idxmin()
cumsum()
cummax()
cummin()
cumprod()
累积统计函数
自定义函数
1 csv
1.读取速度快
3.跨平台
优势:
2 hdf
pd.read_json()
df.to_json()
3 json
pd.read_excel()
df.to_excel()
4.excel
pd.read_sql()
df.to_sql()
注意:首先需要创建引擎,链接成功之后,再进行相应的操作。
5.sql
文件读取与存储
np.any(pd.isnull(movie))
np.all(pd.notnull(movie))
判断
df.dropna()
删除
替换
处理方式
特殊符号表示缺失值
缺失值
get_dummies
离散化
how -- 以何种方式连接
on -- 连接的键的依据是哪几个
合并
data.pivot_table()
交叉表与透视表
注意:抛开聚合,只谈分组,就是耍流氓,没有意义(只会返回一个对象
分组聚合
高级处理
pandas
基于 Matplotlib核心库进行了更高级的API封装
配色更加舒服,以及图形元素的样式更加细腻
SEaborn介绍
(1) a:表示要观察的数据,可以是 Series、一维数组或列表。
(2) bins:用于控制条形的数量。
(3) hist:接收布尔类型,表示是否绘制(标注)直方图。
(4) kde:接收布尔类型,表示是否绘制高斯核密度估计曲线。
(5) rug:接收布尔类型,表示是否在支持的轴方向上绘制rugplot。
seaborn.distplot()
绘制单变量分布
scatter:散点图
hex:二维直方图
kde:核密度估计图
1) kind:表示绘制图形的类型。
(2) stat_func:用于计算有关关系的统计量并标注图。
(3) color:表示绘图元素的颜色。
(4) size:用于设置图的大小(正方形)。
(5) ratio:表示中心图与侧边图的比例。该参数的值越大,则中心图的占比会越大。
(6) space:用于设置中心图与侧边图的间隔大小。
seaborn.jointplot()
绘制双变量分布
seaborn.pairplot()
绘制成对双变量
sns.stripplot()
sns.swarmplot()
分类数据散点图
箱线图
sns.boxplot()
小提琴图
sns.violinplot()
分类数据的分布图
条形图
sns.barplot()
点图
sns.pointplot()
分类数据的估算图
分类数据绘图
seaborn
机器学习(数据科学库)
0 条评论
回复 删除
下一页