AI机器学习总结笔记
2024-06-20 16:26:54 0 举报
AI智能生成
登录查看完整内容
AI机器学习总结笔记是一份关于人工智能和机器学习领域核心概念、技术和应用的全面回顾。它涵盖了从机器学习的基本原理到深度学习、神经网络和最新研究成果的各个方面。这份笔记旨在帮助读者理解AI和机器学习的基本知识,为更深入的学习和实践打下基础。这份资料采用脑图格式,便于阅读和打印,并配有丰富的图表和示例,使复杂的概念更易于理解。
作者其他创作
大纲/内容
数据结构ndarray
Numpy
向量
矩阵
特征值和特征向量
解线性方程组
最小二乘
聚类算法
cluster
物理和数学常量
constants
快速傅里叶变换
fftpack
积分和常用微分方程
integrate
插值和样条平滑
intepolate
线性代数
linalg
图像处理
ndimage
最优化及求根
optimize
信号处理
signal
稀疏矩阵
sparse
空间数据结构及算法
spatial
特殊函数
special
统计分析
stats
模块
Scipy
python
数据加载
数据修改运算
多层索引
关联
分组与聚合
数据重塑
数据变形
pandas
折线图
散点图
直方图
条形图
饼图
箱线图
matplotlib
数学体系
一元线性回归
多元线性回归
广义回归模型
矩阵相加
结合律
交换律
加法
矩阵乘法
分配律
乘法
行列式
矩阵的转置
1. 换法变换:对换矩阵的两行。对换i,j两行,记作ri <->rj。2. 倍法变换:用非零数乘以矩阵某一行的每个元素。第i行乘以K,记作ri*k.3. 消法变换:用数乘矩阵某一行的每个元素后加到另一行的对应元素上,第j行的k倍加到第i行上,记作ri +krj。
初等行变换
初等列变换
矩阵的初等变换
(1)任意交换矩阵的两行或两列,矩阵不变;(2)矩阵任意行或列加上或减去任意k倍的任意行或列(行也可以加减k倍的行),矩阵不变;
高斯消元
引入逆矩阵的原因之一是用来实现矩阵的除法。比如有矩阵X,A,B,其中X*A = B,我们要求X矩阵的值。本能来说,我们只需要将B/A就可以得到X矩阵了。但是对于矩阵来说,不存在直接相除的概念。我们需要借助逆矩阵,间接实现矩阵的除法。
逆矩阵
矩阵A中非零子式的最高阶数为矩阵A的秩,记作r(A).r(A)=2.
矩阵的秩
子主题
点乘、内积
任意给定一个矩阵A,并不是对所有的向量B都能被A拉长(缩短)。凡是能被A拉长(缩短)的向量称为A的特征向量(Eigenvector);拉长(缩短)量就为这个特征向量对应的特征值(Eigenvalue)
特征值
速度
导数
导函数
求导公式
求导法则
初等导数公式
四则运算
莱布尼茨公式
高阶导数
切线的斜率
有限增量公式
周长无界,面积有界
雪花曲线
运算法则
洛必达法则
极大值
极小值
极值
公式
中值定理
泰勒公式及应用
函数的凹凸性
函数的极值
不定积分
定积分
单变量微积分
微积分
偏导数
概率论
无约束最优化梯度下降
约束最优化
最优化
数学基础
垃圾邮件
文本分类
信用评分
欺诈检测
图像识别
用户流失预测
营销响应预测
广告点击率预估
商品推荐
分类问题(Classification)
用户分群
相似文档聚类
聚类问题(Clustering)
房价预测
收入预测
回归问题(Regression)
商品买了还买
电影看了还看
关联问题(Association)
购物模式预测
网站点击模式预测
中文分词
DNA序列分析
序列问题(Sequence)
信用卡欺诈检测
网络安全检测
不合格产品检测
异常检测问题(Outlier Detection)
六大任务
目标是什么?
商业目标
数据挖掘目标
资源评估
制定项目计划
商业理解(Business Understander)
有哪些可用数据?
收集数据
探索数据
数据质量
数据理解(Data Understander)
特征构造
选择数据
数据集成和汇总
特征处理
特征选择
数据准备(Data Preparation)
机器学习训练模型
选择算法
训练模型
模型指标评价
构建模型(Modeling)
模型是否满足要求?
模型可用性评估
下一步计划
模型评估(Evaluation)
模型发布上线
模型发布计划
模型上线
模型监控和维护
模型发布(Deployment)
CRISP-DM 标准流程
数据挖掘
认识数据
平均值
分位数
四分位数
表示位置
最大值减去最小值
极差
越大表示变量值波动的越厉害
方差
标准差
波动性归一, 不同变量的波动性可比
变异系数
表示分散程度
描述性统计分析
频数分析
帕累托图
图形
分类变量的分析方法
离散化处理
连续变量的分析方法
交叉表
均值对比(方差分析)
相关性分析
基本空间与随机事件
包含
相等
互不相容
德摩根公式
总结
事件的关系与运算
事件的概率
伯努利分布
二项式分布
几何分布
泊松分布
离散情形
正态分布
均匀分布
指数分布
伽马分布
贝塔函数
连续型随机变量
随机变量的分布
期望
期望与方差
联合分布
条件分布与条件期望
总体与样本
样本均值与方差
次序统计量与分位数
矩法估计
极大似然估计
贝叶斯估计
区间估计
假设检验
判别分析
系统聚类法
动态聚类法
主成分分析
样本主成分及应用
概率
RFM数据提取
标准化
区间缩放法
无量纲化
log变换
box-cos变换
squart
等宽离散化
等深离散化
自定义区间离散化
连续变量数据变换
OneHot(独热编码)
秩序
归一化
去量纲化
频数
某类的比例编码
目标变量
类别型变量数据变换
缺失值处理
日期处理
特征组合
数据降维主成分分析(PCA)
数据降维之线性判别分析法(LDA)
对每一个特征单独评估重要性,排序后筛选
卡方验证
相关系数
信息增益
信息值(IV)
重要性指标
计算简单
防止过拟合好
优点
不考虑特征之间的关联性,容易选出来冗余特征
缺点
Filter(过滤)方法
对每一个特征子集通过训练一个分类模型,根据模型的性能来评价特征的重要性
逐步回归 Stepwise
向前选择 Forward
向后选择 Backward
常用
特征选择效果好
算法复杂度高,耗时
针对特定算法来做的,灵活性不强
Wrapper(封装)方法
特征选择算法本身作为组成部分嵌入到学习算法里
以决策树为例,数的增长过程就是一个特征选择的过程
Embedded(嵌入)方法
数据
算法
调参
模型优化
偏差
过拟合
欠拟合
模型误差
数据集划分
K折交叉验证
评估方法
误分类矩阵
准确率
召回率
正确率
F1 分数
误分类矩阵、准确率、召回率、F1分数
收益曲线
ROC 与 AUC
判断标准
KS 曲线与KS值
模型评估指标
模型训练、验证、评估流程
数据集划分3个方案
分类模型评估及验证
特征转换
数据理解和探索
数据集sklearn.datasets
MinMaxScaler 最大最小值规范化
Normailzer 将样本归一化为单位范数
StandardScaler 通过删除平均值和缩放到单位方差来标准化特征
规范化
LabelEncoder 把字符串类型的数据转化为整型
OneHostEncoder 特征用一个二进制数字来表示
Binarizer 为 数值型特征的二值化
MultiLabelBinarizer 多标签二值化
编码
Polynomisreatures 生成多项式和交互特征
数据变换
imputer 用于完成缺失值的插补变压器
缺失值
特征工程-预处理sklearn.preprcessing
image.img_to_graph 像素到像素梯度连接的图形
image.grid_to_graph 像素到像素连接的图形
图像类
text.CountVectorizer 将文本转化为每个可出现个数的向量
text.TfidfVectorizer 将文本转为tfidf值的向量
text.HashingBectorizer 文本的特征哈希
文本类
特征工程-特征提取sklearn.feature_extraction
VarlanceThreshold 删除特征值的方差达不到最低标准的特征
SelectKBest 返回K 个最佳特征
SelectPercentile 返回表现最佳的r%个特征
Filter过滤器
PFE 递归删除特征法
Wrapper 包装器
SelectFromModel 基于模型的特征选择
Embedded 嵌入法
特征工程-特征选择sklearn.feature_selection
PCA 主成分分析(PAC)
FactorAnalysis 因子分析(FA)
因子分析
特征工程-特征sklearndecomposition
特征工程
LinearRegression 普通最小二乘线性回归
线性、广义线性模型sklearn.linear_model
GaussianNB 高斯朴素贝叶斯
MultlnomialNB 朴素贝叶斯分类器多项式模型
BernoulliNB 朴素贝叶斯分类器多变量伯努利模型
朴素贝叶斯模型sklearn.naive_bayes
KNeighborsClassifier 执行k-最近邻居的分类器投票
最近邻模型sklearn.neighbors
neural_network.MLPClassifier([]) 多层感知器分类器
neural_networkMLPRegressor([]) 多层感知器回归
神经网络模型sklearn.neural_network
SvC C支持向量分类
LinearSVC 线性支持向量分类
SVM模型sklearn.svm
DecisionTreeClassifier 决策树分类器
DecisionTreeRegressor 决策树回归
决策树sklearn.tree
KMeans k均值聚类
SpectralClustering 将聚类应用于对规范化控普拉斯算子的投影
聚类 sklearn.cluster
模型训练
KFoldK-Fold 交叉验证迭代器。接收元素个数、fold 数、是否清洗
LeaveOneOut LeaveOneOut 交叉验证迭代器
LeavePOut LeavePOut 交叉验证迭代器
LeaveOneLabelOut
LeavePLabelOut
交叉验证(原cross_validation)
train_test_split 分离训练集和测试集
数据集分割函数(原cross_vaildation)
cross_val_score 通过交叉验证评估分数
cross_val_predict 为每个输入数据点生成交叉验证的估计
permutation_test_score 评估其有置换的验证分数的意义
learning_ourve 学习曲线
validation_curve 验证曲线
模型验证(原cross_validation)
GridSearchCV 搜索指定参数网格中的最佳参数
ParmeterGrid 参数网格
ParameterSampler 用给定的分布生成参数的生成器
RandomizedSearchCV 超参数的随机搜索
超参数优化(原grid_search)
模型选择sklearn.model_selection
BaggingClassifier Bagging 分类器组合
BaggingRegressor Bagging 回归器组合
AdaBoostCalssifier AdaBoost 分类器组合
AdsBoostRegressor Adaboost 回归器组合
OradiendBoostingCalssifier 分类器组合
OradiendBoostingRegressor 回归器组合
RandomTreeClassifier 随机森林分类器组合
RandomTreeRegressor 随机森林回归器组合
VationgClassifiter 多模型投票融合器
模型组合sklearn.ensemble
explained_varcance_score 可解方程的回归评分函数
mean_ebsolute_error 平均绝对误差
mean_squared_error 平均平方误差
回归结果度量
accuracy_score 分类准确度
condusion_matrix 分类混淆矩阵
classification_report 分类报告
precision_recall_fscaor_support 计算精确度、召回率、1. 支持率
jaccard_simliarty_score 计算jceard 相似度
hamming_loss 计算汉明损失
zero_one_loss 0-1损失
hinge_loss 计算hinge 损失
log_loss 计算log 损失
分类结果度量
adjusted_mutual_info_score 调整的互信息评分
silhouette_score 所有样本的轮廓系数的平均值
silhouetle_sample 所有样本的轮廓系数
聚类的度量
coverage_error 函数误差
label_ranking_average_precision_score 计算基于排名的平均误差()
多标签的度量
模型评估sklear.metrics
Sckit-learn
非线性回归
逻辑回归
K近邻
决策树
支持向量机
朴素贝叶斯
回归树
K均值
关联规则Apriori算法
KNN
TF-IDF算法
人脸检测
人脸分析
人脸对比
人脸搜索
图像分类
目标检测和定位
图像搜索
周围物体辨识(车辆、行人、自行车、交通灯、标志等)
感知
定位
决策
控制
无人驾驶
拍照识物
物体检测和定位
拍图购物
以图搜图
风格迁移
色情过滤
暴恐过滤
广告过滤
智能审核
应用领域
图像领域
卷积神经网络CNN
文本
视频
语音
时间序列
天气、股票
文本正负面
情感分析
模仿某个作家进行创作
模拟写作
看图说话
机器翻译
序列预测
循环神经网络RNN
针对分类问题
针对标签
硬投票
针对概率
软投票
Voting(投票)
针对回归问题
简单平均
加权平均
Averaging(平均)
随机森林
采用算法
减少方差
Bagging
Adaboost算法
GBDT
XGBoost
减少偏差
Boosting
算法融合
模型算法
词袋 Bag of words
词嵌入 Word Embedding词向量 Word2Vec
文本分析
机器学习
0 条评论
回复 删除
下一页