机器学习
2020-11-27 21:25:01 0 举报
AI智能生成
机器学习知识梳理和总结
作者其他创作
大纲/内容
顶级会议和期刊
会议
国际机器学习会议(ICML)
国际神经信息处理系统会议(NIPS)
国际理论学习会议(COLT)
Conference on Computer Vision and Pattern Recognition (CVPR)
其它
欧洲机器学习会议(ECML)
亚洲机器学习会议(ACML)
Association for the Advancement of Artificial Intelligence(AAAI)
International Joint Conference on Artificial Intelligence(IJCAI)
ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)
Conference on Empirical Methods in Natural Language Processing (EMNLP)
期刊
IEEE Transactions on Pattern Analysis and Machine Intelligence
IEEE Transactions on Neural Networks and Learning Systems
IEEE Transactions on Cybernetics
ACM Transactions on Knowledge Discovery from Data
Journal of Machine Learning Research
其它
Machine Learning
Artificial Intelligence
Journal of Artificial Intelligence Research
Neural Computation
注意点
万能近似定理
一个前馈网络如果具有线性输出层和至少一层具有任何一种“挤压”性值的激活函数的隐藏层,
只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何从一个有限维空间到另一
个有限维空间的borel可测函数
只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何从一个有限维空间到另一
个有限维空间的borel可测函数
奥卡姆剃刀原则
是一种常用的、自然科学研究中最基本的原则,常被用来引导机器学习算法确定其偏好.
具体指:在同样能够解释已知观测现象的假设中,我们应该挑选“最简单”的那一个
具体指:在同样能够解释已知观测现象的假设中,我们应该挑选“最简单”的那一个
“没有免费的午餐”定理
没有一种机器学习算法是适用于所有情况的
或者说:没有一个机器学习算法总是比其它算法要好
或者说:没有一个机器学习算法总是比其它算法要好
对模型进行解释的工具
类激活图
多维尺度法
t-SNE
勾画轨迹线
注意力机制
模型
数据视角
有监督学习
线性回归
基本思想
一对一(One vs. One, OvO)
一对其余(One vs. Rest, OvR)
多对多(Many vs. Many, MvM)
方法
logistic回归
线性判别分析(Linear Discriminant Analysis, LDA)
类别不平衡问题
在分类任务中,不同类别的训练样例数目差别很大
决策树
构成
特征选择
信息增益 (评估手段)
增益率
基尼指数
生成
剪枝
预剪枝
后剪枝
重点
剪枝方法和程度对决策树的泛化性能影响非常显著
多层感知机(也被称为深度前馈网络)
支持向量机
循环神经网络
结构单元
简单RNN
LSTM
GRU
回声状态网络(ESN)
存在的问题
长期依赖
梯度爆炸
梯度消失
多尺度依赖
可解释性差
实际应用
看图描述应用
看图问答
语言模型
卷积神经网络
基本结构
卷积核
特性
稀疏交互
参数共享
平移等变
池化
特性
平移不变性
基本功能
最大池化
平均池化
Sum池化
经典模型
LeNet-5
AlexNet
VGG和GoogLeNet
ResNet
半监督学习
无监督学习
K-means聚类
高斯混合(Mixture-of-Gaussian)聚类算法
主成分分析法(PCA)
任务视角
分类
回归(一般都是有监督学习)
聚类(一般都是无监督学习)
原型聚类
K-means
高斯混合(Mixture-of-Gaussian)聚类
密度聚类
DBSCAN(Density-Based Spatial Clustering of Applications Clustering of Applications with Noise)
层次聚类
AGNES(Agglomerative NESting)
统计数学视角
生成模型
定义
由数据学习联合概率分布P(X|Y),然后求出条件概率分布P(Y|X)作为预测的模型
方法
朴素贝叶斯
隐马尔可夫模型
判别模型
定义
由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型
方法
K近邻法
感知机
决策树
逻辑回归
最大熵模型
支持向量机
提升方法
条件随机场
策略
泛化误差的评估方法
留出法
交叉验证法
自助法
数据集划分
训练集
验证集
测试集
性能度量
均方误差(常用于回归分析问题)
错误率和精度(常用于分类分析问题)
查准率、查全率、P-R曲线、ROC曲线和AUC曲线
正则化
目的
旨在减少泛化误差而不是训练误差
方法
增加优化约束(L1/L2 约束和数据增强)
干扰优化过程(权重衰减、随机梯度下降和提前终止)
算法
梯度下降 (反向传播算法)
随机梯度下降
动量法
Adam优化算法
优化
方法
一般的优化采用最小化平均训练误差,通过迭代训练不断进行,这样的过程被称为经验
风险最小化
风险最小化
难点
非凸优化问题
神经网络模型的结构差异大,目前没有通用的优化算法
自由主题
0 条评论
下一页