机器学习
2024-09-10 10:53:00 10 举报
AI智能生成
对周志华老师的《机器学习》主要内容进行梳理
作者其他创作
大纲/内容
1.1机器学习
1.2 学习,训练;分类,回归,聚类;泛化;独立同分布
1.3 假设空间
1.4 归纳偏好,学习算法好坏需结合实际问题谈
1.5NP难题
绪论
2.1 欠拟合/过拟合,经验误差/泛化误差
“分层采样”
若干次随机划分,重复实验取评估均值作为结果
训练集/测试集→2:1~4:1
留出法
稳定性保真性取决于k
p次k折交叉验证
“包外估计”
自助法
常见方法
人工
算法的参数
学习
模型的参数
调参与最终模型
2.2评估方法 给定数据集,适当处理产生训练集和测试集
均方误差(2.2)
回归任务
错误率与精度
PR图
查准率与查全率
TPR
FPR
AUC
ROC
期望总体代价
非均等代价
代价敏感错误率与代价曲线
分类任务
2.3性能度量
算法随机性
测试集性能限制性
泛化性能难直接评估
性能比较中的问题
测试错误率→泛化错误率分布
二项检验
5x2交叉验证
交叉验证t检验
卡方检验
McNemar检验
一数据集两算法
F计算平均序值,N计算临界值域,AB交叠,AB无显著差别,AC无交叠,A显著优于C
Friedman检验与Nemenyi后续检验
一数据集多算法
假设检验 前提:测试e为泛化e的独立采样
2.4比较检验(错误率e为度量)
偏差刻画学习算法拟合能力
方差刻画数据扰动造成的影响
噪声刻画学习问题本身的难度
欠拟合→过拟合
2.5偏差-方差分解
模型评估与选择
基本形式:
最小二乘“参数估计”
正则化6.4 11.4
多元线性回归
广义线性模型:g为单调可微
对数线性回归:
线性回归
近似单位跃阶函数
Sigmoid函数
y视为样本x为正例的可能性,y/1-y为几率
极大似然法7.2
y视为类后验概率估计
优点:P58
对数几率回归
同类样例投影点尽可能近
异类样例投影点尽可能远
目标:最大化Sb(类间散度矩阵)Sw(类内~)的广义瑞利商
线性判别分析LDA:
二分类
OvO
考虑置信度
OvR
编码
解码:比较预测编码和类别编码返回距离最小值
ECOC
MvM
拆解
集成 8.4
拆解出二分类任务训练分类器,对分类器预测结果集成获得最终多分类结果
多分类
欠采样
过采样
阈值移动
再缩放
类别不平衡
分类
前向搜索
后向搜索
子集搜索
信息增益
子集评价
基础环节
相关统计量的确定:对比猜中近邻和猜错近邻的大小,控制属性对应统计量分量
Relief
过滤式选择
拉斯维加斯方法
分类器误差
特征子集评价准则
LVW
包裹式选择
正则化降低过拟合
融合特征选择和学习器训练过程
嵌入式选择
特征选择
稀疏稠密数据简化任务
傅里叶变换
小波变换
字典学习
如何对原始信号处理以获得稀疏样本表示
感知测量
k限定等距性:
基于稀疏性从少量观测恢复原信号
重构恢复
Nyquist采样定理→信号恢复
压缩感知
稀疏表示与字典学习
特征选择与稀疏学习
确定性学习问题
概念;概念类;学习算法;假设空间;假设;可分的
PAC辨识
PAC可学习
PAC学习算法
样本复杂度
PAC学习
可分
不可分
有限假设空间
VC维
考虑数据分布
Rademacher复杂度
假设空间复杂度
ERM
算法稳定性
研究经验误差和泛化误差之间的逼近程度
计算学习理论
线性模型
懒惰学习
影响因素:k和距离计算方式
K邻近
信息增益率
gini index
提高节点纯度
划分选择
预剪枝
后剪枝
剪枝
连续/确失值处理
线性分类器
多变量决策树
决策树
M-P神经元模型:
感知机:
早停
正则化
过拟合
BP:
神经网络
多组参数值初始化
模拟退火
随机梯度下降
局部极小
其他网络
深度学习
SMO
Lagrange乘子法
软间隔
难分开?过拟合?
最大化间隔
线性可分
SVR
SVM支持向量机
核函数,核聚类,核感知机,核PCA
样本映射到高维空间内线性可分
KLDA
核方法
单一
自助采样法
Bagging
效率优,泛化误差低
决策树为基学习器,训练过程加入随机属性选择,Bagging集成
随机森林RF
个体学习器间无强依赖关系:并行化
AdaBoost:基于加性模型推导结果
关注降低偏差,对泛化性能弱的学习器构建强集成
Boosting 通过重赋权法/重采样法,使学习器对特定数据分布学习
个体学习器间强依赖关系:序列化
学习器生成方式
平均
加权平均
投票
方法
结合策略
多样性度量
误差-分歧分解
多样性
构建并结合多个学习器
集成
监督模型
假设模型必须与真实数据分吻合
生成式方法
设计高效优化求解策略
半监督SVM
存储开销
新样本处理
图半监督学习
必连
勿连
半监督聚类
多视图补充
协同训练
利用不同学习器标记分歧
基于分歧的方法
学习器不依赖外界交互、自动利用未标记样板提升学习性能
半监督模型
学习向量量化LVQ
k均值算法
原型向量
高斯混合聚类:初始化+EM算法
概率模型
原型聚类
与某模型比较
DBSCAN
从样本密度考虑样本可连接性
密度聚类
AGNES
树状
层次聚类
考察结果
性能度量
聚类
多维缩放MDS
PCA
对应核函数,似KLDA→LDA
KPCA
计算距离:流形在局部与欧式空间同胚
Isomap
保持邻域内样本间线性关系
局部线性嵌入LLE
流形学习
学习出合适的距离度量
度量学习
降维
无监督模型
隐变量
EM算法
决策树、BP神经网络、支持向量机等
判别式模型
属性条件独立性假设
朴素贝叶斯
SPODE
TAN
AODE
独依赖估计ODE
半朴素贝叶斯
边际独立性
有向分离
结构
贪心法
约束以削减
求解最优贝叶斯网结构
最小描述长度准则MDL
评分函数
近似推断:吉布斯采样
推断
DAG刻画依赖关系,CPT描述属性联合概率分布
贝叶斯网
生成式模型
贝叶斯
系统下一时刻的状态仅由当前状态决定
状态转移概率
输出观测概率
初始状态概率
参数
状态空间y,观测空间x
结构组成
HMM
隐狄利克雷分配模型LDA
话题模型
有向无环
全局马尔可夫性
CRF
给定观测值
MRF
团上势函数来定义概率
马尔可夫网
无向
多个边际分布重复计算
变量消去
信念传播
精确推断
马尔科夫链构造重要,取得符合后验分布的样本
马尔科夫链满足平稳条件:
“拒绝采样”
MH
MCMC
基于期望决策,则求解期望
采样
简单分布逼近复杂分布
盘式标记法
变分推断
近似推断
计算边际/条件概率
学习和推断
概率图
估计类条件概率:假定其有某种确定的概率分布形式,估计参数
MLE
可解释性
特例:命题规则
关系型规则
规则
分治
序贯覆盖
从训练数据学习出一组能用于对未见示例判别的规则
一般到特殊
特殊到一般
产生规则?
CN2
生成规则后立刻剪枝
IREP
减错剪枝REP
RIPPER:从全局考虑缓解贪心算法局部性
结合其他手段减枝
后期调整
命题规则学习
使用FOIL来选择候选文字
FOIL
一阶规则学习
命题规则难以处理对象关系时使用
最小一般泛化:常量替换
发明心谓词
逆归结:发展新关系与概念
一阶规则学习中引入逻辑表达式和函数嵌套
归纳逻辑程序设计ILP
规则学习
目标:长期累积奖赏最大化 T步/y折扣
有“延迟标记信息”的监督学习问题
马尔可夫决策过程MDP描述:环境E,状态(x)空间为X,能采取的行动a构成动作空间,潜在转移函数P,转移时奖赏函数R反馈给机器
e的概率探索
1-e的概率利用
e-贪心法
Softmax
分配
为获知摇臂期望奖赏
探索
为执行奖赏最大动作
利用
K摇臂赌博机
最大化单步奖赏
评估策略值函数
将策略选择动作改编为当前最优动作
最优Bellman等式
策略改进
评估改进交替
策略迭代与值迭代
有模型学习
考虑采样轨迹,“批处理式”
蒙特卡罗强化学习
Sarsa
Q-learning:异策略
结合MDP结构,及时更新
时序差分学习TD
策略估计困难
模型未知情形
线性值函数
离散→连续
值函数近似
模仿人类专家“状态-动作对”
直接模仿学习
从人类专家范例数据反推出奖励函数
逆强化学习
模仿学习
强化学习
Nevele
机器学习
0 条评论
回复 删除
下一页