统计学习方法思维导图模板_ProcessOn思维导图、流程图

第一章概论

1.1 统计学习

1.统计学习的特点

建立在计算机和网络的基础上

以数据为研究对象，是数据驱动的学科

目的是对数据进行分析和预测

是概率论、统计学、信息论、计算理论、最优化理论和计算机科学等多个领域的交叉学科，并在发展中逐步形成独自的理论体系和方法论

2.统计学习的对象

对象是数据

基本假设：同类数据具有一定的统计规律性

3.统计学习的目的

对数据进行分析和预测

4.统计学习的方法

统计学习方法的分类

监督学习 supervised learning

基本假设

训练数据（training data）是独立同分布产生的

要学习的模型属于某个函数的集合，称为假设空间（hypothesis space）

学习方法三要素

模型的假设空间

模型Model

模型选择的准则

策略 strategy

模型学习的算法

算法 algorithm

非监督学习 unsupervised learning

半监督学习 semi-supervised learning

强化学习 reinforcement learning

5.统计学习的研究

统计学习方法 statisticcl learning

开发新的学习方法

统计学习理论 statistical learning theory

提高学习方法的效率

统计学习应用 application of statistical learning

应用

6. 统计学习的重要性

处理海量数据的有效方法

智能化的有效手段

计算机科学发展的重要组成部分

计算机科学包括系统、计算和信息。统计学习属于信息。

1.2 监督学习

1.2.1 基本概念

1.基本空间

输入空间 input space

输入所有可能取值的集合

特征空间 feature space

不一定与输入空间相同，存在映射关系

输出空间 output space

输出所有可能取值的集合

通常远小于输入空间

2.联合概率分布

假设联合概率分布P(X,Y)的存在。

3.假设空间

模型属于输入空间到输出空间的映射的集合，这个集合就是假设空间 hypothesis space

监督学习的模型可以是

概率模型

条件概率分布P(Y|X)

非概率模型

决策函数 decision funciton Y=f(X)

1.2.2 问题的形式化

学习流程的简单介绍

1.3 统计学习三要素

1.3.1 模型：

条件概率分布

模型的假设空间定义为概率函数的集合 F={P|P(X,Y)}，此时F通常是有一个参数向量决定的概率分布族：F={P|Pθ(X,Y)，θ∈R }，参数向量θ取值于n维欧式空间R，称为参数空间（parameter space）

决策函数

模型的假设空间定义为决策函数的集合 F={f|Y=f(X)}，此时F通常是有一个参数向量决定的函数族：F={f|Y=fθ(X)，θ∈R }，参数向量θ取值于n维欧式空间R，称为参数空间（parameter space）

1.3.2 策略

1.损失函数和风险函数

损失函数（loss function）或代价函数（cost function）

定义

以决策函数为例

在假设空间中选取了模型f作为决策函数，此模型f的预测值与真实值Y之间的差异，用损失函数或代价函数来度量

损失函数是F(X)和Y的非负实值函数，记做 L(Y,f(X))

常用的函数分类

0-1损失函数 0-1 loss function

平方损失函数 quadratic loss function

绝对损失函数 absolute loss function

对数损失函数 logarithmic loss function 或者对数似然损失函数 log-likelihood loss function

风险函数（risk fucntion）或期望损失（expected loss）

Rexp(f) 是损失函数的期望值，也是理论上模型f关于联合分布P(X,Y)的平均意义下的损失

由于联合分布实际上未知，因此此值不可直接计算获得。

经验风险（empirical risk）或经验损失（empirical loss）

Remp(f) 是模型关于训练样本集的平均损失。

根据大数定理，当样本集无穷大时，Remp=Rexp

现实中由于样本容量有限，用Remp估计Rexp时，需要对结果进行矫正。矫正策略为

经验风险最小化

结构风险最小化

2.经验风险最小化与结构风险最小化

经验风险最小化 (empirical risk minimization ERM)

定义：经验风险最小的模型就是最优模型

极大似然估计（maximum likelihood estimation）是经验风险最小化的一个例子

当模型为条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计

结构风险最小化（structural risk minimization SRM）

为防止过拟合，在经验风险上增加表示模型复杂度的正则化项（regularizer）或罚项（penalty term）

贝叶斯估计中的最大后验概率估计（maximum posterior probability estimation MAP）就是结构风险最小化的一个例子

1.3.3 算法

经过上面“最小化”的过程，计算变为最优化问题。因此可以采用现有的各种最优化算法。

小结

统计学习首先要考虑的是学习什么样的模型---1.3.1模型

有了模型假设空间，接着要考虑的就是按照什么样的标准学习或选择最优模型 ---1.3.2 策略

最后考虑用什么样的计算方法求解最优模型 --- 1.3.3 算法

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

训练误差 training error

当模型Y=f(X)给定，损失函数给定时，关于训练集的损失函数

测试误差 test error

当模型Y=f(X)给定，损失函数给定时，关于测试集的损失函数

特例：当损失函数为0-1损失时，测试误差就是误差率 error rate

1.4.2 过拟合与模型选择

过拟合 over-fitting

当假设空间含有不同复杂度的模型时，就要面临模型选择（model selection）的问题。若一味追求低的训练误差，所选模型的复杂度往往会比真模型更高。这种情况称之为过拟合

模型选择

目的：防止过拟合的产生，选择复杂度适当的模型

模型选择方法

正则化

交叉验证

1.5 正则化与交叉验证

1.5.1 正则化 regularization

是结构风险最小化策略的实现（1.3.2-2）

举例：回归问题中，损失函数是平方损失，正则化项可以是参数向量的L2范数或L1范数

正则化符合奥卡姆剃刀原理：简洁的是好的。

1.5.2 交叉验证 cross validation

如果给定样本数量足够大

将样本分为完全不同的三份，分别作为

训练集（training set）

用于训练模型

验证集（validation set）

用于模型选择

测试集（test set）

用于最终评估

如果样本数量不足

交叉验证分类

简单交叉验证

将数据分为训练集与测试集

S折交叉验证

随机将数据切分为S个互不相交的大小相同的子集，用S-1个子集做训练集，剩余的做测试集。将以上过程做S种选择重复进行，最后选出S次评价中测试误差最小的模型。

留一交叉验证

在S折交叉验证中，当S=N时（N为样本数量），称为留一交叉验证（每个数据集只有一个数据）

1.6 泛化能力

1.6.1 泛化误差

学习到的模型对未知数据预测的误差

显示中通过测试误差来评价泛化能力

公式和损失函数是一样的，只是将数据集换成了测试数据集

由于测试集的有限性，由测试集得到的评价是不可靠的

1.6.2 泛化误差上界

定义

泛化误差的概率上界的简称。 generalization error bound

通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

性质

它是样本容量的函数

当样本容量增加时，泛化误差上届趋于0

它是假设空间容量的的函数

当假设空间容量增加时，模型就越难学习，泛化误差的上届就越大

定理

对于二类分类问题，当假设空间是有限个函数的集合时，有不等式成立。

其意义为：训练误差小的模型，其泛化误差也会小。

1.7 生成模型与判别模型

监督学习方法可以分为

生成方法 generative approach

据此学到的模型称为生成模型 generative model

根据训练集，学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测模型

典型的生成模型有

朴素贝叶斯法

第四章

隐马尔可夫模型

第十章

特点

生成方法可以还原联合概率分布P(X,Y)，判别方法不能。

生成方法的收敛速度快。

当存在隐变量时，仍可以使用生成方法学习

判别方法 discriminative approach

据此学到的模型称为判别模型 discriminative model

根据训练集，直接学习概率分布P(Y|X)或判别函数Y=f(X)作为预测的模型

典型的判别模型有

感知机

第二章

k临近法

第三章

决策树

第五章

逻辑斯蒂回归模型、最大熵模型

第六章

支持向量机

第七章

提升方法

第八章

条件随机场

第十一章

特点

学习准确率更高

可以对数据进行抽象，简化学习问题

1.8 分类问题

定义

分类问题

当输出变量Y的空间为有限个离散值时，称为分类问题

分类器 calssifier

监督学习从数据中学习一个分类模型或分类决策函数，称为分类器

分类 classification

分类器对新的数据进行预测，称为分类

类 class

分类器可能的输出，称为类。

评价分类器性能的指标

分类准确率 accuracy

对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。

对于二分类问题

定义

TP

将正类预测为正类数

FN

将正类预测为负类数

FP

将负类预测为正类数

TN

将负类预测为负类数

常用评价指标是

精确率 precision

P = TP/（TP+FP）

召回率 recall

P = TP/（TP+FN）

F1值

F1 = 2TP/(2TP + FP +FN)

1.9 标注问题

定义

标注 tagging

学习一个模型，使它能够对观测序列给出标记序列作为预测。

常用方法

隐马尔可夫模型

条件随机场

应用范围

自然语言处理

信息抽取

1.10 回归问题

定义

输入与输出均为连续变量的的预测问题称为回归问题

分类

按照输入变量的个数，可以分为

一元回归

多元回归

按照输入与输出的映射关系，可以分为

线性回归

非线性回归

损失函数

最常用平方损失函数

此情况下，可用最小二乘法解决

第二章感知机

导言

感知机是二类分类的线性分类模型

感知机是判别模型

2.1 感知机模型

定义

由输入空间到输出空间的函数 f(x)=sign(w*x+b) 称为感知机

w∈R 是权重 weight 或权重向量 weight vector

b∈R 是偏移 bias

解释

超平面分割

2.2 感知机学习策略

2.2.1 数据集的线性可分性

定义

对于给定数据集T，如果存在超平面S能够将T的正实例点与负实例点完全正确地划分到超平面的两侧，则称数据集T是线性可分数据集 linearly spearable data set

反之，称T为线性不可分

2.2.2 感知机学习策略

假设数据集线性可分

定义损失函数

自然选择是误分类点的数量，但是此值不是参数w和b的可导函数，不易优化

选择误分类点到超平面的总距离作为损失函数，为令损失函数>0,引入y值

练习：证明超平面外一点到超平面的距离公式

2.3 感知机学习算法

2.3.1 原始形式

欲令损失函数最小，采用随机梯度下降法 stochastic gradient descent

步骤

任意选取一个超平面 w0，b0

在训练集中选择数据（xi，yi）

如果yi（w*xi+b）<0，意味着分类错误

偏微分求导，可以定出梯度方向，使用学习率η作为梯度参数，对w和b进行更新

w += η * yi * xi

b += η * yi

转到第二步，直至所有数据被正确分类

因为超平面的不唯一性，当使用数据的顺序不同时，得出的超平面结果也是不一致的。

与第七章支持向量机的原始形式对应

2.3.2 算法的收敛性

定义

对于线性可分的数据集，经过有限次迭代可以得到一个将训练集正确划分的超平面

证明

看不懂

2.3.3 对偶形式

将w和b表示为实例xi和标记yi的线性组合形式，通过求解其系数而求的w和b

当w和b的初始值为0时，对误分类点（xi，yi）通过梯度下降逐步修改，设修改了n次

w = w0+ η * yi * xi

w = ∑ αi * yi * xi， αi = ni * η

ni表示为样本点(xi,yi)在更新过程中使用的次数

b = b+ η * yi

b = ∑ αi * yi， αi = ni * η

感知机模型 f(x)=sign( (∑ αi * yi * xi ) * x + b )

因为η是固定值，因此此时参数αi其实代表的是这个样本的使用次数

对偶形式本质上是学习ni,而非w

步骤

初始值 α=0， b=0

在训练集中选取（xi，yi）

如果 f(xi) * yi < 0

αi += η

b+= η * yi

转至第二步直到没有误分类函数

将α转换为w，得出超平面参数 w和b

简化

在感知机模型f(x)=sign( (∑ αi * yi * xi ) * x + b )中，训练数据集仅以内积的形式出现

为了计算方便可以预先计算样本的内积矩阵

Gram矩阵

与第七章支持向量机的对偶形式对应

问题：对偶形式的运算复杂度更低么

第三章 k近邻法

3.1 k近邻算法

3.2 k近邻模型

3.2.1 模型

单元 cell

对每个实例点，距离该点比其他点更近的所有点组成一个区域，叫做单元

推论：单元是互斥且完备的

类标记 class label

实例x的类y作为其单元所有点的类标记

3.2.2 距离度量

范数距离

3.2.3 k值的选择

k=1