参考书建议
Murphy 2012
Bishop 2006
讨论拟合训练数据和寻找到能泛化到新数据的参数的不同
如何用额外的数据设置超参数
限制传统机器学习泛化能力的因素
Learning Algorithms
定义:对于某类任务T和性能衡量P,一个计算机程序被认为可以从经验E中学习是指
它的性能在任务T和性能衡量P上通过经验E有所提升。
任务T
通常机器学习任务被定义为"如何处理样本"
样本:我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征的集合
机器学习的常见任务类型
分类
输入缺失分类
输入有某些维度缺失情况下的分类问题
这类问题需要建立一组分类函数,以应对各种维度缺失
回归
<span class="fontstyle0">转录(Transcription)</span><br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
门牌号识别
车牌识别
机器翻译
结构化输出
语法分析
图像分割
Image Captioning
缺失值填补
降噪
<span class="fontstyle0">Density estimation </span><span class="fontstyle2">or </span><span class="fontstyle0">probability mass function estimation</span>
<br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
经验E
无监督
观察随机向量x的多个样本,尝试隐式或显式地学习出概率分布p(x),或该分布的一些有意思的性质
监督
观察随机向量x及其相关联的值或向量y,然后从x预测y,通常是估计p(y|x)
其它变种
多实例学习
样本的整个集合被标记为含有或不含有该类的样本,没有单独样本的标记
强化学习
不是训练于一个固定的数据集上,算法会和环境进行交互,形成反馈回路
数据集
实例:线性回归
算法
最小化训练的均方误差
求解导数为0的情况,得到标准方程
Capacity, Overfitting and Underfitting
机器学习的要求-良好的泛化能力,在未观测的新输入上表现良好
优化问题的目标 - 训练误差低
机器学习的目标 - 测试误差低
数据生成过程 - 独立同分布假设是研究训练误差和测试误差之间关系的前提
训练误差和测试误差之间的直接联系
训练误差的期望和测试误差的期望应该是一样的
机器学习算法优劣评定
降低训练误差的能力
降低训练误差和测试误差之间的差别的能力
调整模型的capacity,可以控制模型是否偏向于过拟合或欠拟合
模型的capacity指其拟合各种函数的能力
capacity较低,很难适应训练集
capacity较高,可能过拟合
控制训练算法capacity的方法之一
选择算法的假设空间,即允许选为解决方案的学习算法函数集
当机器学习算法capacity适合于任务的复杂度和数据集的数量时,算法效果最佳
奥卡姆剃刀原则
同样能解释已知观测现象的假设中,我们应该挑选"最简单"的哪一个
统计学习提供的量化模型capacity的方法
VC维度
用于衡量二元分类器的容量
VC维定义为该分类器能够分类的训练样本的最多数目
训练误差和泛化误差之间的差异的上界随着模型capacity的增长而增长,随着训练样本增多而下降
通常,模型capacity上升时,训练误差下降,直至此渐近最小可能误差
通常,泛化误差是一个关于模型capacity的U形曲线
<span class="fontstyle0">Hyperparameters and Validation Sets</span> <br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
<span class="fontstyle0">Estimators, Bias and Variance</span> <br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
<span class="fontstyle0">Maximum Likelihood Estimation</span> <br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
<span class="fontstyle0">Bayesian Statistics</span> <br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
<span class="fontstyle0">Supervised Learning Algorithms </span>
<br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
<span class="fontstyle0">Unsupervised Learning Algorithms </span>
<br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
<span class="fontstyle0">Stochastic Gradient Descent</span> <br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
<span class="fontstyle0">Building a Machine Learning Algorithm</span> <br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">
<span class="fontstyle0">Challenges Motivating Deep Learning</span> <br style="line-height: normal; text-align: -webkit-auto; text-size-adjust: auto;">