首页  思维导图  详情

机器学习

2025-09-08 15:24:02   1  举报





AI智能生成

谷歌机器学习课程全部笔记

人工智能

学习笔记

大模型

机器学习

作者其他创作

大纲/内容

系统类型

监督式学习模型

概念：通过发现数据元素和答案之间的关联，然后进行预测。
就像学生通过复习旧考试资料，来应对新的考试。

常规用例：回归和分类

回归是指可预测数值，降雨值约100

分类是指可预测属于哪类：二元（下雨、不下雨）多元分类（大雨、小雨、雨夹雪、冰雹...）。

非监督学习模型

概念：通过学习大量没有标准答案的数据，找出数据中具有意义的模式，模型需要推断自己的规则。

常规用例：聚类

聚类是模型会发现数据内在结构，并自动分组

强化学习模型

概念：是一种机器学习范式，智能体在环境中不断试错，通过奖励信号反馈，学习出更好的策略。

生成式AI模型

通过学习数据中的模型，生成其他类似数据，是接受各种输入，生成各种输出的模型。

监督学习

数据集：特点在于其规模和多样性，规模表示示例数量，多样性表示涵盖范围，好的数据集又大有丰富。

特征：包含更多特征的数据集并不保证模型更准确，因为不是所有特征都对预测目标有贡献，有些甚至可能干扰模型学习。

线性回归

线性回归用于查找特征与标签之间的关系，拉皮筋看趋势

损失用于衡量预测值与实际值之间的差异

L1 损失

预测值与实际值之间的差的绝对值之和

平均绝对误差 (MAE)

L1/N

L2 损失

预测值与实际值之间的差的平方之和

均方误差 (MSE)

L2/N

选择最佳损失函数时，请考虑您希望模型如何处理离群值

损失曲线

超参数

学习速率

浮点数，用于影响模型收敛的速度

批次大小

型在更新权重和偏差之前处理的示例数量

周期

模型已处理训练集中的每个示例一次

逻辑回归

拉皮筋看趋势，再掂量概率

线性回归作为输入，S函数会把其压缩。

用对数损失函数算损失，因为最大似然估计

分类

ROC曲线

理想模型

++TP(正确预测新冠阳性) -+FP（错误预测新冠阳性，实际是阴的） --FN（错误预测新冠阴性，实际也是阳的） +-TN（正确预测新冠阴性）
准确率=TP+TN/所有和。精确率=TP/TP+FP 预测阳的，对了多少正向可信率。召回率=TP/TP+FN 实际阳了的，多少被查出来了查全率。假阳性率=FP/FP+TN 实际健康的，有多少被误诊误诊率。

处理数值信息

对数据进行统计评估

查找离群值

标准化

分箱

分箱就是把连续变量变成区间型离散变量

原始特征 = 年龄（连续值：23, 35, 48, 62...）

分箱后 =0–18 岁 → 少年

19–40 岁 → 青年

41–60 岁 → 中年

61 岁以上 → 老年

擦除

去掉无效、异常或冗余的数值信息

多项式转换

把原始的数值特征x转换成它的多项式形式（平方、立方、交互项等），以增强模型对非线性关系的表达能力

处理分类数据

独热编码one-hot

在真正的 one-hot 编码中，只有一个元素的值为 1.0。在一种称为多热编码的变体中，多个值可以为 1.0。

每个类别都由一个包含 N 个元素的向量（数组）表示，其中 N 是类别的数量。

独热向量中一个元素的值为 1.0，其余所有元素的值均为 0.0

稀疏表示法

[0, 0, 1, 0, 0, 0, 0, 0]独热向量的稀疏表示形式为2

稀疏表示法占用的内存远少于独热向量

嵌入向量Embedding

将离散的、不可微的符号或类别（如词、子词、字符、商品 ID、用户 ID 等）映射为稠密的、可微分的实数向量，
用于神经网络或其他模型进行计算和学习

数据集、泛化和过拟合

直接标签

直接反映目标预测对象的真实结果或状态的标签

房价预测：房子的真实价格 → 直接标签

代理标签

无法直接获取目标标签时，用一个相关或可替代的信号作为标签

房价预测：用房屋挂牌价或历史成交价作为代理标签

在类别平衡的数据集中，正类别和负类别的数量大致相等

通过下采样平衡数据，
同时用权重补偿减少的样本

下采样多数类：减少多数类样本数量，使各类别样本更平衡，防止模型偏向多数类。

增加下采样后类别权重：对下采样导致的样本减少进行补偿，让模型在训练时仍重视该类别，保持预测能力

在训练期间，模型会更频繁地看到少数类，这有助于模型更快地收敛

训练集60%-80%

用于模型学习，训练模型参数

验证集10%-20%

用于模型选择和调参，检测模型在未见数据上的表现，防止过拟合

测试集10%-20%

用于最终评估模型性能，模拟真实应用场景

过拟合

创建的模型与训练集过于匹配，导致模型根据新数据无法做出正确预测

原因1：训练集不能充分代表真实数据（或验证集或测试集）

原因2：模型过于复杂

欠拟合

甚至无法对训练数据做出准确的预测

神经网络

反向传播

用链式法则把误差从输出层“传回”输入层，计算所有参数的梯度，用来更新权重，使模型不断变好。

一对一

二分类

Sigmoid 函数，识别二分类任务概率，概率和 = 1

多分类

Softmax函数，识别多类任务概率，概率和 = 1，适合多类互斥任务

一对多

多次调用Sigmoid 函数，适合多标签可共存任务

嵌入

静态嵌入（如词表初始化向量）

训练好后固定向量

维度固定，可小（50~300）

词向量个数与词表大小一致

动态嵌入

需要输入上下文后即时生成向量

维度高（768~12288），通常与模型隐藏层相同

词向量个数与输入序列长度一致，每个 token 都有向量

动态嵌入通常是建立在静态嵌入或初始向量的基础上，再结合上下文计算得到的

动态词表本质上就是静态词表，等于静态词表是动态嵌入生成的起点。

词袋法

一段文本看成是一个“词的集合（袋子）”，只关心词出现了多少次，不关心词出现的顺序。

大语言模型

Transformer是深度神经网络的一种架构

自注意力机制

多头自注意力机制

微调

基础语言模型的模式识别能力非常强大，有时只需进行相对较少的额外训练，即可学习特定任务，
额外的训练称为微调

蒸馏

用一个大模型（Teacher）的预测或表示来指导小模型（Student）的训练，让小模型学到大模型的能力

量化

模型量化就是把参数降低精度，从而达到压缩大模型的效果

提示工程

生产型机器人学习系统

推理是指通过将训练后的模型应用于无标签示例做出预测的过程

静态推理模型必须为所有可能的输入创建预测

动态推理可以为所有可能的条目提供预测

在机器学习中，不能用未来信息作为特征，否则就是数据泄漏，模型在真实场景中毫无用处。

目标：预测学生的期末考试成绩。

你收集了一堆特征：

平时作业成绩

上课出勤率

小测验成绩

📌 期末试卷的答题正确率 ← 这就是数据泄漏

反馈环 = 模型预测 → 预测结果被使用 → 改变了环境/用户行为 → 生成了新数据 → 影响后续模型表现。

一种闭环效应，可能导致模型性能变好，也可能导致偏差加剧。

训练–应用偏差 = 训练用的数据 ≠ 应用时的数据。结果就是：模型在训练/验证时表现很好，上线后效果骤降。

机器学习探索工作流

定义问题（目标是什么）

收集数据（获取并理解数据）

清洗处理（缺失值、特征工程、数据集划分）

建模训练（选择算法 → 拟合模型）

评估优化（用指标验证 → 调参/改特征）

部署监控（上线并跟踪表现）

公平性

偏见的类型

报告偏差 =模型学到的是“人们说了什么”，而不是“实际发生了什么”

历史偏差 = 数据忠实反映了“过去的世界”，但过去本身就有问题。

自动化偏差 = 人把机器当成“绝对正确”，放弃了自己的判断。

选择性偏差 = 数据采样过程不均匀，导致训练集 ≠ 真实世界

无反应偏差 = 数据里“沉默的人”并不是随机缺失，而正好影响结论。

采样偏差 = 取样就取错了，样本不具有代表性

群体归因偏差 = 把群体平均特征当作每个个体的特征

人口均等 = 模型预测正类的概率在各个群体间相同，从而保证群体公平。

机会平等 = 真实应得机会的个体，不因群体属性而被区别对待。

反事实公平 = 改变个体受保护属性也不改变模型决策，确保个体级别的公平。

我如何判断一个需求是通过机器学习实现还是非机器学习实现

“能用明确规则解决且不依赖历史数据 → 非ML；需要从数据学习规律 → ML。”

 收藏

立即使用

机器学习

 收藏

立即使用

思维导图-竞争对手分析

 收藏

立即使用

思维导图-变量6 读书笔记

 收藏

立即使用

系统UI设计需求

高冷北大学子

职业：北京大学

去主页





0 条评论

下一页

为你推荐

查看更多



强力推荐：吴恩达的机器学习课程（已完结）。

吴浙明