机器学习
2025-09-08 15:24:02 1 举报
AI智能生成
谷歌机器学习课程全部笔记
作者其他创作
大纲/内容
系统类型<br>
监督式学习模型<br>
概念:通过发现数据元素和答案之间的关联,然后进行预测。<br>就像学生通过复习旧考试资料,来应对新的考试。<br>
常规用例:回归和分类<br>
回归是指可预测数值,降雨值约100<br>
分类是指可预测属于哪类:二元(下雨、不下雨)多元分类(大雨、小雨、雨夹雪、冰雹...)。<br>
非监督学习模型
概念:通过学习大量没有标准答案的数据,找出数据中具有意义的模式,模型需要推断自己的规则。<br>
常规用例:聚类<br>
聚类是模型会发现数据内在结构,并自动分组<br>
强化学习模型
概念:是一种机器学习范式,智能体在环境中不断试错,通过奖励信号反馈,学习出更好的策略。<br>
生成式AI模型
通过学习数据中的模型,生成其他类似数据,是接受各种输入,生成各种输出的模型。<br>
监督学习
数据集:特点在于其规模和多样性,规模表示示例数量,多样性表示涵盖范围,好的数据集又大有丰富。<br>
特征:包含更多特征的数据集并不保证模型更准确,因为不是所有特征都对预测目标有贡献,有些甚至可能干扰模型学习。<br>
线性回归
线性回归用于查找特征与标签之间的关系,拉皮筋看趋势
损失用于衡量预测值与实际值之间的差异
L1 损失
预测值与实际值之间的差的绝对值之和
平均绝对误差 (MAE)
L1/N
L2 损失
预测值与实际值之间的差的平方之和<br>
均方误差 (MSE)<br>
L2/N
选择最佳损失函数时,请考虑您希望模型如何处理离群值
损失曲线
<br>
超参数
学习速率
浮点数,用于影响模型收敛的速度
批次大小
型在更新权重和偏差之前处理的示例数量<br>
周期
模型已处理训练集中的每个示例一次
逻辑回归
拉皮筋看趋势,再掂量概率
线性回归作为输入,S函数会把其压缩。<br>
用对数损失函数算损失,因为最大似然估计<br>
分类
ROC曲线
理想模型
++TP(正确预测新冠阳性) -+FP(错误预测新冠阳性,实际是阴的) --FN(错误预测新冠阴性,实际也是阳的) +-TN(正确预测新冠阴性)<br>准确率=TP+TN/所有和。精确率=TP/TP+FP 预测阳的,对了多少 正向可信率。召回率=TP/TP+FN 实际阳了的,多少被查出来了 查全率。假阳性率=FP/FP+TN 实际健康的,有多少被误诊 误诊率。
处理数值信息<br>
对数据进行统计评估
查找离群值
标准化
<br>
分箱
分箱就是把连续变量变成区间型离散变量
原始特征 = 年龄(连续值:23, 35, 48, 62...)<br><br>分箱后 =0–18 岁 → 少年<br><br>19–40 岁 → 青年<br><br>41–60 岁 → 中年<br><br>61 岁以上 → 老年
擦除<br>
去掉无效、异常或冗余的数值信息
多项式转换
把原始的数值特征x转换成它的多项式形式(平方、立方、交互项等),以增强模型对非线性关系的表达能力<br>
处理分类数据
独热编码one-hot<br>
在真正的 one-hot 编码中,只有一个元素的值为 1.0。在一种称为多热编码的变体中,多个值可以为 1.0。
每个类别都由一个包含 N 个元素的向量(数组)表示,其中 N 是类别的数量。
独热向量中一个元素的值为 1.0,其余所有元素的值均为 0.0
稀疏表示法<br>
[0, 0, 1, 0, 0, 0, 0, 0]独热向量的稀疏表示形式为2<br>
稀疏表示法占用的内存远少于独热向量<br>
嵌入向量Embedding
将离散的、不可微的符号或类别(如词、子词、字符、商品 ID、用户 ID 等)映射为稠密的、可微分的实数向量,<br>用于神经网络或其他模型进行计算和学习<br>
数据集、泛化和过拟合
直接标签<br>
直接反映目标预测对象的真实结果或状态的标签
房价预测:房子的真实价格 → 直接标签<br>
代理标签
无法直接获取目标标签时,用一个相关或可替代的信号作为标签
房价预测:用房屋挂牌价或历史成交价作为代理标签
在类别平衡的数据集中,正类别和负类别的数量大致相等
通过下采样平衡数据,<br>同时用权重补偿减少的样本<br>
下采样多数类:减少多数类样本数量,使各类别样本更平衡,防止模型偏向多数类。
增加下采样后类别权重:对下采样导致的样本减少进行补偿,让模型在训练时仍重视该类别,保持预测能力<br>
在训练期间,模型会更频繁地看到少数类,这有助于模型更快地收敛
训练集60%-80%<br>
用于模型学习,训练模型参数<br>
验证集10%-20%<br>
用于模型选择和调参,检测模型在未见数据上的表现,防止过拟合
测试集10%-20%<br>
用于最终评估模型性能,模拟真实应用场景
过拟合
创建的模型与训练集过于匹配,导致模型根据新数据无法做出正确预测<br>
原因1:训练集不能充分代表真实数据(或验证集或测试集)<br>
原因2:模型过于复杂<br>
欠拟合
甚至无法对训练数据做出准确的预测<br>
神经网络
反向传播
用链式法则把误差从输出层“传回”输入层,计算所有参数的梯度,用来更新权重,使模型不断变好。
一对一
二分类<br>
Sigmoid 函数,识别二分类任务概率,概率和 = 1
多分类
Softmax函数,识别多类任务概率,概率和 = 1,适合多类互斥任务
一对多
多次调用Sigmoid 函数,适合多标签可共存任务<br>
嵌入
静态嵌入(如词表初始化向量)<br>
训练好后固定向量
维度固定,可小(50~300)
词向量个数与词表大小一致
<br>
动态嵌入
需要输入上下文后即时生成向量
维度高(768~12288),通常与模型隐藏层相同
词向量个数与输入序列长度一致,每个 token 都有向量<br>
动态嵌入通常是建立在静态嵌入或初始向量的基础上,再结合上下文计算得到的
动态词表本质上就是静态词表,等于静态词表是动态嵌入生成的起点。<br>
词袋法
一段文本看成是一个“词的集合(袋子)”,只关心词出现了多少次,不关心词出现的顺序。
大语言模型
Transformer是深度神经网络的一种架构
自注意力机制
多头自注意力机制
微调
基础语言模型的模式识别能力非常强大,有时只需进行相对较少的额外训练,即可学习特定任务,<br>额外的训练称为微调
蒸馏
用一个 大模型(Teacher) 的预测或表示来指导 小模型(Student) 的训练,让小模型学到大模型的能力
量化
模型量化就是把参数降低精度,从而达到压缩大模型的效果
提示工程
<br>
生产型机器人学习系统
<b>推理</b>是指通过将训练后的模型应用于无标签示例做出预测的过程
<b>静态推理</b>模型必须为所有可能的输入创建预测
<b>动态推理</b>可以为所有可能的条目提供预测
在机器学习中,不能用未来信息作为特征,否则就是<b>数据泄漏</b>,模型在真实场景中毫无用处。
目标:预测学生的 期末考试成绩。<br><br>你收集了一堆特征:<br><br>平时作业成绩<br><br>上课出勤率<br><br>小测验成绩<br><br>📌 期末试卷的答题正确率 ← 这就是 数据泄漏
<b>反馈环</b> = 模型预测 → 预测结果被使用 → 改变了环境/用户行为 → 生成了新数据 → 影响后续模型表现。<br><br>一种 闭环效应,可能导致模型性能变好,也可能导致偏差加剧。
<br>
<b>训练–应用偏差</b> = 训练用的数据 ≠ 应用时的数据。结果就是:模型在训练/验证时表现很好,上线后效果骤降。
机器学习探索工作流
定义问题(目标是什么)
收集数据(获取并理解数据)
清洗处理(缺失值、特征工程、数据集划分)
建模训练(选择算法 → 拟合模型)
评估优化(用指标验证 → 调参/改特征)
部署监控(上线并跟踪表现)
公平性
偏见的类型
<b>报告偏差</b> =模型学到的是“人们说了什么”,而不是“实际发生了什么”
<br>
<b>历史偏差</b> = 数据忠实反映了“过去的世界”,但过去本身就有问题。<br>
<br>
<b>自动化偏差</b> = 人把机器当成“绝对正确”,放弃了自己的判断。
<br>
<b>选择性偏差</b> = 数据采样过程不均匀,导致训练集 ≠ 真实世界
<br>
<b>无反应偏差 </b>= 数据里“沉默的人”并不是随机缺失,而正好影响结论。
<br>
<b>采样偏差</b> = 取样就取错了,样本不具有代表性
<br>
<b>群体归因偏差</b> = 把群体平均特征当作每个个体的特征
<br>
<b>人口均等</b> = 模型预测正类的概率在各个群体间相同,从而保证群体公平。
<br>
<b>机会平等</b> = 真实应得机会的个体,不因群体属性而被区别对待。<br>
<br>
<b>反事实公平</b> = 改变个体受保护属性也不改变模型决策,确保个体级别的公平。
<br>
我如何判断一个需求是通过机器学习实现还是非机器学习实现<br>
“能用明确规则解决且不依赖历史数据 → 非ML;需要从数据学习规律 → ML。”
0 条评论
下一页