机器学习
2025-09-08 15:24:02 0 举报
AI智能生成
谷歌机器学习课程全部笔记
作者其他创作
大纲/内容
系统类型
监督式学习模型
概念:通过发现数据元素和答案之间的关联,然后进行预测。
就像学生通过复习旧考试资料,来应对新的考试。
就像学生通过复习旧考试资料,来应对新的考试。
常规用例:回归和分类
回归是指可预测数值,降雨值约100
分类是指可预测属于哪类:二元(下雨、不下雨)多元分类(大雨、小雨、雨夹雪、冰雹...)。
非监督学习模型
概念:通过学习大量没有标准答案的数据,找出数据中具有意义的模式,模型需要推断自己的规则。
常规用例:聚类
聚类是模型会发现数据内在结构,并自动分组
强化学习模型
概念:是一种机器学习范式,智能体在环境中不断试错,通过奖励信号反馈,学习出更好的策略。
生成式AI模型
通过学习数据中的模型,生成其他类似数据,是接受各种输入,生成各种输出的模型。
监督学习
数据集:特点在于其规模和多样性,规模表示示例数量,多样性表示涵盖范围,好的数据集又大有丰富。
特征:包含更多特征的数据集并不保证模型更准确,因为不是所有特征都对预测目标有贡献,有些甚至可能干扰模型学习。
线性回归
线性回归用于查找特征与标签之间的关系,拉皮筋看趋势
损失用于衡量预测值与实际值之间的差异
L1 损失
预测值与实际值之间的差的绝对值之和
平均绝对误差 (MAE)
L1/N
L2 损失
预测值与实际值之间的差的平方之和
均方误差 (MSE)
L2/N
选择最佳损失函数时,请考虑您希望模型如何处理离群值
损失曲线
超参数
学习速率
浮点数,用于影响模型收敛的速度
批次大小
型在更新权重和偏差之前处理的示例数量
周期
模型已处理训练集中的每个示例一次
逻辑回归
拉皮筋看趋势,再掂量概率
线性回归作为输入,S函数会把其压缩。
用对数损失函数算损失,因为最大似然估计
分类
ROC曲线
理想模型
++TP(正确预测新冠阳性) -+FP(错误预测新冠阳性,实际是阴的) --FN(错误预测新冠阴性,实际也是阳的) +-TN(正确预测新冠阴性)
准确率=TP+TN/所有和。精确率=TP/TP+FP 预测阳的,对了多少 正向可信率。召回率=TP/TP+FN 实际阳了的,多少被查出来了 查全率。假阳性率=FP/FP+TN 实际健康的,有多少被误诊 误诊率。
准确率=TP+TN/所有和。精确率=TP/TP+FP 预测阳的,对了多少 正向可信率。召回率=TP/TP+FN 实际阳了的,多少被查出来了 查全率。假阳性率=FP/FP+TN 实际健康的,有多少被误诊 误诊率。
处理数值信息
对数据进行统计评估
查找离群值
标准化
分箱
分箱就是把连续变量变成区间型离散变量
原始特征 = 年龄(连续值:23, 35, 48, 62...)
分箱后 =0–18 岁 → 少年
19–40 岁 → 青年
41–60 岁 → 中年
61 岁以上 → 老年
分箱后 =0–18 岁 → 少年
19–40 岁 → 青年
41–60 岁 → 中年
61 岁以上 → 老年
擦除
去掉无效、异常或冗余的数值信息
多项式转换
把原始的数值特征x转换成它的多项式形式(平方、立方、交互项等),以增强模型对非线性关系的表达能力
处理分类数据
独热编码one-hot
在真正的 one-hot 编码中,只有一个元素的值为 1.0。在一种称为多热编码的变体中,多个值可以为 1.0。
每个类别都由一个包含 N 个元素的向量(数组)表示,其中 N 是类别的数量。
独热向量中一个元素的值为 1.0,其余所有元素的值均为 0.0
稀疏表示法
[0, 0, 1, 0, 0, 0, 0, 0]独热向量的稀疏表示形式为2
稀疏表示法占用的内存远少于独热向量
嵌入向量Embedding
将离散的、不可微的符号或类别(如词、子词、字符、商品 ID、用户 ID 等)映射为稠密的、可微分的实数向量,
用于神经网络或其他模型进行计算和学习
用于神经网络或其他模型进行计算和学习
数据集、泛化和过拟合
直接标签
直接反映目标预测对象的真实结果或状态的标签
房价预测:房子的真实价格 → 直接标签
代理标签
无法直接获取目标标签时,用一个相关或可替代的信号作为标签
房价预测:用房屋挂牌价或历史成交价作为代理标签
在类别平衡的数据集中,正类别和负类别的数量大致相等
通过下采样平衡数据,
同时用权重补偿减少的样本
同时用权重补偿减少的样本
下采样多数类:减少多数类样本数量,使各类别样本更平衡,防止模型偏向多数类。
增加下采样后类别权重:对下采样导致的样本减少进行补偿,让模型在训练时仍重视该类别,保持预测能力
在训练期间,模型会更频繁地看到少数类,这有助于模型更快地收敛
训练集60%-80%
用于模型学习,训练模型参数
验证集10%-20%
用于模型选择和调参,检测模型在未见数据上的表现,防止过拟合
测试集10%-20%
用于最终评估模型性能,模拟真实应用场景
过拟合
创建的模型与训练集过于匹配,导致模型根据新数据无法做出正确预测
原因1:训练集不能充分代表真实数据(或验证集或测试集)
原因2:模型过于复杂
欠拟合
甚至无法对训练数据做出准确的预测
神经网络
反向传播
用链式法则把误差从输出层“传回”输入层,计算所有参数的梯度,用来更新权重,使模型不断变好。
一对一
二分类
Sigmoid 函数,识别二分类任务概率,概率和 = 1
多分类
Softmax函数,识别多类任务概率,概率和 = 1,适合多类互斥任务
一对多
多次调用Sigmoid 函数,适合多标签可共存任务
嵌入
静态嵌入(如词表初始化向量)
训练好后固定向量
维度固定,可小(50~300)
词向量个数与词表大小一致
动态嵌入
需要输入上下文后即时生成向量
维度高(768~12288),通常与模型隐藏层相同
词向量个数与输入序列长度一致,每个 token 都有向量
动态嵌入通常是建立在静态嵌入或初始向量的基础上,再结合上下文计算得到的
动态词表本质上就是静态词表,等于静态词表是动态嵌入生成的起点。
词袋法
一段文本看成是一个“词的集合(袋子)”,只关心词出现了多少次,不关心词出现的顺序。
大语言模型
Transformer是深度神经网络的一种架构
自注意力机制
多头自注意力机制
微调
基础语言模型的模式识别能力非常强大,有时只需进行相对较少的额外训练,即可学习特定任务,
额外的训练称为微调
额外的训练称为微调
蒸馏
用一个 大模型(Teacher) 的预测或表示来指导 小模型(Student) 的训练,让小模型学到大模型的能力
量化
模型量化就是把参数降低精度,从而达到压缩大模型的效果
提示工程
生产型机器人学习系统
推理是指通过将训练后的模型应用于无标签示例做出预测的过程
静态推理模型必须为所有可能的输入创建预测
动态推理可以为所有可能的条目提供预测
在机器学习中,不能用未来信息作为特征,否则就是数据泄漏,模型在真实场景中毫无用处。
目标:预测学生的 期末考试成绩。
你收集了一堆特征:
平时作业成绩
上课出勤率
小测验成绩
📌 期末试卷的答题正确率 ← 这就是 数据泄漏
你收集了一堆特征:
平时作业成绩
上课出勤率
小测验成绩
📌 期末试卷的答题正确率 ← 这就是 数据泄漏
反馈环 = 模型预测 → 预测结果被使用 → 改变了环境/用户行为 → 生成了新数据 → 影响后续模型表现。
一种 闭环效应,可能导致模型性能变好,也可能导致偏差加剧。
一种 闭环效应,可能导致模型性能变好,也可能导致偏差加剧。
训练–应用偏差 = 训练用的数据 ≠ 应用时的数据。结果就是:模型在训练/验证时表现很好,上线后效果骤降。
机器学习探索工作流
定义问题(目标是什么)
收集数据(获取并理解数据)
清洗处理(缺失值、特征工程、数据集划分)
建模训练(选择算法 → 拟合模型)
评估优化(用指标验证 → 调参/改特征)
部署监控(上线并跟踪表现)
公平性
偏见的类型
报告偏差 =模型学到的是“人们说了什么”,而不是“实际发生了什么”
历史偏差 = 数据忠实反映了“过去的世界”,但过去本身就有问题。
自动化偏差 = 人把机器当成“绝对正确”,放弃了自己的判断。
选择性偏差 = 数据采样过程不均匀,导致训练集 ≠ 真实世界
无反应偏差 = 数据里“沉默的人”并不是随机缺失,而正好影响结论。
采样偏差 = 取样就取错了,样本不具有代表性
群体归因偏差 = 把群体平均特征当作每个个体的特征
人口均等 = 模型预测正类的概率在各个群体间相同,从而保证群体公平。
机会平等 = 真实应得机会的个体,不因群体属性而被区别对待。
反事实公平 = 改变个体受保护属性也不改变模型决策,确保个体级别的公平。
我如何判断一个需求是通过机器学习实现还是非机器学习实现
“能用明确规则解决且不依赖历史数据 → 非ML;需要从数据学习规律 → ML。”
0 条评论
下一页