机器学习总结
2021-09-30 09:07:12 3 举报
AI智能生成
机器学习相关算法的总结
作者其他创作
大纲/内容
机器学习概述
大数据<br>对历史数据的总结、BI商业智能
分布式存储
分布式计算
分布式批计算
分布式流计算
准实时流式计算<br>Spark Streaming
纯实时流式计算<br>flink
机器学习<br>对未来的预测
<b><font color="#c41230">数据+算法=规律</font></b>
算法<br>逼近高度
<b><font color="#c41230">数据量<br>提高高度</font></b>
线性回归分类算法
简单线性回归算法
公式:y=a+bx
损失函数、目标函数、误差函数
找到最小的误差值
1.导数=0<br>这种方式根本实现不了
2.梯度下降法
指导w参数调整方向
参与w参数大小的调整
公式: Alpha 是步长
训练模型的套路
1.随机产生w参数
2.训练集数据和随机出来的w参数带入到误差函数中求解误差
3. 如果误差小于用户设置的误差阈值,那么此时的w参数就是最佳w参数
4.否则继续调整w参数,循环2,3步骤。
在训练模型之前:<br>1.设置收敛条件;<br> a.迭代次数;<br> b.误差阈值<br>2.设置w参数调整步长 0.3左右
常问问题
损失函数为什么加平方
测试数据的误差会不会小于训练数据的误差?<br>有可能会小
新增一列一模一样的数据列对模型有影响吗?<br>冗余数据对模型没有影响
什么是过拟合?
1.验证集辅助训练集
2.正则化
多元线性回归算法
公式:y=w0+w1x1+w2x2+...+wnxn
贝叶斯分类算法
公式: 等号右边是先验概率,等号左边是后验概率
案例:垃圾邮件分类
拉普拉斯平滑定理
KNN分类算法
分类思想
空间中k个相似的样本中,<br>如果大部分的样本属于某一个类别,<br>那么这个样本就属于那个类别
KNN分类的流程
1.新样本计算与空间中所有样本的距离
欧式距离
平方欧式距离
余弦距离
曼哈顿距离
闵科夫斯基
2.计算出距离最近的K个样本
3.K个样本中,大部分属于哪个类别,少数服从多数
KNN算法的缺点
A类数据超多,B类数据极少<br>加权重
约会案例
归一化
最大最小值归一化
公式,防止数差太大对计算距离影响过大
识别手写数字案例
KMeans聚类算法
无监督:开始不知道归哪类,<br>结合情况、自动归类
1.随机找K个样本(中心点)
1.肘部法
2.Kmeans++算法
首先选择第一个中心点c1
找与c1距离最远的中心点c2
可以防止随机出来的k个中心点集中在一起
2.计算空间中所有样本与这K个样本的距离
1.欧式距离
2.平方欧式距离
3.余弦距离
4.曼哈顿距离
5.闵可夫斯基
3.统计每个样本与K个样本的距离大小,<br>距离哪个样本最近,那就归属于哪个样本
4.分完类后,每组重新计算一个新的中心点,<br>中心点可能是一个虚拟的点
5.再次计算空间中所有样本与新的K个中心点距离
6.再次重新分类
7.依次迭代,一直到中心点坐标不再变化
案例:微博精准营销
需求:<br>将九阳豆浆机推送给需要的人
1.分词<br>向量化每篇微博
问题
如果分词后直接每个次在向量中都代表1<br>这种方式不行,为什么?
1.Kmeans聚类(欧式距离)<br>向量中不同位置的数字多,代表的单词内不同,<br>无法进行距离计算
2.不同微博的向量长度及大小不一致
解决方式
词袋模式、one-hot编码<br>
2.特征值
问题
词性问题<br>
词频的大小不能代表词的重要性<br>
解决方式
TF-IDF算法
3.KMeans聚类算法 N类
4.统计每类中 TF-IDF最大的N个单词<br>这N个单词可以代表主旨思想
仍存在的问题<br>
KMeans在推荐系统的应用
构建用户画像
一堆数据刻画一个人
千人前面
信息有缺失
KMeans+one-hot算法解决数据丢失问题<br>
基于用户的协同过滤<br>
问题1 冷启动问题 ,解决办法 增加热门商品
问题2 用户量大的基础上 增加新用户,产生大量聚类计算<br>
基于物品协同过滤<br>
优点:<br>物品的数量稳定,用户的数量会激增导致大量计算
问题1:<br>为什么不能根据物品画像去计算
买了一个手机,在推荐一个手机你会买吗?
解决:<br>根据物品捆绑买卖次数计算
买洗衣液 ,推荐柔顺剂
问题2:<br>新上的产品,有可能永远没有推荐
刷单 捆绑刷
店小二交钱 加权重
DBScan<br>基于密度的聚类算法
优缺点
逻辑回归分类算法
一种广义的线性回归分析模型
公式<br>
分类阈值0.5
子主题<br>
实际场景中遇到的问题<br>
适当调整分类阈值的大小
升维<br>
关于截距,w0非0的时候可能性会提高
归一化
最大最小值归一化
缺点:容易受到离群值影响<br>比如,1、2、3、1000(离群值)
均值方差归一化
归一化后的结果
误差函数、正则化<br>防止过拟合、提高抗干扰能力
lamda为惩罚系数
L1正则化是w参数趋向于0, 多用于降维
L2正则化是w参数趋向于整体变小
代码
多分类都可以归结为二分类
<br>
实例:路况预测
训练集什么样,那训练出来的模型就具备什么样的功能
训练集准备的特征值越多,Y值(分类值)越准确
显示4个分类,可以做出11个分类,为了提高抗干扰能力
决策树分类算法<br>非线性的
有监督的非线性分类算法
分类条件原则:<br>尽可能将同一类数据分到树的一遍;<br>构建的决策树越矮越好
公式
<br>
购买电脑
1.计算是否购买电脑的信息熵
3.计算年龄的信息增益
4.最终的决策树
过拟合
信息增益率公式<br>
<br>
决策树剪枝
后剪枝
子主题
缺点,解决办法。不能降低数据量,只能分布式训练来解决
随机森林
2.计算年龄的条件熵(比如:青少年 3/5不卖电脑,2/5卖年脑,再乘以不卖电脑的概率就是青少年的信息熵<br>因此-(3/5*log(3/5)+ 2/5*log(2/5))*5/14,在加上中年和老年的信息熵 ,最终得到年龄的条件熵) <br>
0 条评论
下一页