机器学习实战-笔记
2016-12-19 23:27:33 55 举报
AI智能生成
登录查看完整内容
机器学习实战笔记是一份详细记录了学习者在实践机器学习过程中的心得体会、问题解决方法和实践经验的文档。这份笔记通常包括以下几个方面的内容:首先,对所学算法的理论知识进行梳理和总结,帮助学习者巩固理论基础;其次,通过实际案例分析,展示如何将理论知识应用到实际问题中,提高学习者的动手能力;最后,记录在学习过程中遇到的问题和解决方案,为其他学习者提供参考。这份笔记不仅有助于学习者更好地掌握机器学习技能,还能激发他们的创新思维,为未来的研究和工作奠定坚实基础。
作者其他创作
大纲/内容
机器学习实战笔记
监督学习
k-近邻算法kNN
概念
采用测量不同特征值之间的距离方法进行分类
优点
精度高
对异常值不敏感
无数据输入假定
缺点
计算复杂度高
空间复杂度高
适用
数值型
标称型
案例
约会网站效果匹配
手写识别
决策树
按特征值划分法
二元划分法
划分数据集原则
信息熵entropy
信息增益information gain最大化
计算复杂度不高
输出结果易于理解
对中间值的缺失不敏感
可以处理不相关特征数据
可能会过度匹配
眼部状况和适配的隐形眼镜类型
朴素贝叶斯
计算某一点落在不同群落里的概率
利用条件概率
假定特征相互独立
在数据较少情况下仍然有效
可以处理多类别问题
对输入数据的准备方式较敏感
垃圾邮件检测
Logistic回归
划分两个数据集之间的分界线,类似回归
梯度下降算法
随机梯度下降
减少计算量
计算代价不高
易于理解和实现
容易欠拟合
分类精度可能不高
从病症预测死亡率
支持向量机SVM
将数据映射到高维空间更容易被分类
核函数
将数据映射到高维空间
径向基函数
流行核函数
泛化错误率低
计算开销不大
结果易理解
对参数调节和核函数的选择敏感
原始分类器不加修改仅适用于处理二类问题
元算法AdaBoost
不同算法集成
同一算法不同设置集成
不同数据集不同分类器
性能度量
正确率
预测为正例的样本中真正正例的比例
召回率
预测为正例的真实正例占真实正例的比例
无监督学习
K-均值聚类
设定簇个数
随机确定初始簇心
寻找各点最近的簇心
避免收敛到局部最小
度量效果
SSE误差平方和
后处理
将最大SSE簇拆分
合并
最近质心
使SSE增加最小的两个质心
二分K-均值
有一个簇不断一分为二
易实现
可能收敛到局部最小值
在大数据集上收敛较慢
对地图上的点进行聚类
Apriori算法
关联分析
频繁项集
关联规则
在大数据集上较慢
过会投票的模式
毒蘑菇相似特征
FP-growth算法
基于Apriori
结合树模型建模
比Apriori快
快于Apriori算法
实现困难
在某些数据集上性能会下降
从微博中发现共现词
新闻报道被查看的集合
降维
好处
使数据集更易使用
降低很多算法的计算开销
去除噪声
使结果易懂
PCAPrincipal Component Analysis主成分分析
以方差的大小来决定新的维度
降低数据的复杂性
识别最重要的多个特征
不一定需要
可能损失有用信息
半导体制造数据降维
SVDSingular Value Decomposition奇异值分解
从噪声数据中抽取相关特征
还是不懂!
矩阵分解
m行n列矩阵分解成三个矩阵相乘,分别m行m列,m行n列,n行n列
中间那个m行n列矩阵只有对角元素,且对角元素从大到小排列
对角元素称为奇异值
在某个奇异值的数据(r个)之后,其他奇异值都置为0
数据集中只有r个重要特征
简化数据
提高算法结果
数据的转换可能难于理解
隐性语义索引LSI/LSA
抽取文档中的概念
解决同义词问题
推荐系统
先利用SVD构建主题空间
再在该空间下计算相似度
图像压缩
保留奇异值
回归
线性回归
易于理解
计算不复杂
对非线性数据拟合不好
数据特征比样本多
岭回归
lasso
前向逐步回归
树回归
对数据进行二元切分
节点为数值或线性函数
可以对复杂和非线性数据建模
结果不易理解
0 条评论
回复 删除
下一页