机器学习概述
2023-08-28 10:21:10 17 举报
AI智能生成
登录查看完整内容
机器学习是人工智能的一个分支,它的基本思想是通过训练数据和算法让计算机自动学习并改进其性能。机器学习算法通常根据训练数据集的特征来构建一个数学模型,然后用该模型对新的数据进行预测或分类。常见的机器学习任务包括回归、分类、聚类、推荐系统等。机器学习在许多领域都有广泛的应用,如自然语言处理、图像识别、医疗诊断等。随着大数据和计算能力的不断提升,机器学习正成为解决复杂问题的重要工具。
作者其他创作
大纲/内容
数据
算法
CPU主要适合I\\O密集型的任务
计算密集型的程序
易于并行的程序
GPU主要适合计算密集型任务
Google TPU介绍
CPU与GPU的区别
CPU 与 GPU的区别
计算力
人工智能发展必备三要素
机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展而来
人工智能和机器学习,深度学习的关系
机器学习概述
1956
人工智能元年
第一是起步发展期:1956年—20世纪60年代初
第二是反思发展期:20世纪60年代—70年代初
第三是应用发展期:20世纪70年代初—80年代中
第四是低迷发展期:20世纪80年代中—90年代中
第五是稳步发展期:20世纪90年代中—2010年
第六是蓬勃发展期:2011年至今
发展历程
人工智能的发展历程
指机器感知环境的能力,这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功的研究领域。
发展历史
计算机视觉(CV)
可用于理解、组织和分类结构化或非结构化文本文档
主要任务有句法分析、情绪分析和垃圾信息检测
文本挖掘和分类领域的一个瓶颈出现在歧义和有偏差的数据上
文本挖掘/分类
利用机器的力量自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)
机器翻译
指识别语音(说出的语言)并将其转换成对应文本的技术
鸡尾酒会效应(英语:cocktail party effect)是指人的一种听力选择能力,在这种情况下,注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。该效应揭示了人类听觉系统听觉系统中令人惊奇的能力,即我们可以在噪声中谈话
语音识别领域仍然面临着声纹识别和「鸡尾酒会效应」等一些特殊情况的难题
语音识别
自然语言处理(NLP)
机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理
固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具
固定机器人
移动机器人
分类
机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别
机器人
主要分支
从数据中自动分析获得模型,并利用模型对未知数据进行预测
机器学习
一行数据
样本
一列数据
特征
有些数据有目标值(标签值),有些数据没有目标值
数据类型一:特征值+目标值(目标值是连续的和离散的)
聚类算法
数据类型二:只有特征值,没有目标值
类型构成
用于训练,构建模型
训练集:70% 80% 75%
训练数据
在模型检验时使用,用于评估模型是否有效
测试集:30% 20% 25%
测试数据
数据分割
数据集
① 获取数据
缺失值
异常值
② 数据基本处理
使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
概念
会直接影响机器学习的效果
意义
将任意数据(如文本或图像)转换为可用于机器学习的数字特征
特征提取
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
特征预处理
指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
特征降维
包含的内容
为什么需要特征工程 ?
③ 特征工程
选择合适的算法对模型进行训练
④ 机器学习(模型训练)
结果达到要求,上线服务
没有达到要求,重新上面步骤
⑤ 模型评估
工作流程
机器学习工作流程
输入数据是由输入特征值和目标值所组成
定义
函数的输出可以是一个连续的值
回归 (regression)
输出是有限个离散值
分类 (classfication)
监督学习
输入数据没有被标记,也没有确定的结果。样本数据类别未知需要根据样本间的相似性对样本集进行类别划分。
输入数据是由输入特征值组成,没有目标值
有监督,无监督算法对比
无监督学习
训练集同时包含有标记样本数据和未标记样本数据
监督学习的训练方式
半监督学习训练方式
半监督学习
实质是make decisions 问题,即自动进行决策,并且可以做连续决策
强化学习的目标就是获得最多的累计奖励
监督学习和强化学习的对比
在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布
举例:给一个骰子,每次抛骰子抛到几就是几,这是独立;如果我要抛骰子两次之和大于8,那么第一次和第二次抛就不独立,因为第二次抛的结果和第一次相关
独立:每次抽样之间没有关系,不会相互影响
举例:给一个骰子,每次抛骰子得到任意点数的概率都是六分之一,这个就是同分布
同分布:每次抽样,样本服从同一个分布
独立同分布:i.i.d.,每次抽样之间独立而且同分布
IID独立同分布即假设训练数据和测试数据是满足相同分布的,它是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障
机器学习领域的重要假设
机器学习并不总要求独立同分布,在不少问题中要求样本数据采样自同一个分布是因为希望用训练数据集得到的模型可以合理的用于测试数据集,使用独立同分布假设能够解释得通目前一些机器学习内容已经不再囿于独立同分布假设下,一些问题会假设样本没有同分布
目前发展
独立同分布IID((independent and identically distributed)
Alphago进化史
Alphago 进化史
强化学习
算法分类
准确率: 预测正确数量与总样本数量的比例
精确率
召回率
F1-Score
AUC指标
分类模型评估
回归模型
- 相对均方误差(RSE): (预测值 减 真实值的平方和) 除以 (真实值的均值 减 真实值的平方和)
fi是预测值, yi是真实值
- 相对绝对误差(RAE): ( 预测值 减 真实值的绝对值的和) 除以 (真实值的均值 减 真实值的绝对值的和)
- 误差越小越好.
回归模型评估
- 原因: 模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来(区分标准太粗糙)
因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
欠拟合
机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅
过拟合
拟合
模型评估
输入 -> 多个层(每一个层有多个节点) -> 输出
神经网络
深度学习
0 条评论
回复 删除
下一页