【人工智能原理】数据处理基础
2023-03-08 09:34:19 1 举报
AI智能生成
登录查看完整内容
根据阿里云人工智能助理工程师认证ACA整理
作者其他创作
大纲/内容
数据用于表示客观事物的【未经加工】的原始素材
数据是客观事物的属性、数量、位置及其相互关系的抽象表示
不仅指狭义上的【数字】,也包括具有一定意义的【文字】、【字母】、【数字符号】的组合
定义
定义:用于【描述性字段】,如 8月10日
特征:非量化值,【不可】直接用于运算
文本类
定义:用于描述【事件发生的时间】,如 8/10
特征:【可】直接用于运算
时间类
定义:描述【可量化属性/编码操作】,如 44783
数值类
按字段
定义:由【统一的结构】来逻辑表示和存储的数据
举例:表格数据
结构化数据
定义:【无预定义数据模型】,不可直接用数据库逻辑来表示的数据
举例:图像、文本、音频、视频、HTML
非结构化数据
定义:具有【结构化形式】,但并不符合【数据模型结构】
举例:XML、JSON、Email、日志文件
半结构化数据
按数据结构类型
分类
数据
抽取
转换
加载
利用装置从系统外部采集数据并输入到系统内部的技术
对象:【网页】中的数据
方法:API法、网络爬虫法
网络数据采集
对象:已转换成电信号的各种【物理量】
方法:传感器、摄像头、麦克风等端侧设备
端侧数据采集
对象:用户行为【日志】、业务变更【日志】、系统运行【日志】
方法:WebAPI方式、Service Proxy方式、LCClient方式
系统日志采集
对象:【数据库】中的数据
常用数据库:MySQL、Oracle、NoSQL数据库
数据库采集
常用方法
数据采集
在数据集用于模型训练【前】,把数据变换成适用于机器学习模型训练的【格式】或【形式】
含义:数据库实例中某些不为空的属性值是错误的
数据值错误
数据类型错误
数据编码错误
数据异常错误
依赖冲突
多值错误
属性错误
类别
删除错误值
视为缺失值
平均值修正
处理方法
数据【错误】
含义:同一数据在数据库实例中多次出现
duplicated()函数,返回True表示数据是重复的
检测方法
限制》统计》过滤》删除
数据【重复】
含义:数据表中某些属性值缺失或者包含无效值
检查不允许为空的属性值是否为空
isnull()函数用于判断各个单元格是否为空,返回True表示包含空值
直接使用含有缺失值的特征
删除含有缺失值的特征
缺失值插补
重新采集数据集
数据【缺失】
含义:不同类型的数据样本数量相差悬殊
扩充数据集
数据重采样
数据集【不均衡】
处理类型
消除指标之间的【量纲影响】,解决特征属性取值之间的【可比性】
目的
通过一定的变换方法,将样本的属性值【缩放】到某个【指定的范围】
定义:统一到[0,1]的范围内,基于最小值和最大值
最大最小值已知
适用场景
优点:保留了原始数据中数据与数据间的关系
最小最大标准化(min-max)
定义:统一为均值为0,方差为1,基于均值(mean)和标准差(standard deviation)
最大最小值未知,或有超出取值范围离群点情况
z-score标准化
min-max标准化【不要求】特征属性值符合【某种分布】
z-score标准化【要求】特征属性值需要符合【正态分布】
对比
常见方法
数据标准化
处理数据集【特征属性】、【标签】没有量化的情况
把数据从【字符串】类型转换成【数值】类型
定义:对于样本记录的取值,按照【大小关系】分别给每个值赋予一个【数值ID】
定序型/有序型的特征属性
样本记录之间有【距离】和【大小】区分的需求
转换后依旧保留了大小关系
优点
数据编码后有大小和距离的差异
编码后的结果和实际数据语义并没有直接关联
不足
Label编码
定义:对于一个有N个取值结果的特征属性,使用N个bit位来进行编码
特定类型的特征属性
数据编码后不会有大小和距离的差异
独热编码
数据编码
数据预处理
借助于【图形化手段】对数据加以解释
含义
统计图
类型
表示数据分布的情况
绘图方法
直方图
趋势图
显示在相等时间间隔下数据的趋势
折线图
分布图
比较跨类别的聚合数据
绘制方法
散点图
比例图
某个数据系列中各项的大小与各项总和的比例
饼状图
显示一组数据分散情况,包括最大值、最小值、中位数、以及上下四分位数
箱线图
典型图表
定义:一款全场景数据消费式的BI平台,可用于制作仪表盘、电子表格以及有分析思路的数据门户
强大的数据引擎
快速搭建数据门户
数据分析与交互
安全管控数据权限
特点
数据即时分析与决策
报表与系统集成
应用场景
QuickBI
定义:使用可视化应用的方式来分析并展示庞杂数据的产品,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用
多种场景模板,解决设计难题
多种图表组件,支撑数据展示
多数据源接入,大数据计算强
图形化搭建,快速实现应用
多分辨率适配,灵活发布应用
运营数据看板
地理数据看板
领导驾驶舱
指挥中心大屏
DataV
工具
数据可视化
通过分类、画框、标注等对语音、图片、文本数据进行处理,提高训练的准确度
语音识别
无人驾驶
证件识别
...
采集到的数据都需要进行数据标注后才能使用
在进行人工智能算法训练时,所训练数据的质量越高最后得到的模型预测效果越好
标注数据的准确性和数量决定了数据集的质量
重要性
2D和3D边框
图像分类
直线和曲线
多边形
语义分割
标注方法
目标检测
光学字符识别OCR
图像综合标注
标注类别
矩形框标注:需要让框刚好包围物体的边界
多边形标注:多边形的边框与物体的边缘紧密的贴合
标注质量标准
LabelImg
Labelme
标注工具
图像标注
分类标注
词性标注
实体标注
实体关系标注
文本标注要【情感】符合真实的句子情感
语义标注要标注正确的【语义】
多音字要符合字典中的【读音】
对文本分成【词语】
对词语进行【词性】的标注,比如形容词、名词、动词等
对文本中的【不感兴趣】的内容进行删除
去掉对文本的【含义无用】的词语,比如标点符号
文本标注
音频分类
音频分割
音频识别
音频中的语音是否【有效】
说话人的方言,标记是否有【口音】
说话人的数量,标注语音内容的【人数】
说话人的性别,标注第一个说话人的【性别】
音频是否有明显的噪音,标注是否有【噪音】
标注需要与发音内容完全一致,保证文字的【正确性】
语音标注
XML
JSON
CSV
常用文件格式
支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注
提供了丰富的标注内容组件和题目组件
支持自定义模板
概述
数据准备
创建标注任务
处理标注任务
导出标注结果
步骤
机器学习PAI平台
阿里云工具
数据标注
数据准备(处理)基础
0 条评论
回复 删除
下一页