目标确定
数据分类
数据库:不同的数据库数据源不同,如MySQL、Orcale、SQL Server等
数据场景:不同业务场景具有不同的数据指标,如字段类型、约束条件等
清洗后的数据:脏乱差的原始数据经过加工清洗之后的数据
数据抽取方法
时间戳方式:基于快照变化的数据捕获方式,再源表上增加时间戳列
日志表方式:通过分析数据库自身的在线日志判断变化数据
全表比对方式:全表比对方式要事先为抽取的表建立结构类似的临时表
触发器方式:在源数据表上建立insert、update和delete等触发器
数据清洗类型
脏数据(缺失数据、错误数据)的排除
重复数据检索
无效数据(空值)检索
不一致数据(数据源内部和数据源)的 检测
数据存放来源
纸质数据:最原始的数据存储方式,保密性强,不好存储、不好查取、不好删改
Excel:一般在非常小型的创业公司里,没有OA、ERP系统,也没有数据库
爬虫:从网络上直接获取的数据一般价值不大,而且安全性很差
软件系统:将原始数据存储于数据库里,再通过ERP由数据岗位导出分析
数据库:又称关系型数据库,比如MySQL、Orcale、SQL Server等
SQL 与sqlserver 的关系
数据库是存放数据的库
SQL是结构化查询语言,是一种数据库查询和程序涉及语言,用于存取数据及查询、更新和管理关系数据库系统
DBMS是数据库关系系统,包括MySQL、Oracle、SqlServer、Hadoop等,用来创建和操纵数据库
数据库的分类
关系型数据库模型:把复杂的数据结构归结为简单的二元关系,MySQL和Oracle数据库,而互联网场景最常用的是MySQL数据,它通过SQL结构化查询语言来存取、管理关系型数据库的数据
非关系型数据库:NOSQL数据库为了灵活及高性能、高并发而生,忽略影响高性能、高并发的功能,最典型产品为Redis(持续化缓存)、Mongodb、Memcached(纯内存)等,NOSQL数据库没有标准的查询语言(SQL),通常使用REST式的数据接口或者查询API