数据仓库知识点
2025-06-25 09:16:52 0 举报
AI智能生成
数据仓库各环节插件
作者其他创作
大纲/内容
离线数仓
阿里系
技术框架
DataHub
数据总线
kafka+各种服务接口
MaxCompute
大数据计算框架
Hadoop+hive+调度器
DataWorks
可视化MaxCopute的开发管理平台
RDS
关系型数据库
QuickBi
可视化数据展示工具
Tableau Echarts Kibana
ECS
弹性服务器
技术选型
数据采集传输
阿里:Flume、DataHub、RDS
Flume
日志数据
Kafka
数据传输通道
maxwell\Sqoop、DataX、finkcdc
采集业务数据
数据存储
阿里:MaxCompute、DataWorks
MySql
业务数据
hdfs
离线 数据
Hbase、redis、mongodb
实时数据(要求读写性能快)
数据计算
阿里:MaxCompute、DataWorks
HIve
底层引擎MR
Spark、Flink、storm、tez
离线数据计算
SparkCore、Flink
实时计算
数据可视化
阿里:QuickBI
Tableau、Echarts、Kibana
数据查询
presto、clickhouse、doris、impala
子主题
实时数仓
阿里系
hologres flink
工具介绍
数据采集传输
Flume
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传
输的系统。Flume 基于流式架构,灵活简单
输的系统。Flume 基于流式架构,灵活简单
Source
主要负责采集工作,采用 TailDir 组件用于监控文件或文件夹的变化
主要负责采集工作,采用 TailDir 组件用于监控文件或文件夹的变化
Channel
扮演数据管道的角色,对数据进行缓冲。采用非持久化的 Memory 类型
扮演数据管道的角色,对数据进行缓冲。采用非持久化的 Memory 类型
Sink
把 Channel 中的数据输出到外部环境中,支持多种数据接口(HDFS、Kafka 等),此次
案例中我们的最终目标是数据到阿里云的数据总线中(DataHub),调试阶段可以先输出到
控制台中。
把 Channel 中的数据输出到外部环境中,支持多种数据接口(HDFS、Kafka 等),此次
案例中我们的最终目标是数据到阿里云的数据总线中(DataHub),调试阶段可以先输出到
控制台中。
主要是对日志进行采集
Kafka
数据的传输通道
DataX
是阿里巴巴开源的一个异构数据源离线同步工具
单进程多线程
不支持分布式,可使用调度器
Maxwell
Maxwell的实现原理很简单,就是将自己伪装成MySQL的Slave,并遵循Mysql主从复制的协议,从master中同步数据。
实时读取Mysql数据库的二进制日志–Binlog,从中获取变更数据,再将变更数据以Json的格式发送至Kafka等等流处理平台( Kafka并非唯一输出途径 )
实时读取Mysql数据库的二进制日志–Binlog,从中获取变更数据,再将变更数据以Json的格式发送至Kafka等等流处理平台( Kafka并非唯一输出途径 )
Sqoop
MR
支持分布式
Sqoop底层基于MapReduce程序模板实现。MapReduce提供了DBInputFormat和DBOutputFormat类,用于实现对数据库数据的导入和导出。
FlinkCDC
cdc
change data capture
数据存储
Mysql
HDFS
HBase
Redis
MongoDB
数据计算
HIve
Spark
Flink
Storm
Tez
数据查询
Presto
Kylin
Impala
Durid
ClickHouse
Doris
数据可视化
Superset
Echarts
Sugar
QuickBi
DataV
FineBI
PowerBi
任务调度
DophinScheduler
Azkaban
Oozie
Airflow
集群监控
Zabbix
Prometheus
元数据管理
Atlas
权限管理
Ranger
Sentry
实战知识点
如何确认集群规模
假设每台服务器16T磁盘 128g内存
每天活跃用户100w,每人每天100条: 100w*100条=1亿条数据
每条日制1k左右
100000000/1024/1024=100G左右
按照一年不扩容计算
100*365=36t
保存3个副本
预留20%-30%buf 36/0.7=52T
0 条评论
下一页