登录免费注册

首页  思维导图  详情

大数据框架

2024-02-22 09:00:57   35  举报





AI智能生成

大数据框架是一种用于处理和分析大规模数据集的软件工具集。它提供了一种可扩展、高吞吐量和容错的方式来处理海量数据，并支持多种数据处理任务，如数据清洗、转换、存储和分析。常见的大数据框架包括Hadoop、Spark、Flink等。这些框架通常基于分布式计算模型，利用多台计算机的并行处理能力来加速数据处理过程。此外，它们还提供了丰富的API和工具，使开发人员能够轻松地构建和管理大数据应用程序。总之，大数据框架为处理和分析大规模数据集提供了强大的支持，是现代数据驱动型企业不可或缺的基础设施之一。

数据采集

作者其他创作

大纲/内容

集群资源管理器

Hadoop

YARN

分布式协调服务

Zookeeper

数据迁移工具

Sqoop

任务调度框架

Azkaban

Oozie

集群部署和监控

Ambari

Cloudera Manager

日志收集框架

Flume

Logstash

Kibana

分布式文件存储系统

Hadoop

HDFS

特点

高容错

数据的多副本

高吞吐量

大文件支持

HDFS 适合于大文件的存储，文档的大小应该是是 GB 到 TB 级别

简单一致性模型

HDFS 更适合于一次写入多次读取 (write-once-read-many) 的访问模型

跨平台移植性

核心构成

NameNode

负责执行有关文件系统命名空间的操作

负责集群元数据的存储，记录着文件中各个数据块的位置信息

DataNode

负责提供来自文件系统客户端的读写请求，执行块的创建，删除等操作

数据库系统

Mongodb

HBase

特性

不支持复杂的事务，只支持行级事务，即单行数据的读写都是原子性的

由于是采用 HDFS 作为底层存储，所以和 HDFS 一样，支持结构化、半结构化和非结构化的存
储

支持通过增加机器进行横向扩展

支持数据分片

支持 RegionServers 之间的自动故障转移

易于使用的 Java 客户端 API

支持 BlockCache 和布隆过滤器

过滤器支持谓词下推

特点

容量大：一个表可以有数十亿行，上百万列

面向列：数据是按照列存储，每一列都单独存放，数据即索引，在查询时可以只访问指定列的数
据，有效地降低了系统的 I/O 负担

稀疏性：空 (null) 列并不占用存储空间，表可以设计的非常稀疏

数据多版本：每个单元中的数据可以有多个版本，按照时间戳排序，新的数据在最上面

存储类型：所有数据的底层存储格式都是字节数组 (byte[])

分布式计算框架

批处理框架

Hadoop

MapReduce

流处理框架

Storm

混合处理框架

Spark

Flink

优点

Flink 是基于事件驱动 (Event-driven) 的应用，能够同时支持流处理和批处理

基于内存的计算，能够保证高吞吐和低延迟，具有优越的性能表现

支持精确一次 (Exactly-once) 语意，能够完美地保证一致性和正确性

分层 API ，能够满足各个层次的开发需求

支持高可用配置，支持保存点机制，能够提供安全性和稳定性上的保证

多样化的部署方式，支持本地，远端，云端等多种部署方案

具有横向扩展架构，能够按照用户的需求进行动态扩容

活跃度极高的社区和完善的生态圈的支持

查询分析框架

Hive

Spark SQL

Flink SQL

Pig

Phoenix

 收藏

立即使用

 收藏

立即使用

 收藏

立即使用

架构设计环

 收藏

立即使用

程序员卡卡西

职业：本科













评论

0 条评论

下一页

为你推荐

查看更多



大数据联调流程

大数据技术架构图

大数据架构图

大数据技术架构

大数据架构图

大数据平台_数据治理平台_大数据

大数据平台_数据治理平台_大数据

大数据技术架构图

大数据平台架构图

大数据架构图

大数据治理平台系统架构



图形选择

思维导图

主题

补充说明

AI生成





修改AI描述

去编辑

重新生成

提示 

关闭后当前内容将不会保存，是否继续？

取消

确定