大数据框架
2024-02-22 09:00:57 35 举报
AI智能生成
登录查看完整内容
大数据框架是一种用于处理和分析大规模数据集的软件工具集。它提供了一种可扩展、高吞吐量和容错的方式来处理海量数据,并支持多种数据处理任务,如数据清洗、转换、存储和分析。常见的大数据框架包括Hadoop、Spark、Flink等。这些框架通常基于分布式计算模型,利用多台计算机的并行处理能力来加速数据处理过程。此外,它们还提供了丰富的API和工具,使开发人员能够轻松地构建和管理大数据应用程序。总之,大数据框架为处理和分析大规模数据集提供了强大的支持,是现代数据驱动型企业不可或缺的基础设施之一。
作者其他创作
大纲/内容
Hadoop
YARN
集群资源管理器
Zookeeper
分布式协调服务
Sqoop
数据迁移工具
Azkaban
Oozie
任务调度框架
Ambari
Cloudera Manager
集群部署和监控
Flume
Logstash
Kibana
日志收集框架
数据的多副本
高容错
高吞吐量
HDFS 适合于大文件的存储,文档的大小应该是是 GB 到 TB 级别
大文件支持
HDFS 更适合于一次写入多次读取 (write-once-read-many) 的访问模型
简单一致性模型
跨平台移植性
特点
负责执行有关 文件系统命名空间 的操作
负责集群元数据的存储,记录着文件中各个数据块的位置信息
NameNode
负责提供来自文件系统客户端的读写请求,执行块的创建,删除等操作
DataNode
核心构成
HDFS
分布式文件存储系统
Mongodb
不支持复杂的事务,只支持行级事务,即单行数据的读写都是原子性的
由于是采用 HDFS 作为底层存储,所以和 HDFS 一样,支持结构化、半结构化和非结构化的存储
支持通过增加机器进行横向扩展
支持数据分片
支持 RegionServers 之间的自动故障转移
易于使用的 Java 客户端 API
支持 BlockCache 和布隆过滤器
过滤器支持谓词下推
特性
容量大:一个表可以有数十亿行,上百万列
面向列:数据是按照列存储,每一列都单独存放,数据即索引,在查询时可以只访问指定列的数据,有效地降低了系统的 I/O 负担
稀疏性:空 (null) 列并不占用存储空间,表可以设计的非常稀疏
数据多版本:每个单元中的数据可以有多个版本,按照时间戳排序,新的数据在最上面
存储类型:所有数据的底层存储格式都是字节数组 (byte[])
HBase
数据库系统
MapReduce
批处理框架
Storm
流处理框架
Spark
Flink 是基于事件驱动 (Event-driven) 的应用,能够同时支持流处理和批处理
基于内存的计算,能够保证高吞吐和低延迟,具有优越的性能表现
支持精确一次 (Exactly-once) 语意,能够完美地保证一致性和正确性
分层 API ,能够满足各个层次的开发需求
支持高可用配置,支持保存点机制,能够提供安全性和稳定性上的保证
多样化的部署方式,支持本地,远端,云端等多种部署方案
具有横向扩展架构,能够按照用户的需求进行动态扩容
活跃度极高的社区和完善的生态圈的支持
优点
Flink
混合处理框架
分布式计算框架
Hive
Spark SQL
Flink SQL
Pig
Phoenix
查询分析框架
大数据框架
0 条评论
回复 删除
下一页