大数据技术栈
2015-11-15 17:23:26 1 举报
大数据技术栈是一套用于处理、存储和分析大规模数据集的工具和技术。它包括数据采集、数据存储、数据处理和数据分析四个主要环节。在数据采集阶段,常用的工具有Flume、Kafka等;在数据存储阶段,常用的数据库有Hadoop的HDFS、NoSQL数据库如MongoDB、Cassandra等;在数据处理阶段,常用的框架有MapReduce、Spark等;在数据分析阶段,常用的工具有Hive、Pig等。此外,还有一些辅助工具如Zookeeper用于协调分布式系统,Oozie用于工作流调度,HBase用于实时查询等。大数据技术栈的发展日新月异,不断涌现出新的技术和工具,为大数据分析提供了强大的支持。
作者其他创作
大纲/内容
Spark
\bPIG/HIve
KV Base
HDFS
cache 优化提速
MapReduce
MongoDB
\b改进基于Spark提速
为SQL定制 速度块削弱通用性 容错性
初始化基于MR速度慢
\bHBase
高级封装 易用
Impama
0 条评论
下一页
为你推荐
查看更多