登录免费注册

首页  流程图  详情

hadoop/spark体系

2017-02-22 12:52:53   0  举报





仅支持查看

Hadoop和Spark是两个著名的大数据处理框架，它们分别由Apache基金会开发和维护。Hadoop是一个分布式文件系统，它能够将大量数据存储在多个服务器上，并提供高可靠性和容错性。而Spark则是一个快速、通用、可扩展的大数据处理引擎，它支持多种数据处理任务，包括批处理、交互式查询、流处理等。 Hadoop和Spark可以结合使用，以实现更高效的大数据处理。例如，可以使用Hadoop来存储和管理数据，然后使用Spark来进行数据分析和挖掘。此外，Hadoop和Spark还支持多种编程语言，如Java、Python、Scala等，使得开发人员可以根据自己的喜好选择合适的语言进行开发。

作者其他创作

大纲/内容

SparkSQL

RMDBS

持久化

HDFS

运算

[Storm][MR][SPARK]

落地LOG

Scrapy爬虫

Hive

传输

可视化(Cborad)

Spark-Submit

Spark

实时/离线计算

日志采集端(flume)

返回R运算结果

Hive数据源

日志

R

SparkR

Kylin

HBase

消息队列(Kafka)

线上数据（埋点）

Saiku

分布式运算

Hadoop

Web站点

数据挖掘/机器学习

MapReduce(YARN)

sqoop

OLAP

SparkStream

Log4J

 收藏

立即使用

日志系统整体架构

 收藏

立即使用

hadoop/spark体系

 收藏

立即使用

 收藏

立即使用

动态数据源

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



HADOOP部署图

step with hadoop

step with hadoop