hadoop/spark体系
2017-02-22 12:52:53 0 举报
Hadoop和Spark是两个著名的大数据处理框架,它们分别由Apache基金会开发和维护。Hadoop是一个分布式文件系统,它能够将大量数据存储在多个服务器上,并提供高可靠性和容错性。而Spark则是一个快速、通用、可扩展的大数据处理引擎,它支持多种数据处理任务,包括批处理、交互式查询、流处理等。 Hadoop和Spark可以结合使用,以实现更高效的大数据处理。例如,可以使用Hadoop来存储和管理数据,然后使用Spark来进行数据分析和挖掘。此外,Hadoop和Spark还支持多种编程语言,如Java、Python、Scala等,使得开发人员可以根据自己的喜好选择合适的语言进行开发。
作者其他创作
大纲/内容
SparkSQL
RMDBS
持久化
HDFS
运算
[Storm][MR][SPARK]
落地LOG
Scrapy爬虫
Hive
传输
可视化(Cborad)
Spark-Submit
Spark
实时/离线计算
日志采集端(flume)
返回R运算结果
Hive数据源
日志
R
SparkR
Kylin
HBase
消息队列(Kafka)
线上数据(埋点)
Saiku
分布式运算
Hadoop
Web站点
数据挖掘/机器学习
MapReduce(YARN)
sqoop
OLAP
SparkStream
Log4J
0 条评论
下一页
为你推荐
查看更多