Spark-02
2016-12-29 16:10:26 0 举报
Spark-02是一款高性能的分布式计算系统,它是由Apache软件基金会开发的。Spark-02具有强大的数据处理能力,可以处理海量的数据,并且支持多种数据源和多种数据处理方式。Spark-02采用了先进的内存计算技术,可以在内存中进行高效的数据处理,从而提高了数据处理的速度和效率。此外,Spark-02还具有丰富的API和工具,可以方便地进行数据分析、机器学习等任务。总之,Spark-02是一款功能强大、性能优越的分布式计算系统,适用于各种大数据处理场景。
作者其他创作
大纲/内容
MySQL
spark08
partition01 - 5w
spark06存储处理后数据
Spark 集群
spark07
partition07- 5w
spark05存储处理后数据
客户端我们在本地编写的spark程序
spark09
spark01存储10万条
partition02 - 5w
一個RDD,逻辑上代表一个HDFS文件,但是实际上,他是被分区的,分为多个分区,多个分区落在的spark集群不同的节点上比如RDD有35万数据,分为7个分区
提取30万条数据
Client
spark03存储10万条
提交spark程序
partition05 - 5w
HDFS或者Hive
partition04 - 5w
partition03- 5w
partition06 - 5w
spark02存储10万条
Spark集群
节点1.2.3上存储的数据,经过节点1.2.3 处理后,可能不会存储在原来的节点上,有可能会被存储在节点4, 5, 6的内存中在处理后,还可以进行继续处理,存放在节点7, 8, 9,所有结果一般放到内存中。处理结果可以存放发哦HDFS或者Hive中,或者存放在关系型数据库中,或者直接返回给客户端
spark04存储处理后数据
0 条评论
下一页
为你推荐
查看更多