Spark 架构原理及大致运行流程
2020-03-17 17:26:16 0 举报
Spark 架构原理和大致运行流程图
作者其他创作
大纲/内容
Task 线程
3、启动Executor
2、让Worker启动Executor
节点/虚拟机
Executor 进程和Task 线程 ,他们主要就是负责执行 对RDD 的 partition 进行并行计算的。也就是执行我们对RDD 的定义,比如map、reduce、flatMap 等算子操作。
RDD 的partition
Master 在接收到 Spark 应用程序的注册申请以后,会发送请求给 worker,进行资源的调度和分配,其实就是分配多少 Executor。
1、Driver 启动后,向Master进行Spark 应用程序的注册
Spark 集群的节点之一,就是你提交Spark 程序的机器
节点,机器
我们编写的Spark 程序就在Driver上,由Driver 进程执行
Worker 是个进程,它主要负责两个事情:第一个是用自己的内存来存储RDD 的一个或多个partition;第二个就是启动其他的进程和线程对RDD 上的partition 进行处理和计算
当我们的Driver 进程启动以后,会做一些初始化的操作;在这个过程中。就会发送请求到Master上,进行Spark应用程序的注册,也就说让Master 知道,有一个新的Spark 应用程序要运行。
Spark1,Master
HDFS 数据
Driver 会根据我们对RDD 定义的 操作,提交一大堆task 去executor 上。
Executor 进程
5、初始化RDD,读取数据
4、Executor启动之后反向向Driver进行注册
把HDFS文件内容读取到多个 worker 节点上,形成内存中的分布式数据集,也就是 初始RDD。
7、Task 就会对RDD 的partition 执行一系列的算子操作,形成新的RDD
6、提交Task
Master 就是个进程,主要负责资源的调度和分配,还有集群的监控等。。。
Worker 接收到 Master 之后会为Spark 应用启动Executor,Executor 启动之后呢,就会方向向Driver 去进行反注册,这样一来,Drvier 就知道了,哪些Executor 是为它进行服务的。
Driver
5、Driver 注册了一些Executor 之后,就可以开始正式执行我们的 Spark 应用程序了。首先第一步就是创建初始RDD, 读取数据源。
收藏
收藏
0 条评论
回复 删除
下一页