Spark大数据框架
2022-09-01 15:07:11 0 举报
AI智能生成
登录查看完整内容
spark 分布式计算 大数据 框架
作者其他创作
大纲/内容
Sparksubmit
Yarn提交应用
启动ApplicationMaster
启动Driver线程
启动Executor进程
创建Executor计算对象
环境准备
通信原理
通信组件
通信环境
上下文对象SparkContext
RDD依赖关系
阶段划分
任务切分
任务调度
任务执行
应用程序执行
shuffle原理
实现过程
写流程源码
归并排序和读流程
shuffle
内存管理
性能优化
Spark源码分析
概念
原理
DStream创建
DStream转换
DStream输出
优雅关闭
Spark Streaming
Spark简介
创建Maven项目
Local模式
Standlone模式
Yarn模式
Spark运行环境
Driver
Executor
核心组件
Core
并行度
有向无环图
核心概念
Yarn Client模式
Yarn Cluster模式
提交流程
Spark运行架构
Spark框架
数据读取
数据保存
Spark SQL
RDD概念介绍
RDD实现原理
RDD执行原理
内存创建
外部存储文件
其他RDD创建
直接创建new
并行度与分区
RDD创建
map
mapPartitions
mapPartitionsWithIndex
flatMap
glom
groupBy
filter
sample
distinct
coalesce
repartition
sortBy
value 类型
intersection
union
subtract
zip
双value类型
partitionBy
reduceByKey
groupByKey
aggregateByKey
foldByKey
combineByKey
sortByKey
join
leftOuterJoin
cogroup
key value 类型
转换算子
reduce
collect
count
first
take
takeOrdered
aggregate
fold
countByKey
save 相关
foreach
行动算子
RDD算子
闭包检查
序列化方法和属性
Kryo 序列化框架
RDD序列化
血缘关系
窄依赖
宽依赖
依赖关系
Cache 缓存
CheckPoint 检查点
缓存和检查点区别
RDD持久化
RDD分区器
累加器
广播变量
数据结构
架构模式
三层架构模式
DataFrame
DataSet
RDD、DataFrame、DataSet互相转换
UDF函数、UDAF函数
数据模型
Spark Core
Spark大数据框架
0 条评论
回复 删除
下一页