Haddop
2020-06-09 09:44:39 0 举报
AI智能生成
hadoop知识点覆盖
作者其他创作
大纲/内容
Hadoop
分布式存储hdfs
NN元数据管理:Secondary NameNode的备份
nn的恢复机制
分段锁 + 双缓冲机制
checkpoint的条件
距离上一次checkpoint的数据量 > 100w条日志
距离上一次checkpoint的时间 = 1h
安全模式
阈值:99.9%
dn启动后会向nn上报block信息,判断是否缺失,即 完成的block/总block数 < 99.9% ?
dn会向nn发送心跳,判断存活的dn个数(默认是0)
判断磁盘空间是否充足,默认 > 100M
心跳机制
恢复副本
3s一次
rebalance 负载均衡
hdfs的读流程
1. 客户端与NameNode通讯获取文件的块位置信息,其中包括了块的所有冗余备份的位置信息:DataNode的列表2. 客户端获取文件位置信息后直接同有文件块的DataNode通讯,读取文件3. 如果第一个DataNode无法连接,客户端将自动联系下一个DataNode4. 如果块数据的校验值出错,则客户端需要向NameNode报告,并自动联系下一个DataNode
hdfs的读写流程
写异常时的解决方案
读发生错误时的解决方案
1、read过程中断了,则再连接另外一个近的副本去读取数据,此DN会告诉nn不再从哪个节点读取数据
2.读取数据不完整:读取数据时会带上从Nn获取到的checksum与读取完数据后的checksum做比较,不一致,则丢弃,从另一个节点重新读,并重新复制一份副本,干掉数据错误的节点上的副本
HA 方案
ZKFC -> Zookeeper
解决单点故障的方案
Linux的共享存储目录,可以存元数据
Zookeeper集群
一个NN存ZK
另一个NN取ZK
cloudera QJM方案
JournalNode集群
只要JN中存活的节点 > 0.5,集群即可正常提供服务
元数据 一份存磁盘,一份存JN
让主备自动切换
zk切换,来启动standby节点
zkfc进程监控NN的健康状况
分布式计算MapReduce
MapReduce运行原理
shuffle过程
数据倾斜的解决方案
自定义分区
Combine 精简输出数据
抽样和范围分区, TotalOrderPartitioner(采样器)
资源调度引擎yarn
yarn运行流程
yarn的调度器
FIFO scheduler
Capacity scheduler 容量调度器
Fairs scheduler 公平调度器
0 条评论
回复 删除
下一页