HIve核心组件图与HQL底层实现原理

2021-10-20 15:43:47   1  举报





Hive核心组件以及HQL底层实现原理

hive

hive基本原理图

hive转MR

模板推荐

作者其他创作

大纲/内容

5.提交job

3.定义Mapper和Reducer

解析器：将SQL字符串转换成抽象的语法书AST，这一步一般都用第三方工具库完成，比如：antlr、对AST进行语法分析，比如表是否存在，字段时候存在，SQL语义是否正确

1.获取MR临时工作目录

ExecDriver

1.进入程序，利用Antlr框架定义HQL的语法规则，对HQL完成词法语法解析，将HQL转换为为AST（抽象语法树）；2.遍历AST，抽象出查询的基本组成单元QueryBlock（查询块），可以理解为最小的查询执行单元；3.遍历QueryBlock，将其转换为OperatorTree（操作树，也就是逻辑执行计划），可以理解为不可拆分的一个逻辑执行单元；4.使用逻辑优化器对OperatorTree（操作树）进行逻辑优化。例如合并不必要的ReduceSinkOperator，减少Shuffle数据量；5.遍历OperatorTree，转换为TaskTree。也就是翻译为MR任务的流程，将逻辑执行计划转换为物理执行计划；6.使用物理优化器对TaskTree进行物理优化；7.生成最终的执行计划，提交任务到Hadoop集群运行。

HDFS

执行器：把逻辑计划转换成可以运行的物理计划。对于hive来说，MR/Spark

CLI (command-line-interface)、JDBC/ODBC(jdbc访问hive)、WEBUI(浏览器访问hive)

Query Optimizer执行器

Drive

JDBC

Meta strore

CliDriver

2.对Token进行解析，生成AST

Execution执行器

$HIVE_HOME/bin/hiveselect ....

CLI