SparkSQL-Start
2016-11-17 07:51:50 0 举报
SparkSQL是Apache Spark的一个模块,它提供了一个编程接口来处理结构化数据。SparkSQL支持多种数据源,包括Hive、Parquet、JSON、JDBC等。它使用DataFrame API来进行数据处理和查询,支持SQL查询和复杂数据分析。SparkSQL还提供了一些高级功能,如窗口函数、聚合函数和UDF(用户自定义函数)。SparkSQL的目标是提供一个高性能、易于使用的数据处理平台,以满足大规模数据处理的需求。总之,SparkSQL是一个强大的工具,可以帮助您快速、高效地处理结构化数据。
作者其他创作
大纲/内容
DF API
部分一:结构化数据输入,变为DataFrame部分二:使用DataFrame进行数据操作,核心操作为SQL操作以及API操作(1)api以及sql各自示例(2)为什么已经有sql了,还需要api?能用SQL处理的就用SQL处理,API更灵活。(3)此处需要注意,hive表直接被sparksession加载为数据来源,可以直接使用sql处理,why?和创建tempview有什么区别?hivecontext?
RelationalDataBase
Hive Table
DataFrame
SQL
SparkSession
Json
TempView
Parquet
0. SparkSession支持将结构化数据转换为DataFrame(一种带scheme的特殊RDD),如图上红线部分此处各种输入示例,见http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes补充:1. SparkSession默认集成了对hive的支持,不再需要使用-Phive的方式编译spark源码2. 部分数据源需要将普通RDD转换为DataFrame,两种方式,见http://spark.apache.org/docs/latest/sql-programming-guide.html#interoperating-with-rdds
Input:Structured Data
Text
0 条评论
下一页