structured streaming
2017-01-14 11:19:26 0 举报
Structured Streaming是Apache Spark的一个核心组件,它提供了一种可扩展、容错的实时数据流处理框架。与传统的批处理不同,Structured Streaming允许应用程序以低延迟方式连续处理实时数据流。通过与Spark SQL和DataFrame API的紧密集成,用户可以方便地使用SQL查询和复杂的数据处理逻辑来处理数据流。此外,Structured Streaming还支持窗口操作、状态管理和输出到各种存储系统(如文件系统、Kafka、HBase等)。总之,Structured Streaming为实时数据分析和机器学习提供了一个强大、灵活且易于使用的工具。
作者其他创作
大纲/内容
FileFormat
JdbcRelation
sourceSchema()
DataFrame
SparkSession
StreamingQueryManager
DataStreamReader
load()
baseRelationToDdataFrame
start()
HadoopFsRelation
DataSource
LogicalPlan
DataFrameReader
LeafNode
addBatch()
Source
RelationProvider
StreamExecution
LogicalRelation
schema
QueryPlan
commit()
run()
runBatcher()
DataStreamWriter
resolveRelation()
SparkPlan
startQuery()
DataSourceRegister
KafkaRelation
runBatch()
createQuery()
getBatch()
Sink
constructNextBatch()
TreeNode
getOffset()
microBatchThread
BaseRelation
0 条评论
下一页