druid数据流
2016-11-17 12:38:08 0 举报
Druid是一个分布式的、面向列的、实时的数据流处理系统。它旨在为大规模数据集提供快速的查询和分析能力。Druid的核心组件包括数据源、数据摄取、数据存储和数据查询。数据源可以是任何支持HTTP协议的数据,如数据库、文件系统等;数据摄取负责将数据从数据源中读取并加载到Druid中;数据存储则是将数据以列式存储在内存中,以提高查询速度;数据查询则提供了多种查询方式,如时间序列查询、聚合查询等。Druid具有高并发、低延迟、可扩展等特点,适用于需要实时分析和查询大量数据的场景。
作者其他创作
大纲/内容
kafkaIndexService
sparkStreaming
API
kafka
业务日志
从数据源划分,日志数据分为实时流数据和离线数据;从摄入方式划分,分为实时节点摄入和索引服务摄入批量离线日志:hadoop方式:druid会提交一个mapreduce任务到hadoop集群,适合大批量的数据摄入索引服务:适合少量数据实时日志:pull:启动一个实时节点,通过不同的Firehose摄入不同的流式数据,如KafkaFirehose、RabbitMQFirehosepush:向索引服务中的统治节点发送一个HTTP服务,数据通过调用HTTP服务向druid发送数据(Tranquility是对索引服务底层API的封装)Tranquility它通过索引服务实现数据实时的摄入。它之所以存在,是因为Indexing service API属于底层API,Tranquility是对索引服务进行抽象封装, 对使用者屏蔽了创建任务,处理分区、复制、服务发现和shema rollover等环节。span style=\"font-size: inherit;\
tranquility
druid
业务系统
0 条评论
下一页