首页  思维导图  详情



 



Doris主题研讨

2023-01-15 12:09:29   19  举报





AI智能生成

Doris主题研讨总结

学习笔记

Doris

大数据

数据库

技术分享

模板推荐

作者其他创作

大纲/内容

Doris介绍与核心优势

发展历程 

08年百度内部使用

13年固定位OLAP数据库

极速，易用，统一，实时的数据库

优势

查询性能优异

高效列式存储

丰富的索引结构

针对高并发高吞吐的优化

向量化执行引擎

查询加速技术例如：物化视图

ClickBench排行第二，SelectDB第一嗷

简单易用

用户角度

标准SQL语法，语法丰富，自定义函数

支持Mysql协议，可直接通过Mysql客户端访问

运维角度

架构精简

FE：请求接入，管理，解析

BE：查询执行

升级部署简易，支持横向扩展

稳定可靠

多副本存储

横向扩缩容，数据自动负载均衡

生态丰富

支持多种数据同步方式

联邦查询，支持查询多种数据源

未来发展

多场景支持，一套系统多种数据分析需求

定位

OLAP数据库

极速，易用，统一，实时的多模数据库

MPP架构特点和优点

预分区

通过字段进行预分区

Doris

分区

分桶

tablet数量=分区数*分桶数

shuffle过程

Shared-nothing

与Hadoop体系区别

批量计算，实时性较差

通过yarn将计算和资源调度分开

硬件架构

SMP架构

共享所有底层资源

事物支持性非常好

NUMA架构

服务器有多个节点、CPU、本地内存

每个CPU可以访问所有内存

共享磁盘的，各节点内存独立，通过数据总线共享内存

MPP架构

将多个节点通过网络连接

每个节点都是独立的机器

需要软件调度处理来支持复杂计算

对事物的支持较差

任务并行执行，支持高并发

数据分布式存储-本地化

横向扩展能进较强，容易进行弹性伸缩

底层多个pg库实例

单节点执行，然后汇总

为什么还要SelectDB

云原生版本

提供托管服务，降低运维成本

完全支持存算分离，继续降本增效嗷

让简单的Doris变得更简单

优化Doris内核

share-nothing加share-stroage

提供技术支持和配套解决方案

是什么

基于Apache Doris的商业化产品

提供给大家极致性价比的选择，降本增效嗷

商业化同时反馈社区

将最新开发成果反馈给Doris社区

我们到底要的是一款什么要的数据库？

把简单的事情变得简单

从Mysql到Mysql

上云，走SAAS这条路

Doris适用场景

行业场景

安全行业

金融行业

电商行业

政企单位

出行

游戏

...

应用场景

实时数仓

离线数仓改造

替换Hive

分析报表

不同场景下的落地思路

为什么是Doris

周其进老师分享

ES检索，Hive跑批

通过Doris的Multi-Catalog进行改造

通过Doris打通Hive和ES

实时和离线集成了

谢东波老师分享

痛点

前期pg库

传统数据库无法支撑大量数据分析

数字政府业务，要求安全性，Hive存在漏洞

Doris多表关联

Doris性能优异

Doris生态优异，集成DS方便

小狼老师分享

痛点

对接的业务方较多，工作量较大

需要支持多表，多源的查询

给上面三四个业务线提供大数据处理能力

社区支持粒度大，感谢社区嗷

快

张家锋老师分享

痛点

表数据量太大，检索性能太差

支持高并发

团队nice

PB级别完全放心去替代Hive

使用Doris过程中遇到的问题

技术开发问题

生态组件对接问题

Doris自身问题

小狼

习惯了Hive的语法，但是Doris执行顺序与Mysql一致

Doris内存泄露问题

正在跟进

文档需要优化

周其进老师

复杂SQL支持

任务调度的可视化

HiveSql迁移到Doris SQL

最佳实践与性能优化思路

集群规模评估

可扩展性很高

先运行起来，后面扩容。

先做查询提速，非常快速的实现。

可以参考一下分区分桶的文档，进行测试

支持不同压缩方式

10T数据来说，单表1-2个group维度

大概32C或者16C即可

32C可以带10T数据

内存=CPU核数*4

参数优化

操作系统参数

BE执行并发参数可以调大

前提：没有高并发的情况

超过总CPU的核数时

parallel_fragment_exec_instance_num <br>

默认1

推荐单台BE的CPU核数/2

FE的JVM

给到单台FE总内存的20%

最好比16G大

与批量插入有关

可以缓存到内存中

BE的1.2版本后有JVM

参数默认1个G，可以适当调大一些

使用方式

BE存储可以配置多个普通磁盘，4个最优

SSD不存在这种问题

5T存储，推荐挂5个1T的盘哈哈

聊聊你与Doris的故事

大佬分享Doris参与里程

 Collect

Get Started

蓝色风主题

 Collect

Get Started

Doris

 Collect

Get Started

Doris

 Collect

Get Started

Doris知识梳理





0 条评论

下一页