Doris主题研讨
2023-01-15 12:09:29 15 举报
AI智能生成
Doris主题研讨总结
作者其他创作
大纲/内容
08年百度内部使用
13年固定位OLAP数据库
极速,易用,统一,实时的数据库
发展历程
高效列式存储
丰富的索引结构
针对高并发高吞吐的优化
向量化执行引擎
查询加速技术例如:物化视图
ClickBench排行第二,SelectDB第一嗷
查询性能优异
标准SQL语法,语法丰富,自定义函数
支持Mysql协议,可直接通过Mysql客户端访问
用户角度
FE:请求接入,管理,解析
BE:查询执行
升级部署简易,支持横向扩展
架构精简
多副本存储
横向扩缩容,数据自动负载均衡
稳定可靠
运维角度
支持多种数据同步方式
联邦查询,支持查询多种数据源
生态丰富
简单易用
优势
多场景支持,一套系统多种数据分析需求
未来发展
OLAP数据库
极速,易用,统一,实时的多模数据库
定位
Doris介绍与核心优势
通过字段进行预分区
分桶
分区
tablet数量=分区数*分桶数
Doris
预分区
shuffle过程
Shared-nothing
批量计算,实时性较差
通过yarn将计算和资源调度分开
与Hadoop体系区别
共享所有底层资源
事物支持性非常好
SMP架构
服务器有多个节点、CPU、本地内存
每个CPU可以访问所有内存
共享磁盘的,各节点内存独立,通过数据总线共享内存
NUMA架构
将多个节点通过网络连接
每个节点都是独立的机器
需要软件调度处理来支持复杂计算
对事物的支持较差
任务并行执行,支持高并发
数据分布式存储-本地化
横向扩展能进较强,容易进行弹性伸缩
底层多个pg库实例
单节点执行,然后汇总
GP
MPP架构
硬件架构
MPP架构特点和优点
提供托管服务,降低运维成本
完全支持存算分离,继续降本增效嗷
让简单的Doris变得更简单
优化Doris内核
share-nothing加share-stroage
云原生版本
提供技术支持和配套解决方案
基于Apache Doris的商业化产品
提供给大家极致性价比的选择,降本增效嗷
是什么
将最新开发成果反馈给Doris社区
商业化同时反馈社区
把简单的事情变得简单
从Mysql到Mysql
上云,走SAAS这条路
我们到底要的是一款什么要的数据库?
为什么还要SelectDB
安全行业
金融行业
电商行业
政企单位
出行
游戏
...
行业场景
实时数仓
替换Hive
离线数仓改造
分析报表
应用场景
不同场景下的落地思路
为什么是Doris
ES检索,Hive跑批
通过Doris的Multi-Catalog进行改造
通过Doris打通Hive和ES
实时和离线集成了
周其进老师分享
传统数据库无法支撑大量数据分析
前期pg库
数字政府业务,要求安全性,Hive存在漏洞
痛点
Doris多表关联
Doris性能优异
Doris生态优异,集成DS方便
谢东波老师分享
对接的业务方较多,工作量较大
需要支持多表,多源的查询
给上面三四个业务线提供大数据处理能力
社区支持粒度大,感谢社区嗷
快
小狼老师分享
表数据量太大,检索性能太差
支持高并发
团队nice
PB级别完全放心去替代Hive
张家锋老师分享
Doris适用场景
技术开发问题
生态组件对接问题
Doris自身问题
习惯了Hive的语法,但是Doris执行顺序与Mysql一致
正在跟进
Doris内存泄露问题
文档需要优化
小狼
复杂SQL支持
任务调度的可视化
HiveSql迁移到Doris SQL
周其进老师
使用Doris过程中遇到的问题
可扩展性很高
先运行起来,后面扩容。
先做查询提速,非常快速的实现。
可以参考一下分区分桶的文档,进行测试
支持不同压缩方式
大概32C或者16C即可
内存=CPU核数*4
32C可以带10T数据
10T数据来说,单表1-2个group维度
集群规模评估
操作系统参数
超过总CPU的核数时
前提:没有高并发的情况
parallel_fragment_exec_instance_num
默认1
推荐单台BE的CPU核数/2
BE执行并发参数可以调大
给到单台FE总内存的20%
最好比16G大
与批量插入有关
可以缓存到内存中
FE的JVM
参数默认1个G,可以适当调大一些
BE的1.2版本后有JVM
参数优化
SSD不存在这种问题
BE存储可以配置多个普通磁盘,4个最优
5T存储,推荐挂5个1T的盘哈哈
使用方式
最佳实践与性能优化思路
大佬分享Doris参与里程
聊聊你与Doris的故事
Doris研讨会
0 条评论
回复 删除
下一页