大数据领域存储对比
2017-04-06 07:17:45 0 举报
大数据领域的存储技术主要包括关系型数据库、非关系型数据库和分布式文件系统等。关系型数据库如MySQL、Oracle等,适用于结构化数据的存储和管理,具有事务一致性和ACID特性;而非关系型数据库(NoSQL)如MongoDB、Cassandra等,则适用于半结构化或非结构化数据的存储,具有高可扩展性和高性能。分布式文件系统如HDFS、GlusterFS等,则适用于大规模数据存储,具有高容错性和高可用性。不同的存储技术有各自的优势和适用场景,需要根据实际需求进行选择。
作者其他创作
大纲/内容
核心优势
大规模scan性能很弱,不适合OLAP业务
核心劣势
一统大数据各种负载
随机更新写入、随机读支持有限,不适合OLTP业务
仅支持Hive/SparkSQL的OLAP场景,Impala引擎使用需要一定关注
随机读写性能最好,适合OLTP业务
适用场景
统一大数据领域OLTP与OLAP,但目前还不成熟
用户画像:既需要少量更新、又需要随机读、批量读分析
写入更新、随即读、scan读性能都好目标-统一大数据领域OLTP与OLAP
1. 数据导入性能较差2. 目前只支持SparkSQL,对其他引擎支持度不高3. 系统目前不稳定
常见的OLAP场景,不需要更新场景
对Hive支持度高、支持Update、支持ACID
OLTP:高吞吐量写入\\随机读\\小范围scan\\
对Impala、Hive、spark等支持都很友好对复杂嵌套结构支持友好
OLAP:大范围scan\\数据分析类场景
系统目前不稳定,当前只支持Impala,对谓词下推等支持还不完善
scan性能最好、HDFS比较成熟、计算引擎支持度高,适合OLAP业务
数据仓库
1. 写入更新、随机读、scan读性能都有一定保证2. 三级索引、全局字典、列族等技术保证性能
流数据存储、消息存储系统、历史订单系统、日志查询系统、监控系统、历史影片观看纪录系统、搜索存储系统等等...
不支持更新、不支持随机读
1. 对Impala支持度低2. 对复杂嵌套结构支持不够友好3. 随机读支持不好
应用示例
0 条评论
下一页