大数据平台
2022-05-05 11:20:48 0 举报
AI智能生成
登录查看完整内容
大数据平台
作者其他创作
大纲/内容
用户画像
风险控制
业务相关
数据科学的领域,了解统计学、算法
数据科学家
决策相关
如何实施、实现、解决什么业务
数据工程师
工程相关
工作应用
特点决定数据采集和数据存储的技术选型
Hadoop
mongo
Apache Kafka
ORACLE
CRM
内部主动写入
调用api获取,如微信
获得外部数据本身提供的api
写爬虫获取
ETL,由ETL进行数据提取、转换、加载,清洗、去重、去噪
数据结构不一致,需要转换和清洗加工
特点
外部网络拉取
内外部
结构化偏向文件,NoSQL数据库
结构化和非结构化数据
增量同步策略
前
后
不变可添加数据,可修改可删除数据
batch处理方式
高延迟
流式处理
实时分析
Lambda架构
大
数据量大小
四种
数据源
poly-db数据冗余生态
相同数据多种表现形式,存储不同类型数据库中
数据源的类型和采集方式
采集后数据的格式和规模
分析数据的应用场景
三种
按数据源分类
选择用ES,在单机上做了一个简单的测试,大概三亿多条数据,用最坏的查询条件进行搜索,保证这个搜索是全表搜索(基于Lucence创建了索引,使得这种搜索更高效),整个查询时间能控制在几秒以内
舆情分析
场景一
对数据集进行分析(聚合运算为主)
Parquet列式存储
既要满足大数据量的水平可伸缩
同时满足高性能的聚合运算
要求
场景二:商业智能产品
大量的事件
本身的业务数据
数据来源
日志数据通过Kafka
为什么不是flume,这里是指已经得到后的考量?
线上通过Sqoop
数据存储选择HDFS
通过Presto对Hive表执行 即席查询
技术处理:
场景三:Airbnb大数据平台
场景
数据存储
查询检索
数据挖掘
统计分析
机器学习
神经网络
深度分析
业务角度
Batch SQL
machine learning
Deep learning
技术角度
离线编程模型
内存编程模型
实时编程模型
编程模型
数据处理
工程核心
分支主题 3
大数据平台
0 条评论
回复 删除
下一页