大数据技术
大数据原理概述
2004年 Google GFS、MapReduce、BigTable
2006年 Hadoop
2011年Pig、Hive
2012年Tarn、Spark
流计算Flink、SparkStreaming
数据外键与机器学习TensorFlow
分布式系统HDFS
以流式数据访问模式存储超大文件
运行于硬件集群上
一次写入多次读取
NameNode中心服务器
DataNode文件存储在磁盘上
大数据计算框架MapReduce
map函数 分词
reduce函数排序、合并
大数据集群资源管理系统Yarn
ResourceManager资源管理器
每个应用的ApplicationMaster
NodeManager节点管理器
大数据仓库Hive
核心是Driver把SQL,compiler转换为MapReduce能处理的数据结构
快速大数据引擎Spark
DAG有向无环图切分的多阶段计算更快速
使用内存存储中间计算结果更高效
RDD的编程模型更简单
实时流式大数据Flink、Storm、Spark Streaming
低延迟
高性能
分布式
可伸缩
高可用
大数据分析
数据大屏
数据指标
新增用户数
用户留存率
活跃用户数
PV
GMV
转化率
数据挖掘
PageRank算法
KNN分类算法
数据距离算法
欧式距离计算公式
余弦相似度计算公式
提取文本的特征值 TF-IDF 算法
贝叶斯分类算法
K-means聚类算法
推荐引擎算法
区块链技术
将交易放入区块,将区块构成单向链表,即区块链,以避免双花