大数据学习路线
2021-11-09 23:15:56 80 举报
AI智能生成
年轻人做一件事情的时候记得先考虑清楚!从入门到放弃
作者其他创作
大纲/内容
基础语法
面向对象
接口
容器
异常
泛型
反射
注解
I/O
语言基础
类加载机制
字节码执行机制
JVM内存模型
GC垃圾回收
JVM性能监控与故障定位
JVM调优
JVM虚拟机
并发编程基础
线程池
锁
原子类
并发容器
JUC并发工具类
并发/多线程编程
Java
类型系统
类和对象
函数和闭包
字符集/数组/集合
迭代器
Trait
模式匹配和正则
隐式转换
函数式编程范式
Actor编程
Scala
编程语言
字符串
数组
链表
堆
栈
队列
树
哈希
图
数据结构
查找
排序
基本算法
枚举
递归
贪心
分治
动态规划
回溯
算法思想
算法
数据结构和算法
体系结构和分层模型
ARP/RARP协议
IP/ICMP协议
TCP/UDP协议
DNS/HTTP/HTTPS协议
Session/Cookie/Token等概念
计算机网络
进程与线程
内存管理和调度
I/O原理
文件管理
操作系统
SQL语句书写
SQL语句优化
数据库规范化设计
事务/隔离级别/并发/索引等重要机制
数据库基础
单例
工厂
代理
策略
模板方法
观察者
适配器
责任链
设计模式
系统部署与安装
基本命令和配置
常用系统和网络管理
基本的shell编程
服务/软件部署
Linux系统
大数据开发基础
Centos
Ubuntu
.......
Linux操作系统
SecureCRT
Mobaxterm
Xshell
...
SSH终端
WinSCP
FileZilla
Transmit
FTP/SFTP工具
IDEA
Eclipse
IDE
Git
SVN
源码控制工具
Maven
Gradle
构建工具
基本开发工具
分布式数据采集和聚合框架
概念
Event:数据基本单元
Soure:数据的收集端
Channel:临时存储数据的管道
Sink:从Channel中取数据
Agent
组件
单Agent
串联Agent
并联Agent
架构模式
基本组件和架构
安装部署
HTTP Source
Avro Source
Kafka Source
Source
Menory Channel
JDBC Channel
File Channel
Channel
HDFS Sink
Avro Sink
Sink
Default Sink Processor
Load Balancing Sink Processor
Failover Sink Processor
Sink Processor
复制模式
多路复用模式
Selector
Timestamp Interceptor
Static Interceptor
Regex Interceptor
Interceptor
数据采集流程
Flume
开源数据收集引擎
input
filter
output
强大的插件功能
Logstash
数据采集
下载和配置安装
基本命令和使用
数据传输实战
Sqoop
DataX
数据迁移
MySQL
SQL Server
Oracle
关系型数据库
Redis
MongDB
Neo4J
InfluxDB
非关系型数据库
数据库
分布式、Rest风格的全文搜索引擎
作用
节点
集群
分片
副本
类型
文档
索引
路由
映射
基础概念
单节点方式
多借点集群方式
基础类型
复杂类型
数据类型
增/删/改/查
索引操作
分词
同义词
高亮
推荐
文档操作
结构化检索
全文检索
复合检索
特殊检索
基本检索
Metric聚合
Buckting聚合
Pipeline聚合
Matrix聚合
基本聚合
基本操作(含API使用)
集群状态
集群扩展
集群安全
集群监控
集群备份
集群运维
写入优化
检索/聚合优化
索引优化
磁盘读写优化
数据模型优化
集群部署优化
调优
Elasticsearch
搜索引擎
Hadoop分布式文件系统
Blocks
NameNode
DataNode
基本架构
高容错
高吞吐量
大数据量支持
平台主要特点
基本概念和架构
创建目录/文件
删除文件/目录
查看文件内容
导入/导出文件
拷贝/修改文件
....
命令行接口
对应的API编程接口
基本使用
数据读写原理
数据复制和原理
副本策略
路由策略
心跳机制
快照机制
缓存机制
认证机制
核心机制理解
HDFS
GlusterFS
KFS
Ceph
Tachyon
分布式文件系统
面向列的分布式数据库
NameSpace
Table
Row
Column
TimeStamp
Cell
基本数据模型
Client
ZooKeeper
Master
Region Server
Standalone/伪集群模式
集群模式
安装部署和环境搭建
状态/版本/Help命令
表操作
增删改查
基本Shell命令
常用操作
存储原理
读写流程
复制原理
负载均衡原理
容灾与备份机制
宕机恢复和故障处理
重要机制和原理
HBase
分布式数据库
一款构建在Hadoop之上的数据仓库
CLI
Web GUI
JDBC/ODBC
用户接口
元数据服务
MetaStore
SQL的解析器、编译器、执行器、优化器
Driver
HiveServer2
beline
Hive架构
内嵌模式
Local模式
远程模式
整型
浮点型
日期
布尔
基本数据类型
array
map
struct
复杂数据类型
基本shell命令
Hive service
Hive基本命令
创建数据库
修改数据库
删除数据库
查看数据库
数据库操作
创建表
复制表
克隆表
临时表
内部表
分区表
分桶表
修改表名
修改表字段
修改表的属性
修改表
查看表
删除表
清空表
数据表操作
库表定义
插入数据
导入数据
导出数据
查询数据
设置支持事务操作
删除数据
修改数据
数据操作
创建分区
添加分区
删除分区
查看分区
修复分区
重命名分区
动态分区
分区操作
创建
加载
使用
分桶操作
查看
更新
删除
索引
修改
视图
数值修改
字符串函数
时间函数
日期函数
条件函数
聚合函数
自定义函数
函数
order by全局排序
sort by局部排序
distribute by分区排序
cluster by
Windows子句
序列函数
窗口函数
fetch抓取策略
join优化
group by优化
count优化
表数据压缩
数据倾斜问题
并行执行机制
严格模式
JVM重用机制
推测执行机制
Hive
ClickHouse
Pig
Lylin
Presto
数据仓库
数据存储
分布式计算编程框架,用于便写针对于大数据的批处理程序
基本概念
输入
拆分
映射
输出
主要工作流理解
作业配置
作业提交/监控
作业输入/输出
任务运行
Mapper/Reducer/Driver编写实现
Combiner/Partitioner编写实现
编程实践
作业通信协议
作业提交与初始化
任务分配和执行
JobTracke内部实现
TaskTracke内部实现
Task运行过程
重要机制理解掌握
MapReduce
分布式计算框架
Locall模式
Standalone模式/HA
Spark on Yam模式
Spark部署模式
RDD概念
RDD创建
操作RDD
RDD缓存
宽窄依赖
DAG
常用转换/行动算子
键值对操作
连接/聚合操作
数据分区
函数传递
RDD核心
广播变量
累加器
分布式共享变量
Spark-Code
Spark子模块,主要用于操作结构化数据
DataFrame
DataSet
编程抽象
DataFrame/DataSet创建和转换
基本的结构化操作
各种数据类型的处理
聚合操作
连接操作
Spark-SQL
Spark流式计算子模块
输入/输出
转换
DStream核心
聚合Kafka等
实战练手
Spark-Streaming
Spark机器学习子模块,包含各种高级分析工具包和算法
基础编程接口
特征提取
特征转换
特征降维
特征选择
特征工程
逻辑回归
朴素贝叶斯
KNN
决策树
随机森林
梯度增强树
广义线性回归
子主题
..
分类/回归
GMM高斯混合
LDA
无监督学习
交替最小二乘法(ALS)
推荐系统
深度学习
算法应用实践
Spark-MLlib
核心组件
Spark
分布式实时计算框架
简介
Topologies拓扑
Spouts数据源
Bolts数据流处理组件
Streams数据流
Tuple元组
Reliability
Tasks
Workers
核心概念
Nimbus进程
Supervisor进程
Worker进程
Executo线程
Zookeeper
核心框架
基本概念和框架
单机环境
集群环境
开发环境搭建
Shuffle Grouping随机分组
Field Grouping按字段分组
Global Grouping全局分组
Direct Grouping指向型分组
数据分组策略
Worker数量
Executor数量
Task数量
Acker设置
并行度配置
Rebalance再平衡
修改运行中的拓扑的并行度
并发机制
Worker进程间的数据通信
Worker内部的数据通信
Worker内部的消息传递机制
通信机制
集群节点故障
当Worker进程挂掉
当Nimbus进程挂掉
当Supervisor进程挂掉
进程挂掉
消息的完整性处理
消息的生命周期
相关的可靠性API
消息的可靠性
容错机制
重要机制掌握
本质:编写各个类的实现,以及数据源输入的编写
设计Topolog结构
实现Spout接口
继承BaseRichSpout抽象类
Spout数据源
实现Bolt接口
继承BaseRichBolt抽象类
Bolt处理单元
TopologBuilder
编写数据流
Storm编程模型
集成HDFS
集成Hbase
集成Kafka
集成Redis
Storm其他编程实战
Storm
开源流处理架构
提供编程API和类库
APIs & Libraries层
计算框架的核心实现
Runtime Core层
不同平台上部署
Deploy层
分层架构
JobManager
TasManager
运行组件
SQL/Table API
DataStream API
DataSet API
ProcessFunction
分层API编程
Standalone Cluster/Standalone Cluster HA
Flink on Yam
Flink on K8s
开发环境安装部署
文件数据源
聚合数据源
Socker数据源
内置数据源
Kafka Connector
HDFS Connector
Redis Connector
Connectors连接器
SourceFunction
ParallelSourceFunction
自定义数据源
数据源Source
Map
Filter
Reduce
Fold
DataStreamTransformations
Random partitioning
Reblaancing
Rescaling
Broadcasting
Custom partitioning
Physical partitioning
Task chaining and resource groups
数据转换Transfirmation
Collection-based-sink
File-based-sink
Streaming Connectors
....
数据输出Sink
数据处理(流操作)
滚动窗口
滑动窗口
会话窗口
时间窗口
计数窗口
窗口类型
全局窗口
分配器Assigner
ReduceFunction
AggregateFunction
FoldFunction
ProcessWindowFunction
窗口函数Function
EventTimeTrigger
ProcessingTimeTrigger
CountTrigger
PurgingTrigger
其他自定义触发器
触发器Trigger
驱逐器Evictor
收集器Collector
数据延迟
测流输出
Watermark
其他特征
窗口机制
Checkpoint
Savepoint
State
其他主要机制
Flink
通用计算
数据处理
DB
文件
FTP服务器
数据加工输出
统计报表
数据推荐/预测
关键指标度量
数据大屏
数据地图
数据仪表
智能图表
模型决策
流程优化
风险控制
智能预警
增值服务
数据价值和应用
基于Web方式的大数据集群配置、管理和管理工具
Ambari Server
Ambari Agent
体系架构
安装配置
部署/管理Hadoop集群
实战
Ambari
Cloudera开发的一款大数据集群安装/管理/监听利器
Server
Management Service
Database
Cloudera Repository
Client
主要成分
部署/管理Hadoop集群
Cloudera Manager
集群部署/管理/监控
资源管理框架
执行流程理解
YARN
一个开源的工作流调度引擎
workflow
coordinator
bundle
主要组件
提交任务
启动任务
开始任务
停止任务
查看任务执行
常用命令
Oozie
工作流调度系统
Job
Flow 1.0
Flow 2.0
Flow
WebServer
Executor Server
架构
Azkaban
资源管理/任务调度
开源分布式协调服务、分布式服务管理框架
集群环境
安装搭建
简单的数据模型
构建集群
顺序访问
高可用
设计目标
Leader
Follower
Observer
集群角色
持久节点
临时节点
顺序节点
数据节点
znode结构
节点信息
会话(Session)
ACL策略
Watcher
广播模式
恢复模式
ZAB协议
核心概念
help
ls/ ls2
set / get
stat
create / delete
常用CLI命令
使用最广泛
Curator
zkClient
客户端
数据分布/订阅
Master选举
分布式锁/分布式队列
分布式协调/通知
集群管理
应用场景
集群高可用
高吞吐量的分布式分布订阅消息系统、分布式的流处理平台
Message
Topic
Partition
Consumer
Broker
基本概念/架构
\bZookeeper集群搭建
kafka集群搭建
集群安装搭建
系统页缓存
批处理
零拷贝技术
数据压缩
负载均衡
分区机制partition
副本机制
leader选举算法
消息持久化
核心机制
创建生产者
属性设置
同步
异步
发送消息
分区
序列化
写入流程
生产过程
存储方式
存储策略
存储结构
Broker保存消息
创建消费者
订阅主题
轮询
提交
再均衡
消费者组
消费过程
工作流程理解
创建topic
查看topic
创建provider
创建comsumer
命令行
Producer API
Consumer API
Streams API
Connect API
Admin API
API使用
常规的消息系统
系统间解耦
峰值压力缓冲
异步通信
流处理
kafka
其他中间件技术
大数据集群周边技术
自由主题
大数据学习路线
0 条评论
回复 删除
下一页