大数据
2016-05-14 16:06:19 196 举报
AI智能生成
大数据相关学习产品
作者其他创作
大纲/内容
大数据
Hadoop
用户命令
Archive
创建一个hadoop档案文件
distcp
能从hadoop文件系统并行复制大量数据,一般用于在两个HDFS集群中传输数据
fsck
运行HDFS文件系统检查工具
jar
运行jar文件,向hadoop提交作业
HDFS
分布式文件系统
NameNode
主节点 :只有一个
接受用户操作请求
维护文件系统的目录结构
管理文件与block之间关系,block与datanode之间关系
DataNode
从节点
有很多个
存储文件
文件被分成block存储在磁盘上
文件有多个副本
MapReduce
分布式计算框架
JobTracker
主节点:只有一个
接受呼呼提交的技术按任务
把计算任务分配给TaskTrackers执行
监控TaskTracker的执行情况
TaskTracker
从节点:有很多个
执行JobTracker分配的计算任务
MR任务调度
FIFO批处理队列调度器
Capacity Scheduler 多用户容量调度器
FairScheduler 多用户公平调度器
特点
Scalable
Economical
Efficient
Reliable
Hbase
列式交互式数据库
Hive
MapReduce的SQL工具
Mahout
数据挖掘工具。
包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘
Zookeeper
集群管理
Redis
分布式缓存
Flume
Sqoop
与关系数据库交换数据
Kettle
ETL工具
Kafka
事实消息队列
Lucene
搜索引擎
Thrift
RPC
收藏
收藏
0 条评论
回复 删除
下一页