大数据
2017-02-26 14:55:28 0 举报
AI智能生成
大数据是指规模庞大、复杂多样的数据集合,通常难以通过传统的数据处理工具进行捕捉、管理和处理。这些数据集合包括结构化数据、半结构化数据和非结构化数据。大数据的特点可以用“3V”来描述:大量(Volume)、多样性(Variety)和高速度(Velocity)。大数据技术涵盖了数据采集、存储、处理、分析和可视化等方面,它们在各个领域都有广泛的应用,如商业智能、市场营销、医疗保健、金融等。通过对大数据的分析,人们可以发现隐藏在数据中的模式、趋势和关联,从而做出更明智的决策。
作者其他创作
大纲/内容
Flume
Sqoop
与关系数据库交换数据
Kettle
ETL工具
Kafka
事实消息队列
Lucene
搜索引擎
Thrift
RPC
Hadoop
用户命令
Archive
创建一个hadoop档案文件
distcp
能从hadoop文件系统并行复制大量数据,一般用于在两个HDFS集群中传输数据
fsck
运行HDFS文件系统检查工具
jar
运行jar文件,向hadoop提交作业
HDFS
分布式文件系统
NameNode
主节点 :只有一个
接受用户操作请求
维护文件系统的目录结构
管理文件与block之间关系,block与datanode之间关系
DataNode
从节点
有很多个
存储文件
文件被分成block存储在磁盘上
文件有多个副本
MapReduce
分布式计算框架
JobTracker
主节点:只有一个
接受呼呼提交的技术按任务
把计算任务分配给TaskTrackers执行
监控TaskTracker的执行情况
TaskTracker
从节点:有很多个
执行JobTracker分配的计算任务
MR任务调度
FIFO批处理队列调度器
Capacity Scheduler 多用户容量调度器
FairScheduler 多用户公平调度器
特点
Scalable
Economical
Efficient
Reliable
Hbase
列式交互式数据库
Hive
MapReduce的SQL工具
Mahout
数据挖掘工具。
包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘
Zookeeper
集群管理
Redis
分布式缓存
收藏
收藏
0 条评论
下一页