大数据学习
2023-05-19 16:59:57 1 举报
AI智能生成
登录查看完整内容
大数据学习
作者其他创作
大纲/内容
数据体量巨大
数据类型繁多
处理速度快
大数据特点
全样而非抽样
效率而 非精确
相关而非因果
大数据特征
可视化分析
数据挖掘算法
预测性分析能力
语义引擎
数据质量和数据管理
大数据的5个基础方面
预测分析
NoSQL数据库
搜索和认知商业
流式分析
内存数据结构
分布式存储系统
数据可视化
数据整合
数据预处理
数据校验
十大最热门的大数据技术
数据分析挖掘
场景化解决方案
数据采集和预处理
大数据的产品和服务
金融
政府
电信
教育
医疗
数据的实际应用案例集中领域
产业生态日趋成熟
数据产品的直接销售
提供数据采集和预处理服务
构建平台撮合交易
大数据盈利最主要的三类模式
商业交易营收低迷
互联网和金融行业持续领跑,大数据理念渗透和应用项目落地实施的程度最高
交通运输、医疗健康、公共管理、能源、制造和科教等行业的大数据应用处于中端
宿餐饮和农业等行业处于低端
大数据建设水平
一方面是由于项目实施成本高,这与自行建设分析平台和自行组织并培养数据分析团队有直接的关系
另一方面则是由于企业战略的模糊和企业组织结构变革滞后等原因的掣肘
企业形成对大数据项目费用的敏感性
数据价值落地仍需时间
中国大数据产业生态的总体状况概览
大数据概述
尿布与啤酒
淘宝促销时间
公交一人一座
案例分析
本质是信用,评估贷款风险
客户生命周期管理,客户关系化管理
可穿戴设备,健康云帮助智能设备,帮助人们健康预测,打通数据,快速响应
健康
更科学的媒介选择,效果评估服务等
媒体广告
店址选择,天气数据加入物流模式
零售服务
交通管理,为保险公司提供风险评估
交通
自然源分析,舆情检测服务
智慧交通、智慧医疗、平安城市等
智慧城市
通过大数据平台挖掘潜在客户,精准营销服务
房地产
智能摄像头家里发生的各种情况、食品购需,家里情况了解
家居家电
行业应用
大数据应用
HDFS(Hadoop)
Linux Ext4/NFS
文件系统
Cassandra
PostGreSQL/Mysql
数据仓库(InfoBright)
Elastic Search
分结构化数据 全文检索
数据管理
机器学习
类sql检索
分布式技术(Spark)
NLP处理API
数据订阅
ELK Lettle
业务规则引擎
流式实时计算(Storm)
业务计算
SPSS
SAS
R
统计性分析
SPSS Modeler
Weka
数据挖掘
TableAU
ECharts
D3
在线可视化
JAVA
Python
工具/语言
分析工具
大数据生命周期
Ambari
Zookeeper
Hbase
Oozie
Hive
Pig
Mahout
MapReduce
HDFS
Sqoop
Flume
Hadoop生态体系
迭代计算
批处理计算
内存计算
流式计算(Spark Streaming)
数据查询分析计算(Shark)
图计算(GraphX)
Spark提供强大的内存计算引擎
Scala
应用框架
Shark
Phoenix
Apache Accumulo
Apache Drill
Apache Giraph
Apache Hama
Apache Tez
Apache Ambari
基于性能、兼容性、数据类型的研究
Spark生态体系
Apache Mesos
Apache 的YARN
Google 的Borg
腾讯搜搜的Torca
Facebook Corona
大数据技术生态
管理信息系统
Web信息系统
物理信息系统
科学实验系统
大数据采集来源
管理信息系统中异构数据库集成技术
Web信息系统中的实体识别技术和DeepWeb集成技术
传感器网络数据融合技术
技术领域
Data Flux
Data Stage
Informatica Power Center
数据清洗和质量控制工具
大数据采集与预处理
大规模的结构化数据
半结构化和非结构化数据
结构化和非结构化混合的大数据
按数据类型的不同,大数据的存储和管理采用不同的技术路线
大数据存储与管理
大数据查询分析计算
流式计算
图计算
典型大数据计算模式
大数据计算模式与系统
迭代性
容错性
参数收敛的非均匀性
因而与传统的OLAP相比较,基于机器学习的大数据分析具有自己独特的特点
传统的分布式计算框架MPI(message passing interface,信息传递接口)
Spark
参数服务器
演变过程
可视化
大数据分析与可视化
数据采集
数据存储
数据分析
大数据平台内容
内部数据
外部数据
非结构化数据&结构化数据
不变可添加
可修改可删除
大数据量
数据源的特点
舆情分析
商业智能产品
Airbnb的大数据平台
数据存储的技术选型
查询检索
统计分析
深度分析
业务角度
batch MapReduce
SQL
流式处理
Machine Learning
DeepLearning
技术角度
离线编程模型
内存编程模型
实时编程模型
编程模型
数据处理的分类
大数据平台架构技术选型与场景运用
技术体系
PaaS
SaaS
IaaS
云服务
Openstack
Docker
云计算
聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络
人工智能
RDD
Spark SQL
Spark Streaming
MLLib
创建一个Hadoop档案文件
Archive
能从hadoop文件系统并行复制大量数据,一般用于在两个HDFS集群中传输数据
distcp
运行HDFS文件系统检查工具
fsck
运行jar文件,向Hadoop提交作业
jar
用户命令
Scalable
Economical
Efficient
Reliable
特点
分布式文件系统
只有一个
主节点
接受用户操作请求
维护文件系统的目录结构
管理文件与block之间的关系,block与DataNode之间的关系
NameNode
有很多个
从节点
存储文件
文件被分成block存储在磁盘上
文件有多个副本
DataNode
HDFS(分布式文件系统)
分布式计算框架
接受呼呼提交的技术按任务
把计算任务分配给TaskTrackers执行
监控TaskTrackers的执行情况
JobTracker
执行JobTracker分配的计算任务
TaskTracker
FIFO批处理队列调度器
Capacity Scheduler 多用户容量调度器
FairScheduler 多用户公平调度器
MR任务调度
MapReduce(计算框架)
Yarn(资源管理平台)
Pig(Piglatin 语句到 MapReduce 的映射)
Hive(数据仓库、提供SQL)
Mahout(机器学习算法的 MapReduce 实现库)
Hadoop
列式交互式数据库
MapReduce 的SQL工具
数据挖掘工具
包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘’
集群管理
分布式缓存
Redis
高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
与关系数据库交换数据
ElasticSearch
Logstash
Kibana
ELK
ELK工具
Kettle
实时消息队列
Kafka
搜索引擎
Lucene
实时计算系统
Storm
grafana
influx
prometheus
监控
其他
大数据处理框架
MATLAB
D3.js
Excle
zeppelin
hue
SQL Server
MySQL
MongoDB
SQLite
bsddb
HBase
数据库
Ruby
编程语言
paxos
raft
gossip
一致性
栈、队列、链表
散列表
二叉树、红黑树、B树
图
数据结构
插入排序
桶排序
堆排序
快速排序
排序
最大字数组
最长公共子序列
最小生成树
最短路径
矩阵的存储和运算
常用算法
算法
大数据技术点
大数据学习
0 条评论
回复 删除
下一页