首页  流程图  详情



 



安徽数据处理流程

2016-06-02 15:46:55   0  举报





仅支持查看

安徽数据处理流程主要包括数据收集、数据清洗、数据分析和数据应用四个步骤。首先，通过各种渠道收集相关数据，包括公开数据和私有数据。然后，对收集到的数据进行清洗，去除无效、重复和错误的数据，确保数据的准确性和完整性。接着，利用统计学和机器学习等方法对清洗后的数据进行分析，提取有价值的信息和知识。最后，根据分析结果，将数据应用于决策制定、业务优化和产品开发等领域，为企业和个人提供决策支持和服务。整个流程需要专业的数据处理团队和技术工具的支持，以确保数据的质量和处理效率。

模板推荐

作者其他创作

大纲/内容

失败记录

⑧ 补偿提交

Labs集群HDFS

通过FTP上传到Lab01

纳税人

HDFS路径：1. 清洗结果：hdfs:/user/yimr/YiMR/workflow/1106_719daede3fc5666fcd21e01a312901bf/10590_8cad76a95bd2757ee5d13a65cfb7dd40/output/20160413_05002. 统计结果hdfs:/user/yimr/YiMR/workflow/1106_719daede3fc5666fcd21e01a312901bf/10587_62156e279098a1ce69a9e580114bb841/output/20160413_0500数据处理周期：1小时文件名样例：part-00001文件内容样例（lab01）：/home/work/ANHUI_DATA_PROCESS_SAMPLE/3_anhui_hdfs_process_output

STEP 3

核心征管提交

申报征收应用

申报服务

End

①

公用分发库

④

申报提交

专用分发库

核心征管

流程规则服务

STEP MAIN

金税三期

安徽数据处理整体流程

安徽FTP数据源

超出重试限制

HDFS路径：1. 标签统计结果hdfs://hadoopmaster:21030/anhuiwap/fav-stat2. spider待抓取列表hdfs://hadoopmaster:21030/anhuiwap/to-spider3. 用户标签结果hdfs://hadoopmaster:21030/anhuiwap/userprofile4. 用户URL访问集hdfs://hadoopmaster:21030/anhuiwap/userurl数据处理周期：1天文件名样例：part-00001文件内容样例（lab01）：/home/work/ANHUI_DATA_PROCESS_SAMPLE/7_labs_hdfs_spider_and_stat

Web/APP

③ 查询

已收妥

⑥ 申报提交阶段2（提交）

⑦ 补偿判断

STEP 6

STEP 1

状态锁定

申报失败

主体处理步骤：52步主体处理流程：具体处理流程见流程图数据处理周期：1天

征管提交服务

数据处理分类主体流程

失败

OGG

FTP地址：ftp://yanjiuyuan@192.168.50.249/http/all数据下载周期：1小时文件名样例：009_00_0002_201606021050_1.dat.gz文件内容样例（lab01）：/home/work/ANHUI_DATA_PROCESS_SAMPLE/1_anhui_ftp_datasource_sample

HDFS路径：1. url分类结果hdfs://hadoopmaster:21030/anhuiwap/classified/20160603/06/src-feature-all2. proapp分类结果hdfs://hadoopmaster:21030/anhuiwap/classified/20160603/06/src-proapp-all3. 带抓取结果hdfs://hadoopmaster:21030/anhuiwap/classified/20160603/06/src-scrap-all数据处理周期：1天文件名样例：part-00001文件内容样例（lab01）：/home/work/ANHUI_DATA_PROCESS_SAMPLE/6_labs_hdfs_clfprocess_output

⑤ 申报提交阶段1（暂存）

⑤ 申报提交

状态解锁

安徽集群清洗后结果

②

中间存储区

STEP 5

结果文件

补偿提交

STEP 7

重新申报

开始

⑥ 补偿

入库和服务

路径：1. 标签入库HBASE2. 喜好查询服务lab30:8002数据处理周期：1天文件名样例：HBase::user_profileSpark:: SparkServer文件内容样例（lab01）：/home/work/ANHUI_DATA_PROCESS_SAMPLE/8_labs_hbase_userprofile

抓取和统计

HDFS路径：/user/yimr/YiMR/workflow/1106_719daede3fc5666fcd21e01a312901bf/10584_55f7645d714dc121bfc5467d90c06292/output/20160418_1000/数据处理周期：1小时文件名样例：009_00_0002_201606021050_1.dat.gz文件内容样例（lab01）：/home/work/ANHUI_DATA_PROCESS_SAMPLE/2_anhui_hdfs_process_input

申报成功

STEP 2

Start

STEP 4

重试

FS路径：1.清洗结果lab01:/home/work/var/upload/anhui/clean-result2. 统计结果lab01:/home/work/var/upload/anhui/stat-result数据处理周期：1小时文件名样例：part-merge-1.gz文件内容样例（lab01）：/home/work/ANHUI_DATA_PROCESS_SAMPLE/4_labs_upload_data_sample

时序队列拉取

成功

超时

STEP 8

HDFS路径：hdfs:/user/yimr/YiMR/datasource/84_2fca26d65fe14eeec93245ca625036f9/output数据处理周期：1小时文件名样例：part-merge-1.gz文件内容样例（lab01）:/home/work/ANHUI_DATA_PROCESS_SAMPLE/5_labs_hdfs_clfprocess_input

安徽集群数据清洗和统计