数据抓取实时化
2016-08-22 15:50:40 40 举报
登录查看完整内容
数据实时化抓取流程图
作者其他创作
大纲/内容
接入队列
数据聚合
工商解析规则2
网页库结构见附件1解析队列中数据为相应待解析任务类型及其IDtasktype+datatype+id
源数据镜像库
WEB页面任务触发
解析任务分发tasktype+datatype
工商抓取流程1
抓取结果库
文书抓取流程
解析队列
API任务
接入规则1
工商解析规则1
接入规则3
架构要求:支撑待抓取上游的平行扩展,及抓取数据类别的平行扩展;数据抓取及解析尽量规则化且支持个性化;支撑实时化的同时必须支持例行化;
信用数据平台--数据抓取实时化及例行化
聚合队列
抓取结果库同类型及结构支持共用,非同结构支持个性化。tasktype+datatype控制入库接入队列为datatype粒度的接入任务
抓取任务分发tasktype
目前统一接入各类型数据的存储结构。
接入任务分发datatype
任务队列
例行任务
文书解析规则
接入规则2
网页库
工商抓取流程2
0 条评论
回复 删除
下一页