基本流程图
2016-12-11 18:50:47 0 举报
基本流程图是一个可视化工具,用于描述一个过程中的步骤和决策。它由一系列的方框、箭头和菱形组成,表示不同的操作、决策和数据流。在流程图中,每个方框代表一个步骤或操作,箭头表示数据或控制流的方向,菱形代表决策点。通过连接这些元素,可以清晰地展示出过程的执行顺序和逻辑关系。基本流程图适用于各种领域,如业务流程、软件开发、项目管理等,有助于提高工作效率和沟通效果。
作者其他创作
大纲/内容
Packager
clean
AdminManager
QuestResover
Starter
QuestMonitor
Notification
Finish
SpiderInstance
tag_maker
Server
tag_replacer
1.整个系统是任务驱动的,由外部系统发布任务,内部自动分解任务并执行,执行过程中不断更新任务状态2.QuestBuilder模块将外部给的字符串转换为任务合法格式,并对其进行分解(如果分解可行)3.QuestResover模块是一个任务的执行过程,分别为打包,启动,回收4.QuestMonitor模块是监控任务完成情况的模块,与外部系统对接
QuestBuilder
importer
1.将指定目录下的scrapy项目打包2.上传打包后的scrapy项目到某台资源机3.启动某台资源机上的scrapy 并给其传递参数,参数决定了本次启动分配给该爬虫的任务4.定期更新nohup日志5.一键提取各个资源机上/opt/crawler_data里的数据(爬虫停止后才可提取)
Web
1.外部系统通过字符串的形式给AdminManager安排了一项任务(比如,爬取A网站)2.AdminManager的QuestBuilder将任务分解为一系列爬虫任务,放入任务池3.AdminManager的QuestResover检查到任务池中有任务,选择一个任务4.根据爬虫任务中的参数,将某个路径下的爬虫项目进行打包,传输到某台机器的scrapyd上5.根据爬虫任务中的参数,启动scarpyd上的spider并传入对应参数(如起止页数)6.spider启动时,会更新任务池中该任务的动态参数(如当前页数)7.spider停止后(无论是否正常停止),AdminManager的Recycle负责收集一次它的结果路径并更新任务池8.1-7的步骤执行过程中,AdminManager始终会监控QuestPool,并给外部提供需要的监控数据
Quest Pool
OtherSystem
Recycler
split
filter
Agent/Selenium/Proxy
Quest String
0 条评论
下一页