CrawlTask时序图
2017-03-30 08:30:43 0 举报
在CrawlTask时序图中,首先开始于”开始”状态。接着,系统进入”初始化”阶段,进行必要的设置和准备。然后,系统进入”爬取URL”状态,根据预设的URL列表,逐个访问并获取网页内容。在此过程中,可能会遇到各种异常情况,如网络连接问题、页面解析错误等,这时系统会进入”处理异常”状态,对异常进行处理。处理完成后,系统会返回”爬取URL”状态,继续爬取下一个URL。当所有URL都爬取完毕后,系统进入”数据处理”阶段,对爬取到的数据进行处理和存储。最后,系统进入”结束”状态,完成整个CrawlTask。
作者其他创作
大纲/内容
7:链接处理、内容存储
PriorityDeque
CrawlTask
LinkStatistics
5:输出优先级最高链接
13:更新收集统计信息
2:获取种子链接
SeedStatistics
4:链接优先级排序
6:传入链接
9:记录链接统计信息
3:链接存入优先级队列
8:该链接处理完成
16:是:结束CrawlTask;否:从第一步重新执行
ProcessorChain
1:启动任务
11:链接统计信息更新完成
10:更新链接统计信息
12:记录种子文章收集情况
QueueManager
15:询问是否还有未执行链接
14:收集信息更新完成
0 条评论
下一页