通用网络爬虫体系结构

2017-04-13 15:08:36 0 举报
仅支持查看
通用网络爬虫是一种自动浏览万维网的网络机器人。它的体系结构通常包括控制器、解析器和资源库三部分。控制器负责给爬虫发出指令,包括需要爬行的URL以及如何爬行;解析器从网页中抽取出需要的数据,并存入资源库;资源库用于存储已经爬取到的数据,以便后续处理和分析。此外,通用网络爬虫还需要一个调度器来协调各个组件的工作。调度器根据一定的策略从待爬行的URL队列中选取下一个要访问的URL,并将该URL分配给爬虫进行爬取。总之,通用网络爬虫通过自动化地访问网页并提取有用信息,为数据分析和挖掘提供了便利。
作者其他创作
大纲/内容
评论
0 条评论
下一页