通用网络爬虫体系结构

2017-04-13 15:08:36   0  举报





仅支持查看

通用网络爬虫是一种自动浏览万维网的网络机器人。它的体系结构通常包括控制器、解析器和资源库三部分。控制器负责给爬虫发出指令，包括需要爬行的URL以及如何爬行；解析器从网页中抽取出需要的数据，并存入资源库；资源库用于存储已经爬取到的数据，以便后续处理和分析。此外，通用网络爬虫还需要一个调度器来协调各个组件的工作。调度器根据一定的策略从待爬行的URL队列中选取下一个要访问的URL,并将该URL分配给爬虫进行爬取。总之，通用网络爬虫通过自动化地访问网页并提取有用信息，为数据分析和挖掘提供了便利。

模板推荐

作者其他创作

大纲/内容