增量爬虫体系结构图
2016-06-13 21:24:17 0 举报
增量爬虫是一种用于获取网页更新内容的网络爬虫。它的体系结构图通常包括以下几个部分:控制中心(负责调度和管理爬虫任务)、网页抓取模块(负责从网页中提取信息)、数据存储模块(负责将抓取到的数据存储到数据库中)和更新检测模块(负责检测网页是否有更新,并通知控制中心重新调度爬虫任务)。这些模块之间通过接口进行通信,共同完成增量爬虫的任务。增量爬虫能够有效地获取网页的更新内容,为用户提供更加及时、准确的信息。