crawler架构
2016-09-29 15:40:02 0 举报
Crawler架构是一种网络爬虫系统,它由多个组件组成。其中,调度器负责接收URL请求并将其分配给相应的爬虫程序;爬虫程序负责从网页中提取信息并将其存储到数据库中;下载器负责下载网页并将其传递给爬虫程序;解析器负责解析网页并提取所需的信息;过滤器负责过滤掉不需要的信息。这些组件之间通过消息传递进行通信,以实现高效的数据抓取和处理。Crawler架构具有高度的可扩展性和灵活性,可以根据不同的需求进行定制和优化。