通用网络爬虫结构图

2016-06-13 21:02:29   0  举报





仅支持查看

通用网络爬虫是一种自动获取网页内容的程序，其基本结构包括初始URL集合、URL队列、页面下载器、页面解析器、链接过滤器和数据存储器。初始URL集合是爬虫开始爬取的URL列表，URL队列用于存储待爬取的URL，页面下载器负责从URL中下载网页内容，页面解析器用于解析下载的网页内容并提取所需信息，链接过滤器用于过滤掉不需要爬取的链接，数据存储器用于存储爬取到的数据。

模板推荐

作者其他创作

大纲/内容