通用网络爬虫结构图
2016-06-13 21:02:29 0 举报
通用网络爬虫是一种自动获取网页内容的程序,其基本结构包括初始URL集合、URL队列、页面下载器、页面解析器、链接过滤器和数据存储器。初始URL集合是爬虫开始爬取的URL列表,URL队列用于存储待爬取的URL,页面下载器负责从URL中下载网页内容,页面解析器用于解析下载的网页内容并提取所需信息,链接过滤器用于过滤掉不需要爬取的链接,数据存储器用于存储爬取到的数据。