浅聚焦爬虫工作原理
2016-10-19 23:34:27 0 举报
浅聚焦爬虫是一种网络爬虫,它根据预先设定的阈值来爬取网页内容。当网页中的链接深度达到预设值时,爬虫就会停止抓取该页面的链接,转而去抓取下一层的链接。这种爬虫适用于需要快速获取大量信息的场景,但可能会忽略一些深层次的信息。 简单来说,浅聚焦爬虫就像是一个有限制的探险家,它只会在一定的范围内寻找信息,而不会深入到更远的地方。这种方法虽然可以节省时间和资源,但也可能导致遗漏一些重要的信息。因此,在使用浅聚焦爬虫时,需要根据实际需求进行权衡和选择。
作者其他创作
大纲/内容
选定的一个或多个种子URL
结束
程序开始
URL队列
下载网页
满足停止条件
下载资源(代理IPS,cookie等)
根据制定规则提取内容和URL链接,保存
YES
NO
0 条评论
下一页