增量网络爬虫
2017-03-18 10:45:14 0 举报
增量网络爬虫是一种自动化工具,用于从互联网中获取新的、更新的信息。它通过定期访问目标网站,检测网页内容的变化,并将新的内容下载到本地数据库中。这种技术可以用于各种应用,如新闻聚合、价格比较和竞争情报。增量网络爬虫通常比全量网络爬虫更高效,因为它们只需要下载自上次爬取以来发生变化的页面。此外,增量网络爬虫还可以通过避免重复爬取相同的页面来节省带宽和存储空间。总之,增量网络爬虫是一种强大的工具,可以帮助用户快速、准确地获取最新的信息。
作者其他创作
大纲/内容
排序模块
本地URL集
保存URL
扫描URL
更新模块
爬取
待爬取URL集
取URL
更新保存页面
本地页面库
校验
丢弃页面
添加/删除URL
添加URL
爬取模块
扫描页面
0 条评论
下一页