爬虫整体架构
2016-03-15 14:54:35 5 举报
爬虫整体架构通常包括以下几个部分:调度器、URL管理器、网页下载器、网页解析器和数据存储器。调度器负责管理URL管理器,URL管理器负责管理待爬取的URL队列和已爬取的URL集合。网页下载器从URL管理器中获取待爬取的URL,下载网页并返回网页内容。网页解析器从网页下载器中获取网页内容,解析出所需的数据并存入数据存储器。数据存储器负责存储爬取到的数据。此外,爬虫还需要考虑反爬虫策略,如设置User-Agent、使用代理IP等。总之,一个完整的爬虫架构需要协调各个组件的工作,以高效地爬取和处理数据。
作者其他创作
大纲/内容
本黑盒与所有输入输出交互中,如果非内通信,需要考虑通信安全,需要认证授权
合作点播网站
内容爬取
需要更新所有数据
内容抽取
监管调用
绿色更新部分提供两种机制,均使用http通信:1、提供restful 接口,直接以response 的形式返回2、提供restful接口,但是使用异步通信,之后将内容推送给红色-管理系统部分
黑盒系统
EPB 爬取
confinput
监控,统计outputweb
汇聚编码
推给内容管理系统out
内容汇聚系统
manageinput
电台或者互联网电台
需要完成的部分
内容上线
webPageinput
某条数据失效,需要重新推送
点播节目
监控??
重新爬取所有内容并更新
黑盒功能
推给内容管理系统
数据库??
0 条评论
下一页