爬虫架构
2016-03-15 10:54:29 3 举报
爬虫架构通常包括数据抓取模块、数据处理模块和数据存储模块。数据抓取模块负责从网页中提取所需的信息,可以使用正则表达式或XPath等技术。数据处理模块负责对抓取到的数据进行清洗、转换和去重等操作,以便后续分析。数据存储模块负责将处理后的数据存储到数据库或文件中,以便后续使用。此外,爬虫架构还可以包括调度器模块,用于控制爬虫的运行频率和时间。总之,一个高效的爬虫架构应该能够快速、准确地抓取大量数据,并能够有效地处理和存储这些数据。
作者其他创作
大纲/内容
合作点播网站
重新爬取所有内容并更新
本黑盒与所有输入输出交互中,如果非内通信,需要考虑通信安全,需要认证授权
EPB 爬取
内容汇聚系统
黑盒功能
需要更新所有数据
内容抽取
confinput
推给内容管理系统out
webPageinput
汇聚编码
监控,统计outputweb
某条数据失效,需要重新推送
内容爬取
数据库??
绿色更新部分提供两种机制,均使用http通信:1、提供restful 接口,直接以response 的形式返回2、提供restful接口,但是使用异步通信,之后将内容推送给红色-管理系统部分
内容上线
需要完成的部分
点播节目
manageinput
电台或者互联网电台
监控??
推给内容管理系统
监管调用
黑盒系统
0 条评论
下一页