Server
2017-01-07 09:44:18 0 举报
服务器是一种计算机或计算机系统,它存储、管理和处理数据,为其他计算机设备提供资源和服务。它是网络中的核心组件,负责处理和响应来自客户端的请求。服务器可以运行各种操作系统,如Windows Server、Linux和UNIX等。它们通常具有高性能的处理器、大量的内存和磁盘空间,以支持高负载的数据处理和存储需求。服务器可以分为多种类型,如文件服务器、数据库服务器、邮件服务器和Web服务器等。它们在企业、政府、教育机构和其他组织中发挥着至关重要的作用,确保数据的安全、可靠和高效传输。
作者其他创作
大纲/内容
记录统计信息
写入数据库
LinksFilter对crawlsLink变量中的有数据的链接进行去噪声链接处理
RevisitDecider利用数据库存储的链接信息进一步过滤噪声链接
是否是html类型页面?
ContentProcessor只处理页面类型为详情页的链接
LinksNormalizer只对crawlsLink变量有数据的链接进行链接地址规范化
更新CrawlLink
ProcessorChain
DataStorer数据存储
是
LinksExtractor链接抽取器
结束
CrawlTask
否
网站1
PageClassifier只对html类型页面分类
链接管理模块
HashDecider检测链接内容是否被修改?
放弃该链接
Downloader下载链接对应的内容
0 条评论
下一页