采集架构
2023-06-09 11:05:07   3  举报             
     
         
 采集整体架构图
    作者其他创作
 大纲/内容
 items
  爬虫服务器B
  Spiders
    SpiderMiddlewares
  调度器
  部署平台
  数据标准化:行政区域等
  网站结构调整等异常对应调整采集策略
  Responses
  spiders
  数据格式化:时间、日期、坐标
  数据队列
  git代码仓库
  爬虫服务器A
  应用
  数据监控平台
  提取数据
  Internet
  提取url
  爬虫服务器Z
  Downloader
  Scheduler
  业务清洗
  mysql数据库
  初步清洗
  爬虫服务器Y
  按分钟、小时、天、周等频率持续更新数据
  发送请求
  数据管道
  持续导出
  Item Pipline
  DownloaderMiddlewares
  存放url
  爬虫脚本
  爬虫服务器C
  下载器
  采集需求
  评估、分析、开发
  ScrapyEngine
  mongo数据库
  脚本调度平台
  Requests
   
 
 
 
 
  0 条评论
 下一页
  
   
  
  
  
  
  
  
  
  
 