分布式爬虫框架
2018-01-24 11:55:42   0  举报             
     
         
 AI智能生成
  爬虫
    作者其他创作
 大纲/内容
  模块拆分    
     master模块    
     负责分发task  
     task    
     task持久化处理    
     状态恢复  
     统计task  
     task状态转化    
     初始化    
     种子任务  
     task子任务  
     成功  
     失败    
     失败重试  
     task处理失败  
     proxy模块    
     定时拉取可用代理  
     对可用代理打分  
     提供可用代理message  
     提供更新代理message  
     持久化模块    
     sqlite    
     定时flush  
     超过条数flush  
     base64加密处理  
     其他方式  
     work模块    
     请求响应    
     okhttp  
     客户端模拟    
     浏览器模拟  
     其他模拟  
     monitor模块    
     监控系统参数    
     告警    
     超时报警  
     异常报警  
     对work的可伸缩    
     空闲增加work  
     繁忙减少work  
     work监控    
     work重启  
     work处理压力统计  
     log    
     日志收集  
     日志处理  
     cient模块    
     通用爬虫    
     加载用户逻辑    
     验证  
     逻辑处理  
     回调用户代码  
     特殊爬虫    
     连续ID    
     未知ID范围  
     给定ID范围  
     链接扩散    
     给定正则  
     简单验证规则  
     测试环境    
     测试环境搭建    
     高性能  
     稳定好  
     模拟网页  
     压力测试    
     支持并发  
     task设计    
     抽象范围    
     请求相应    
     URL层次  
     连续ID等层次  
     浏览器    
     打开一个页面  
     滑动一个页面  
     点击一个页面  
     独立    
     重新请求  
     超过请求次数返回错误  
     底层调研    
     okhttp    
     压力测试    
     并发量  
     单节点压力  
     性能问题    
     CPU  
     网络  
     内存  
     selenium    
     性能问题    
     内存    
     单个进程启动使用内存  
     网络  
     CPU  
     稳定性    
     运行时测试  
     并发测试    
     驱动多个浏览器测试  
     浏览器稳定性测试  
     功能性    
     获取底层请求    
     能获取到底层渲染的js请求  
     获取加载的图片视频等信息  
     对请求能过滤    
     图片过滤  
     css过滤  
     js过滤  
    
 
 
 
 
  0 条评论
 下一页
  
   
   
   
   
  
  
  
  
  
  
  
  
  
  
 