爬虫基础知识
2018-12-11 11:16:37   0  举报             
     
         
 AI智能生成
  爬虫基础知识架构图
    作者其他创作
 大纲/内容
  定义:  爬虫又叫 网络爬虫 网页蜘蛛 网络机器人 等  
     搜索引擎,就是网络爬虫的应用者  
     分类: 通用爬虫 和 聚焦爬虫    
     通用爬虫:常见的搜索引擎,无差别的收集数据\存储,提取关键字,构造索引库,给用户提供搜索接口  
     爬去的一般流程:           
     聚焦爬虫    
     有针对性的编写特定领域数据的爬去程序,针对某些类别数据的采集的爬虫,是面向猪蹄的爬虫.  
     Robots协议    
     www.taobao.com/robots.txt  
     君子协定,"爬亦有道"  
     模拟人的行为(实质就是一种反爬的技术)  
     HTTP 和响应处理                    
     Python概念-上下文管理协议中的__enter__和__exit__
    
     所谓上下文管理协议,就是咱们打开文件时常用的一种方法:with
__enter__(self):当with开始运行的时候触发此方法的运行
__exit__(self, exc_type, exc_val, exc_tb):当with运行结束之后触发此方法的运行
    __enter__(self):当with开始运行的时候触发此方法的运行
__exit__(self, exc_type, exc_val, exc_tb):当with运行结束之后触发此方法的运行
 User_Agent                  
     示例           
     parse解析模块                    
     Method提交方法                         
     HTTP证书相关           
     Urllib3           
     Requets           
    
 
 
 
 
  0 条评论
 下一页
  
   
   
   
   
  
  
  
  
  
  
  
  
  
  
 