

首页  思维导图  详情



爬虫实战

2018-11-26 08:52:56   1  举报





AI智能生成

【路飞学城-第七模块】爬虫实战

爬虫知识点总结

模版推荐

作者其他创作

大纲/内容

urllib模块

概念

使用流程

函数说明

使用quote函数

使用urlencode函数

通过自定义请求对象，用于伪装爬虫程序请求的身份

携带参数的post请求

url的特性

高级操作

1.代理

正向代理

反向代理

2.cookie

cookie概念

cookie作用

思路

数据解析方式

正则解析

Xpath解析

BeautifulSoup解析

网页动态加载数据

图片懒加载

图片懒加载概念

懒加载技术

selenium

安装selenum

获取某一款浏览器的驱动程序

phantomJs

重点

谷歌无头浏览器

scrapy进阶

CrawlSpider操作

　1.创建scrapy工程

　2.创建爬虫文件

　3.观察生成的爬虫文件

爬取流程

a)爬虫文件首先根据起始url，获取该url的网页内容

　b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

　c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

d)将解析数据封装到item中，然后提交给管道进行持久化存储

分布式操作

1.启动redis

2.对redis配置文件进行配置

crawlspider概念

LinkExtractor

提取response中符合规则的链接

Rule

根据链接提取器中提取到的链接，根据指定规则提取解析器链接网页中的内容。

scrapy基于redis的数据持久化操作流程

1.安装scrapy-redis组件

2.编写爬虫文件

3.编写管道文件

　4.编写配置文件

redis分布式部署

分布式基本流程

- 使用基于scrapy-redis组件中的爬虫文件

- 使用scrapy-redis组件中封装好的调度器，将所有的url存储到该指定的调度器中，从而实现了多台机器的调度器共享

　- 使用scrapy-redis组件中封装好的管道，将每台机器爬取到的数据存储通过该管道存储到redis数据库中，从而实现了多台机器的管道共享

- 执行：scrapy runspider xxx.py，然后向调度器队列中传入起始url：lpush nnspider:start_urls "http://www.xxx.com/"

爬虫介绍

实现爬虫的语言

爬虫的分类

1.通用爬虫

2.聚焦爬虫

robots.txt协议

爬虫防范措施

反爬虫

反反爬虫

爬虫的流程

1、发起请求

2、获取响应内容

3、解析内容

4、保存数据

requests模块

request安装

使用流程

cookie和代理操作

cookie概念

cookie作用

代理概念

代理作用

代理的分类

免费代理ip提供网站

scrapy框架基础

基础应用

1.创建项目

scrapy startproject 项目名称

　2.创建爬虫应用程序

　cd project_name（进入项目目录）

　　scrapy genspider 应用名称爬取网页的起始url （例如：scrapy genspider qiubai www.qiushibaike.com）

　3.编写爬虫文件

　4.设置修改settings.py配置文件相关配置

5.执行爬虫程序

scrapy crawl 应用名称

持久化操作

管道文件

配置文件

cookie和代理操作

日志等级和请求传参

日志文件

请求传参

scrapy核心组件

引擎(EGINE)

调度器(SCHEDULER)

下载器(DOWLOADER)

爬虫(SPIDERS)

项目管道(ITEM PIPLINES)

下载器中间件(Downloader Middlewares)

爬虫中间件(Spider Middlewares)

 Collect

Get Started

反爬虫架构

 Collect

Get Started

爬虫类图

 Collect

Get Started

爬虫优化流程

 Collect

Get Started

Python爬虫开发与项目实战





0 条评论

下一页