爬虫实战
2018-11-26 08:52:56 1 举报
AI智能生成
【路飞学城-第七模块】爬虫实战
作者其他创作
大纲/内容
urllib模块
概念
使用流程
函数说明
使用quote函数
使用urlencode函数
通过自定义请求对象,用于伪装爬虫程序请求的身份
携带参数的post请求
url的特性
高级操作
1.代理
正向代理
反向代理
2.cookie
cookie概念
cookie作用
思路
数据解析方式
正则解析
Xpath解析
BeautifulSoup解析
网页动态加载数据
图片懒加载
图片懒加载概念
懒加载技术
selenium
安装selenum
获取某一款浏览器的驱动程序
phantomJs
<b><font color="#c41230">重点</font></b>
谷歌无头浏览器
scrapy进阶
CrawlSpider操作
1.创建scrapy工程
2.创建爬虫文件
3.观察生成的爬虫文件
爬取流程
a)爬虫文件首先根据起始url,获取该url的网页内容
b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取
c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析
d)将解析数据封装到item中,然后提交给管道进行持久化存储
分布式操作 <br>
1.启动redis
2.对redis配置文件进行配置
crawlspider概念
LinkExtractor
提取response中符合规则的链接
Rule
根据链接提取器中提取到的链接,根据指定规则提取解析器链接网页中的内容。
scrapy基于redis的数据持久化操作流程
1.安装scrapy-redis组件
2.编写爬虫文件
3.编写管道文件
4.编写配置文件
redis分布式部署
分布式基本流程
- 使用基于scrapy-redis组件中的爬虫文件
- 使用scrapy-redis组件中封装好的调度器,将所有的url存储到该指定的调度器中,从而实现了多台机器的调度器共享
- 使用scrapy-redis组件中封装好的管道,将每台机器爬取到的数据存储通过该管道存储到redis数据库中,从而实现了多台机器的管道共享
- 执行:scrapy runspider xxx.py,然后向调度器队列中传入起始url:lpush nnspider:start_urls "http://www.xxx.com/"
爬虫介绍
爬虫介绍
实现爬虫的语言
爬虫的分类
1.通用爬虫
2.聚焦爬虫
robots.txt协议
爬虫防范措施
反爬虫
反反爬虫
爬虫的流程
1、发起请求
2、获取响应内容
3、解析内容
4、保存数据
requests模块
request安装
使用流程
cookie和代理操作
cookie概念
cookie作用
代理 概念<br>
代理 作用<br>
代理的分类
免费代理ip提供网站
scrapy框架基础
基础应用
1.创建项目
scrapy startproject 项目名称
2.创建爬虫应用程序
cd project_name(进入项目目录)
scrapy genspider 应用名称 爬取网页的起始url (例如:scrapy genspider qiubai www.qiushibaike.com)
3.编写爬虫文件
4.设置修改settings.py配置文件相关配置
5.执行爬虫程序
scrapy crawl 应用名称
持久化操作
管道文件
配置文件
cookie和代理操作
日志等级和请求传参
日志文件
请求传参
scrapy核心组件
引擎(EGINE)
调度器(SCHEDULER)
下载器(DOWLOADER)
爬虫(SPIDERS)
项目管道(ITEM PIPLINES)
下载器中间件(Downloader Middlewares)
爬虫中间件(Spider Middlewares)
0 条评论
下一页