首页  思维导图  详情



 



1_爬虫基础流程框架

2022-02-23 10:32:16   20  举报





AI智能生成

从入门到放弃

思维导图

模板推荐

作者其他创作

大纲/内容

采集背景意义

大数据/互联网时代

信息载体数量与日俱增

传统拷贝有局限性

耗时费力易出错

爬虫数据采集优势

多渠道/海量采集数据

速度快，规模化，量级大

爬虫概览简介

爬虫/数据采集

定义：按照一定规则自动抓取互联网信息的程序/脚本

爬虫的步骤

发送请求

解析内容

存储数据

用户vs爬虫

用户：浏览器提交请求->下载网页代码->解析/渲染成页面->查看数据

程序：模拟浏览器发送请求->下载网页代码->提取目标数据->存储数据

应用场景

电商/新闻/房源监控/金融股票/视频网站下载/飞机票比价/招聘网站/财务报表等

市场分析

市场分析:电商分销，商圈分析，一二级市场等

市场监控

电商平台比价，新闻舆情监控，房源监控等

商机探索

招投标情报，客户资料发掘，企业客户发现

Spider数据采集场景

点击跳转-详情链接

数据应用

市场分析/市场监控/商圈分析/舆情监控/自动搬单/可视化分析

python基本概览

1、调研对比

有了解/或者正在使用python的占比多少

2、了解探究

python是什么？

可问度娘

python能做什么？

可做的比较多

网页内容介绍

概念对比

客户端vs服务端

客户端就是我们使用的电脑

存放网页与数据库数据的服务器

前台vs后台

呈现给用户的视觉和基本的操作

用户浏览网页时，数据在后台跑动

前端vs后端

开发页面三件套：html,css,javascript

对应底层业务逻辑的代码，包含数据库

网址(URL)

指网络地址,统一资源定位符,(https://www.baidu.com/

由4部分组成：协议、主机、端口、路径

拓展作业：http和https区别？ TCP/IP协议是什么？

网页加载方式

同步加载

对比静态加载

提前编译准备好数据资源

异步加载

对比动态加载

运行时加载，翻页网页不变

网页源码构成

html骨架

网页的内容结构

css美起来

网页的排版布局

js动起来

网页事件处理(鼠标键盘交互动作)

开发者工具

定义：检查当前加载的html,css，js，每个资源页面的请求及耗时等

打开方式(google)：鼠标右键->检查 or 键盘按F12

chrome开发工具详解之Network面板

详情链接跳转

请求解析库初识

请求库

urllib

python内置的HTTP请求库

urllib.request

请求模块

urllib.parse

解析模块

urllib.error

异常处理模块

requests请求

requests文档

官方文档-链接跳转

构造请求

requests.get(url, headers = headers, data=param)

url: 请求url链接

headers请求头

param请求参数(有时不带参数)

requests.post(url, headers=headers, data=param)

url: 请求url链接

headers请求头

param请求参数

headers/ua/cookie/ip代理

常见的反爬问题--下次分享在详细讲解

IP代理(池)

原理：隐藏真实IP(根据真是业务需要)

免费代理

西瓜代理等

付费代理

阿布云

代理云

selenium

自动化测试工具,下节课分享

解析库

response响应内容

代码案例：https://www.cnblogs.com/value-code/p/8270037.html

response.status

返回信息状态码-2xx,3xx,4xx,5xx

response.text

str：经过编码后的文本内容

response.encoding = 'utf-8'

response.content

原始响应体bytes类型

response.content.decode("utf-8")

css/xpath

lxml

BS4

正则re

存储库

小规模数据

excel/csv/txt等

大规模数据

PyMySOL

PyMongo

kafaka

常见反爬问题<二>

headers请求头包装(UA, referer防盗链，cookie池，IP池等)

数据投毒

人人车-二手车信息采集

代码反调试

无限debugger

留个作业：常见反爬问题可以私下搜集下

经典框架详解<二>

Scrapy/Scrapy-redis

分布式爬虫概览

流程，原理，中间件等

selenium自动化工具

对比playwright(新一代测试工具微软开源)

GNE新闻网站提取

谢乾坤

《Python爬虫开发从入门到实践》

WX公众号：-未闻code

崔庆才

《Pyhton3网络爬虫开发实战》

WX公众号：进击的coder

python学习资源汇总

网站学习渠道

Python官网，CSDN，github, B站视频，知乎，公众号，书籍等

电子书

电子书--分享结束后发群里

子主题

结语：不要有压力--东西多，覆盖面广，慢慢来；           也不要没压力--可根据业务场景针对性学习

 Collect

Get Started

爬虫类图

 Collect

Get Started

基础流程图样式模板

 Collect

Get Started

爬虫采集框架介绍

 Collect

Get Started

Scrapy爬虫框架





0 条评论

下一页