1_爬虫基础流程框架
2022-02-23 10:32:16 20 举报
AI智能生成
从入门到放弃
作者其他创作
大纲/内容
采集背景意义
大数据/互联网时代
信息载体数量与日俱增
传统拷贝有局限性
耗时费力易出错
爬虫数据采集优势
多渠道/海量采集数据
速度快,规模化,量级大
爬虫概览简介
爬虫/数据采集
定义:按照一定规则自动抓取互联网信息的程序/脚本
爬虫的步骤
发送请求
解析内容
存储数据
用户vs爬虫
用户: 浏览器提交请求->下载网页代码->解析/渲染成页面->查看数据
程序: 模拟浏览器发送请求->下载网页代码->提取目标数据->存储数据
应用场景
电商/新闻/房源监控/金融股票/视频网站下载/飞机票比价/招聘网站/财务报表等
市场分析
市场分析:电商分销,商圈分析,一二级市场等
市场监控
电商平台比价,新闻舆情监控,房源监控等
商机探索
招投标情报,客户资料发掘,企业客户发现
Spider数据采集场景
点击跳转-详情链接
数据应用
市场分析/市场监控/商圈分析/舆情监控/自动搬单/可视化分析
python基本概览
1、调研对比
有了解/或者正在使用python的占比多少
2、了解探究
python是什么?
可问度娘
python能做什么?
可做的比较多
网页内容介绍
概念对比
客户端vs服务端
客户端就是我们使用的电脑
存放网页与数据库数据的服务器
前台vs后台
呈现给用户的视觉和基本的操作
用户浏览网页时,数据在后台跑动
前端vs后端
开发页面三件套:html,css,javascript
对应底层业务逻辑的代码,包含数据库
网址(URL)
指网络地址,统一资源定位符,(https://www.baidu.com/
由4部分组成:协议、主机、端口、路径
拓展作业:http和https区别? TCP/IP协议是什么?
网页加载方式
同步加载
对比静态加载
提前编译准备好数据资源
异步加载
对比动态加载
运行时加载,翻页网页不变
网页源码构成
html骨架
网页的内容结构
css美起来
网页的排版布局
js动起来
网页事件处理(鼠标键盘交互动作)
开发者工具
定义:检查当前加载的html,css,js,每个资源页面的请求及耗时等
打开方式(google):鼠标右键->检查 or 键盘按F12
chrome开发工具详解之Network面板
详情链接跳转
请求解析库初识
请求库
urllib
python内置的HTTP请求库
urllib.request
请求模块
urllib.parse
解析模块
urllib.error
异常处理模块
requests请求
requests文档
官方文档-链接跳转
构造请求
requests.get(url, headers = headers, data=param)
url: 请求url链接
headers请求头
param请求参数(有时不带参数)
requests.post(url, headers=headers, data=param)
url: 请求url链接
headers请求头
param请求参数
headers/ua/cookie/ip代理
常见的反爬问题--下次分享在详细讲解
IP代理(池)
原理:隐藏真实IP(根据真是业务需要)
免费代理
西瓜代理等
付费代理
阿布云
代理云
selenium
自动化测试工具,下节课分享
解析库
response响应内容
代码案例:https://www.cnblogs.com/value-code/p/8270037.html
response.status
返回信息状态码-2xx,3xx,4xx,5xx
response.text
str:经过编码后的文本内容
response.encoding = 'utf-8'
response.content
原始响应体bytes类型
response.content.decode("utf-8")
css/xpath
lxml
BS4
正则re
存储库
小规模数据
excel/csv/txt等
大规模数据
PyMySOL
PyMongo
kafaka
常见反爬问题<二>
headers请求头包装(UA, referer防盗链,cookie池,IP池等)
数据投毒
人人车-二手车信息采集
代码反调试
无限debugger
留个作业:常见反爬问题可以私下搜集下
经典框架详解<二>
Scrapy/Scrapy-redis
分布式爬虫概览
流程,原理,中间件等
selenium自动化工具
对比playwright(新一代测试工具微软开源)
GNE新闻网站提取
谢乾坤
《Python爬虫开发从入门到实践》
WX公众号:-未闻code
崔庆才
《Pyhton3网络爬虫开发实战》
WX公众号:进击的coder
python学习资源汇总
网站学习渠道
Python官网,CSDN,github, B站视频,知乎,公众号,书籍等
电子书
电子书--分享结束后发群里
子主题
结语:不要有压力--东西多,覆盖面广,慢慢来;
也不要没压力--可根据业务场景针对性学习
也不要没压力--可根据业务场景针对性学习

收藏

收藏
0 条评论
下一页