1_爬虫基础流程框架
2022-02-23 10:32:16 20 举报
AI智能生成
登录查看完整内容
从入门到放弃
作者其他创作
大纲/内容
信息载体数量与日俱增
传统拷贝有局限性
耗时费力易出错
大数据/互联网时代
多渠道/海量采集数据
速度快,规模化,量级大
爬虫数据采集优势
采集背景意义
定义:按照一定规则自动抓取互联网信息的程序/脚本
存储数据
解析内容
发送请求
爬虫的步骤
用户: 浏览器提交请求->下载网页代码->解析/渲染成页面->查看数据
程序: 模拟浏览器发送请求->下载网页代码->提取目标数据->存储数据
用户vs爬虫
电商/新闻/房源监控/金融股票/视频网站下载/飞机票比价/招聘网站/财务报表等
市场分析:电商分销,商圈分析,一二级市场等
市场分析
电商平台比价,新闻舆情监控,房源监控等
市场监控
招投标情报,客户资料发掘,企业客户发现
商机探索
点击跳转-详情链接
Spider数据采集场景
应用场景
市场分析/市场监控/商圈分析/舆情监控/自动搬单/可视化分析
数据应用
爬虫/数据采集
爬虫概览简介
有了解/或者正在使用python的占比多少
1、调研对比
可问度娘
python是什么?
可做的比较多
python能做什么?
2、了解探究
python基本概览
客户端就是我们使用的电脑
存放网页与数据库数据的服务器
客户端vs服务端
呈现给用户的视觉和基本的操作
用户浏览网页时,数据在后台跑动
前台vs后台
对应底层业务逻辑的代码,包含数据库
前端vs后端
概念对比
由4部分组成:协议、主机、端口、路径
拓展作业:http和https区别? TCP/IP协议是什么?
网址(URL)
提前编译准备好数据资源
对比静态加载
同步加载
运行时加载,翻页网页不变
对比动态加载
异步加载
网页加载方式
网页的内容结构
html骨架
网页的排版布局
css美起来
网页事件处理(鼠标键盘交互动作)
js动起来
网页源码构成
打开方式(google):鼠标右键->检查 or 键盘按F12
详情链接跳转
chrome开发工具详解之Network面板
开发者工具
网页内容介绍
请求模块
urllib.request
解析模块
urllib.parse
异常处理模块
urllib.error
python内置的HTTP请求库
urllib
官方文档-链接跳转
requests文档
url: 请求url链接
headers请求头
param请求参数(有时不带参数)
url: 请求url链接
param请求参数
构造请求
常见的反爬问题--下次分享在详细讲解
headers/ua/cookie/ip代理
原理:隐藏真实IP(根据真是业务需要)
西瓜代理等
免费代理
阿布云
代理云
付费代理
IP代理(池)
requests请求
selenium
请求库
代码案例:https://www.cnblogs.com/value-code/p/8270037.html
response.status
response.encoding = 'utf-8'
str:经过编码后的文本内容
response.text
response.content.decode(\"utf-8\")
原始响应体bytes类型
response.content
response响应内容
css/xpath
lxml
BS4
正则re
解析库
excel/csv/txt等
小规模数据
PyMySOL
PyMongo
kafaka
大规模数据
存储库
请求解析库初识
人人车-二手车信息采集
数据投毒
无限debugger
代码反调试
留个作业:常见反爬问题可以私下搜集下
常见反爬问题<二>
分布式爬虫概览
流程,原理,中间件等
Scrapy/Scrapy-redis
对比playwright(新一代测试工具微软开源)
selenium自动化工具
《Python爬虫开发从入门到实践》
WX公众号:-未闻code
谢乾坤
《Pyhton3网络爬虫开发实战》
WX公众号:进击的coder
崔庆才
GNE新闻网站提取
经典框架详解<二>
网站学习渠道
子主题
电子书--分享结束后发群里
电子书
结语:不要有压力--东西多,覆盖面广,慢慢来; 也不要没压力--可根据业务场景针对性学习
python学习资源汇总
爬虫总览-流程梳理
收藏
收藏
0 条评论
回复 删除
下一页