S04_Python_爬虫总览
2022-02-23 10:36:22 21 举报
AI智能生成
部分不合理后期会继续更新
作者其他创作
大纲/内容
Spider进阶
验证码
常见验证码
可参考视频讲解
滑块/欢滑块补全缺口
点选字体
消息队列(IP池/cookie池)
redis
RabbitMQ
Kafaka
采集框架
Scrapy
distribute_crawler
scrap-redis
feapder
更加简单、轻量级,且功能强大的爬虫框架
GEN
新闻类网站提取(青南-kingname)
selenium
解决requests无法直接执行JavaScript代码的
requests
采集静态界面较为常用
数据存储
excel/csv等本地文件
mysql
MongoDB
redis(采集的中间结果)
eg: url队列/cookies
异步并发
asyncio/twisted
多进程/多线程/协程
动态网站
selenium
puppeteer/pyppeteer
playwright
2020年微软开源新一代自动化测试工具
JS加密解密逆向
学习资源
崔庆才
公众号:进击的Coder
《python3网络爬虫开发实战》
谢乾坤(青南)
公众号:未闻Coder
《python爬虫开发从入门到实战》
python储备点
数据类型
字符串--string
整型数字--Number
列表--List
元组--Tuple
集合--Set
常用模块
时间模块time/datetime, 正则re
常用三方库
HTTP/HTTPS
请求方式
get,post, put
主要用get/post
request-->response
发送请求-处理请求--返回内容
url链接/队列
什么是url
http和https的区别
网络协议
HTTP状态码
200:成功
有数据
无数据
3xx, 4xx, 5xx分别代表什么
子主题
HTTP请求报文
请求行、请求头、请求体等
UA(user-agent)
用户代理//身份
headers的一部分,服务区判断访问者身份
cookie
Referer防盗链
告诉服务器从哪个页面链接过来的
构造请求,form表单提交
Ajax
对部分网页更新
异步 JavaScript 和 XML: Asynchronous JavaScript and XML
在不重载整个网页的情况下,AJAX 通过后台加载数据,并在网页上进行显示。
代理
免费代理
西瓜代理
付费代理
阿布云
代理池
代理云
数据投毒/蜜獾数据
检查返回数据/数据校验
web全端
常用三件套如下:
HTML
CSS
Javascript
jQuery AJAX
子主题
抓包工具
chrome
firefox
Fridder
charles
请求库
urllib
requests
httpie
aIohttp
hyper(HTTP/2)
tornado
解析库
BS4-BeautifulSoup
lxml-Xpath
re(正则表达式 )
收藏
收藏
0 条评论
下一页