AI
推荐
模板社区
专题
登录
免费注册
首页
思维导图
详情
新手爬虫学习
2024-03-04 10:59:12
0
举报
分享方式
使用 (¥5)
AI智能生成
新手爬虫学习
爬虫学习
模版推荐
作者其他创作
大纲/内容
网络基础
网页浏览
流程
输入网址、发出HTTP请求
DNS服务器→服务器主机
DNS解析
将HTML、CSS、JS发送到用户浏览器
浏览器展示
网页
HTML
CSS
JavaScript
HTTP
超文本传输协议
资源请求方式
GET:请求获取资源信息
HEAD:请求获取资源头部信息
POST:请求附加新数据
PUT:请求上传数据并覆盖原资源
PATCH:请求局部更新资源
DELETE:请求删除资源
URL
统一资源定位符
格式
协议/服务形式
HTTP:超文本传输协议
HTTPS:安全超文本传输协议
域名/IP地址(端口号)
host[:port]
路径/具体地址
PATH
信息标记
XML(可拓展性好)
JSON(简洁,适合程序处理)
YAML(可读性好,信息比例高)
Robots协议
解析库
BeautifulSoup
对象
BeautifulSoup
NavigableString
Tag
Comment
HTML解析库
解析、遍历、搜索文档树
正则表达式(re)
检验字符串是否匹配相应模式
常用方法
re.match()
re.search()
re.compile()
re.sub()
re.findall()
re.spilt()
修饰符
常用模式
Scrapy
爬虫框架,并非函数功能库
“5+2”结构
数据类型
Request对象
Response对象
Item对象
python基础知识
python基本语法
python环境配置
请求库
Requests
基本方法
.request()
衍生方法
.get()
.head()
.post()
.put()
.patch()
.delete()
构造Requests对象:向目标网站发送一个请求(和数据)
返回Response对象
异常处理<br>
超时异常
Timeout:请求url超时
ConnectTimeout:连接远程服务器超时
重定向异常
TooManyRedirects:超过最大重定向次数
网络连接异常
ConnectionError
HTTP错误异常
HTTPError
URL缺失异常
URLRequired
urllib
HTTP请求库(标准库)
子模块
.request 请求模块
.error 异常处理模块
.parse url解析模块
.robotparser robots.txt解析模块
收藏
立即使用
数据图形-223
收藏
立即使用
基金组织架构图
收藏
立即使用
数据图形-263
收藏
立即使用
数据图形-219
Lady-M
职业:吉林大学
去主页
Collect
Get Started
爬虫优化流程
Collect
Get Started
爬虫系统架构图
Collect
Get Started
爬虫系统流程图
Collect
Get Started
学习进度
评论
0
条评论
下一页
图形选择
思维导图
主题
补充说明
AI生成
修改AI描述
去编辑
重新生成
提示
关闭后当前内容将不会保存,是否继续?
取消
确定
Document