登录免费注册

首页  思维导图  详情



 



新手爬虫学习

新手爬虫学习

2024-03-04 10:59:12   0  举报





AI智能生成

新手爬虫学习

爬虫学习

模板推荐

作者其他创作

大纲/内容

网络基础

网页浏览

流程

输入网址、发出HTTP请求

DNS服务器→服务器主机

DNS解析

将HTML、CSS、JS发送到用户浏览器

浏览器展示

网页

HTML

CSS

JavaScript

HTTP

超文本传输协议

资源请求方式

GET：请求获取资源信息

HEAD：请求获取资源头部信息

POST：请求附加新数据

PUT：请求上传数据并覆盖原资源

PATCH：请求局部更新资源

DELETE：请求删除资源

URL

统一资源定位符

格式

协议/服务形式

HTTP：超文本传输协议

HTTPS：安全超文本传输协议

域名/IP地址（端口号）

host[:port]

路径/具体地址

PATH

信息标记

XML（可拓展性好）

JSON（简洁，适合程序处理）

YAML（可读性好，信息比例高）

Robots协议

解析库

BeautifulSoup

对象

BeautifulSoup

NavigableString

Tag

Comment

HTML解析库

解析、遍历、搜索文档树

正则表达式（re）

检验字符串是否匹配相应模式

常用方法

re.match()

re.search()

re.compile()

re.sub()

re.findall()

re.spilt()

修饰符

常用模式

Scrapy

爬虫框架，并非函数功能库

“5+2”结构

数据类型

Request对象

Response对象

Item对象

python基础知识

python基本语法

python环境配置

请求库

Requests

基本方法

.request()

衍生方法

.get()

.head()

.post()

.put()

.patch()

.delete()

构造Requests对象：向目标网站发送一个请求（和数据）

返回Response对象

异常处理<br>

超时异常

Timeout：请求url超时

ConnectTimeout：连接远程服务器超时

重定向异常

TooManyRedirects：超过最大重定向次数

网络连接异常

ConnectionError

HTTP错误异常

HTTPError

URL缺失异常

URLRequired

urllib

HTTP请求库（标准库）

子模块

.request 请求模块

.error 异常处理模块

.parse url解析模块

.robotparser robots.txt解析模块

 Collect

Get Started

爬虫系统流程图

 Collect

Get Started

webapp新手引导

 Collect

Get Started

爬虫类图

 Collect

Get Started

新手引导













评论

0 条评论

下一页



图形选择

思维导图

主题

补充说明

AI生成





修改AI描述

去编辑

重新生成

提示 

关闭后当前内容将不会保存，是否继续？

取消

确定

Document