首页  思维导图  详情



 



python网络爬虫

2018-01-30 13:55:07   206  举报





AI智能生成

python网络爬虫入门技术，根据北京理工大学嵩天老师的慕课课程所做

模板推荐

作者其他创作

大纲/内容

Scrapy框架

SPIDERS

解析Downloader返回的相应（Response）

产生爬取项(scraped item)

产生额外的爬取请求(Request)

ITEM PIPELINES

流水线方式处理Spider产生的爬取项

一组操作顺序组成，每个操作是Item Pipeline类型

ENGINE

SCHEDULER

DOWNLOADER

Downloader Middleware

Spider Middleware

常用命令

startproject

 <name> [dir]

genspider

 [options] <name> <domain>

settings

 [options]

crawl

list

shell

[url]

产生步骤

建立工程

在工程中产生一个爬虫

配置产生的spider爬虫

运行爬虫

HTML信息提取方法

Beautiful Soup

lmxl

XPath Selector

CSS Selector

<HTML>.css('a::attr(href)').extract()

类

Request

Response

Item

股票数据爬虫Scrapy

格式化输出

淘宝比价实例

股票数据定向

Requests库

对象

Response

r.status_code

r.text

r.encoding

r.apparent_encoding

r.content

Request

异常

requests.ConnectionError

requests.HTTPError

requests.URLRequired

requests.TooManyRedirects

requests.ConnectTimeout

requests.Timeout

r.raise_for_status()

方法<br>

requests.request(method, url, **kwargs)

**kwargs

params

data

json

headers

字典

cookieJar

auth

files(字典)

timeout

proxies(字典)

allow_redirects

stream

verify

cert

method

requests.get(url, params=None, **kwargs)

requests.head(url,**kwargs)

requests.post(url,data=None,json=None,**kwargs)

requests.put(url,data=None,**kwargs)

requests.patch(url,data=None,**kwargs)

requests.delete(url,**kwargs)

实例

实例1：京东

实例2：亚马逊

实例3：百度/360搜索关键词提交

实例4：图片的爬取和存储

实例5：IP地址归属地的自动查询

Beautiful Soup库

基本元素

Tag

Name

Attributes

NavigableString

Comment

解析器

bs4的HTML解析器

BeautifulSoup(mk, 'html.parser')

lxml的HTML解析器

BeautifulSoup(mk,'lxml')

lxml的XML解析器

BeautifulSoup(mk,'xml')

html5lib的解析器

BeautifulSoup(mk,'html5lib')

标签树

平行遍历

.next_sibling

.previous_sibling

.next_siblings

.previous_siblings

下行遍历

.contents

.children

.descendants

上行遍历

.parent

.parents

HTML格式输出

prettify()

方法

<>.find_all(name, attrs,recursive,string, **kwargs)

<>.find()

<>.find_parents()

<>.find_parent()

<>.find_next_siblings()

<>.find_next_sibling()

<>.find_previous_siblings()

<>.find_previous_sibling()

信息标记的三种形式

XML

JSON

YAML

中国大学排名定向爬虫

正则表达式

操作符

. 表示单个字符

[ ]字符集

[^]非字符集

* 前一个字符0次或无限次扩展

+ 前一个字符1次或无限次扩展

？前一个字符0次或一次扩展

| 左右表达式任意一个

{m} 扩展前一个字符m次

{m,n}扩展前一个字符m至n次（含n）

^ 匹配字符串开头

$ 匹配字符串结尾

（）分组标记，内部只能使用 |  

\d 数字，等价于[0-9]

\w 单词字符，等价于[A-Za-z0-9_]

匹配IP地址

(([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

Re库

raw string类型：r'text'

函数

re.search(pattern, string, flags=0)

re.I re.IGNORECASE

re.M re.MUTILINE

re.S re.DONTALL

re.match(pattern, string, flags=0)

re.findall(pattern, string, flags = 0)

re.split(pattern, string, maxsplit=0,flags=0)

re.finditer(pattern, string, flags = 0)

re.sub(pattern, repl, string, count=0, flags=0)

re.compile(pattern, flags=0)

match对象

属性

.string

.re

.pos

.endpos

方法

.group(0)

.start()

.end()

.span()

贪婪匹配

最小匹配

操作符

*？

+？

？？

{m, n}?

爬虫引发的问题

尺寸

爬取网页、小规模

Requests

爬取网站、中规模

Scrapy

爬取全网、大规模

定制开发

问题

骚扰

法律

隐私

限制

来源审查：User-Agent

发布公告：Robots协议

网站根目录的robots.txt

 Collect

Get Started

Python爬虫

 Collect

Get Started

python爬虫

 Collect

Get Started

网络爬虫工具

 Collect

Get Started

爬虫python安装教程基础语法总结





0 条评论

下一页