python网络爬虫
2018-01-30 13:55:07 203 举报
AI智能生成
登录查看完整内容
python网络爬虫入门技术,根据北京理工大学嵩天老师的慕课课程所做
作者其他创作
大纲/内容
python网络爬虫
Scrapy框架
SPIDERS
解析Downloader返回的相应(Response)
产生爬取项(scraped item)
产生额外的爬取请求(Request)
ITEM PIPELINES
流水线方式处理Spider产生的爬取项
一组操作顺序组成,每个操作是Item Pipeline类型
ENGINE
SCHEDULER
DOWNLOADER
Downloader Middleware
Spider Middleware
常用命令
startproject
<name> [dir]
genspider
[options] <name> <domain>
settings
[options]
crawl
<spider>
list
shell
[url]
产生步骤
建立工程
在工程中产生一个爬虫
配置产生的spider爬虫
运行爬虫
HTML信息提取方法
Beautiful Soup
lmxl
re
XPath Selector
CSS Selector
<HTML>.css('a::attr(href)').extract()
类
Request
Response
Item
股票数据爬虫Scrapy
格式化输出
淘宝比价实例
股票数据定向
Requests库
对象
r.status_code
r.text
r.encoding
r.apparent_encoding
r.content
异常
requests.ConnectionError
requests.HTTPError
requests.URLRequired
requests.TooManyRedirects
requests.ConnectTimeout
requests.Timeout
r.raise_for_status()
方法
**kwargs
params
data
json
headers
cookies
字典
cookieJar
auth
files(字典)
timeout
proxies(字典)
allow_redirects
stream
verify
cert
method
实例
实例1:京东
实例2:亚马逊
实例3:百度/360搜索关键词提交
实例4:图片的爬取和存储
实例5:IP地址归属地的自动查询
Beautiful Soup库
基本元素
Tag
Name
Attributes
NavigableString
Comment
解析器
bs4的HTML解析器
lxml的HTML解析器
lxml的XML解析器
html5lib的解析器
标签树
平行遍历
.next_sibling
.previous_sibling
.next_siblings
.previous_siblings
下行遍历
.contents
.children
.descendants
上行遍历
.parent
.parents
HTML格式输出
prettify()
<>.find()
<>.find_parents()
<>.find_parent()
<>.find_next_siblings()
<>.find_next_sibling()
<>.find_previous_siblings()
<>.find_previous_sibling()
信息标记的三种形式
XML
JSON
YAML
中国大学排名定向爬虫
正则表达式
操作符
. 表示单个字符
[ ]字符集
[^]非字符集
* 前一个字符0次或无限次扩展
+ 前一个字符1次或无限次扩展
? 前一个字符0次或一次扩展
| 左右表达式任意一个
{m} 扩展前一个字符m次
^ 匹配字符串开头
$ 匹配字符串结尾
() 分组标记,内部只能使用 |
\\d 数字,等价于[0-9]
\\w 单词字符,等价于[A-Za-z0-9_]
匹配IP地址
(([1-9]?\\d|1\\d{2}|2[0-4]\\d|25[0-5]).){3}([1-9]?\\d|1\\d{2}|2[0-4]\\d|25[0-5])
Re库
raw string类型:r'text'
函数
re.I re.IGNORECASE
re.M re.MUTILINE
re.S re.DONTALL
match对象
属性
.string
.re
.pos
.endpos
.group(0)
.start()
.end()
.span()
贪婪匹配
最小匹配
*?
+?
??
爬虫引发的问题
尺寸
爬取网页、小规模
Requests
爬取网站、中规模
Scrapy
爬取全网、大规模
定制开发
问题
骚扰
法律
隐私
限制
来源审查:User-Agent
发布公告:Robots协议
网站根目录的robots.txt
收藏
0 条评论
回复 删除
下一页