WebCrawler
2016-08-02 15:37:27 0 举报
AI智能生成
WebCrawler是一个自动化网络爬虫,用于从互联网上收集和索引网页数据。它通过遍历链接并下载网页内容来工作,然后将这些信息存储在数据库中以便后续检索和使用。WebCrawler可以定制爬取规则,以适应不同的需求,例如抓取特定主题或特定网站的内容。它还提供了一些高级功能,如自动识别和处理重复的URL、支持多种数据格式输出等。WebCrawler被广泛应用于搜索引擎的开发和维护、数据采集和分析等领域。
作者其他创作
大纲/内容
Scrapy staticPage
html
openHtml
urllib
try...except
HTTPError
URLError
hasattr
urlopen
url
Request
header
User-Agent
user_agent = "...."
header = {"User-Agent": user_agent}
reference
cookie
proxy
url
parserHtml
urllib/bs4
BeautifulSoup4
findALL()
find()
find("tag")['attr']
find("tag", id="content")
get_text()
urllib/re
re
march
search
findall
只有一个子组
有多个子组
常见符号和字符
urllib/lxml
Xpath语法
lxml方法
requests
Scrapy dynamicPage
JavaScript
PhantomJS
selenium
Ajax

收藏
0 条评论
下一页
为你推荐
查看更多