爬虫制作一般思路
2016-08-14 15:47:18 0 举报
一般的爬虫构建思路
作者其他创作
大纲/内容
数据定位(你的数据都在网站的那些位置)
数据建模(为放进数据库做准备)
传参方法(urllib/urllib2/requests等库)
入库保存(保存成文件的形式或者放进数据库)
静态文本(HTML/XML/JSON等格式)
分析页面结构(动态/静态)
模拟浏览器方法(利用selenium+phantomjs等工具)
明确需要的数据
从静态文本中提取所有需要的目的数据(利用re/BeautifulSoup/lxml.etree的xpath等库)
0 条评论
下一页