爬虫流程
2017-03-14 14:25:22 0 举报
爬虫流程通常包括以下几个步骤:首先,通过HTTP请求获取目标网页的HTML源代码;接着,对获取到的HTML代码进行解析,提取出所需的数据信息;然后,根据需要将提取的数据进行存储或进一步处理;最后,通过设置爬取规则和策略,实现自动化的网页数据抓取。在整个爬取过程中,需要注意遵守网站的爬虫协议,避免对目标网站造成过大的访问压力,同时保护个人信息的安全。
作者其他创作
大纲/内容
根据文献id爬取文献
使用 Bio.Entrez.efetch()请求100篇文献的XML格式的文本
原始文献页面信息存入mongodb
利用beautifulsoup解析存入mysql
利用文献id爬取文献
取保存有100篇文献结果的临时文件
爬取结果存入mongodb
获取文献id
否
对比mongodb文献id与mysql文献id,取mongodb数据库中不存在的文献id,重新爬取,做切片处理,存入mongodb
NCBI返回100篇文献的请求结果
查看日志文件,了解崩溃发生文献所处位置,按需更新文献列表
将100篇文献的请求结果保存为临时文件,num+=1日志文件进行记录
获得文献id列表
创建日志文件,num=0
取文献id列表前100篇,从文献id列表中去除该100篇
是
做切片操作
临时文件处理完毕
输入检索词alzheimer's diseae
每一篇文献存入mongodb,并在mysql设置已爬取并保存
崩溃
结束
开始
使用 Bio.Entrez.esearch()请求获取文献id
存储
文献列表为空?
0 条评论
下一页