登录免费注册

首页  流程图  详情

爬虫流程

2017-03-14 14:25:22   0  举报





仅支持查看

爬虫流程通常包括以下几个步骤：首先，通过HTTP请求获取目标网页的HTML源代码；接着，对获取到的HTML代码进行解析，提取出所需的数据信息；然后，根据需要将提取的数据进行存储或进一步处理；最后，通过设置爬取规则和策略，实现自动化的网页数据抓取。在整个爬取过程中，需要注意遵守网站的爬虫协议，避免对目标网站造成过大的访问压力，同时保护个人信息的安全。

作者其他创作

大纲/内容

根据文献id爬取文献

使用 Bio.Entrez.efetch()请求100篇文献的XML格式的文本

原始文献页面信息存入mongodb

利用beautifulsoup解析存入mysql

利用文献id爬取文献

取保存有100篇文献结果的临时文件

爬取结果存入mongodb

获取文献id

否

对比mongodb文献id与mysql文献id，取mongodb数据库中不存在的文献id，重新爬取，做切片处理，存入mongodb

NCBI返回100篇文献的请求结果

查看日志文件，了解崩溃发生文献所处位置，按需更新文献列表

将100篇文献的请求结果保存为临时文件，num+=1日志文件进行记录

获得文献id列表

创建日志文件，num=0

取文献id列表前100篇，从文献id列表中去除该100篇

是

做切片操作

临时文件处理完毕

输入检索词alzheimer's diseae

每一篇文献存入mongodb，并在mysql设置已爬取并保存

崩溃

结束

开始

使用 Bio.Entrez.esearch()请求获取文献id

存储

文献列表为空？

 收藏

立即使用

 收藏

立即使用

系统流程图

 收藏

立即使用

爬虫流程图

 收藏

立即使用

系统架构图

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



爬虫设计思路

项目流程图_项目管理_流程图_环形图_后端

项目流程图_项目管理_流程图_环形图_后端

爬虫优化流程

反爬虫架构