网页抓取流程图
2016-07-29 13:47:40 0 举报
网页抓取流程图描述: 1. 开始:用户输入目标网址。 2. 请求发送:向目标网站发送HTTP请求。 3. 响应接收:接收网站的HTTP响应。 4. 解析HTML:使用HTML解析器解析响应内容。 5. 提取数据:从解析后的HTML中提取所需数据。 6. 存储数据:将提取的数据存储到数据库或文件中。 7. 结束:完成网页抓取任务。
作者其他创作
大纲/内容
读取位于URL_FILE_PATH的文件
分割输入文件每个文件小于5M,少于5W条记录分割后的文件数量
FALSE
处理数据 输出结果
结束
添加完毕?
开始
url_num 50000 ?
添加URL文件
INPUT
String: Job_ID
TRUE
File: houlist.txt.{date}
关闭Scheduler启动Downloader根据Job_ID下载结果
Enum:JOB_TYPEString: JOB_NAMEString: URL_FILE_PATH
新建 JOB,记录Job_IDJob_name格式: {Job_type}+{Job_date}
String: Job_IDString: Job_type
准备添加 URL文件
启动Scheduler定时任务
所有TASK结束?
轮询查看TASK状态
OUTPUT
0 条评论
下一页