电子报解析入库流程图
2016-09-22 18:54:14 0 举报
电子报解析入库流程图描述: 1. 用户上传电子报文件至系统。 2. 系统自动识别文件格式并提取关键信息。 3. 根据预设规则,对提取的信息进行初步筛选和清洗。 4. 将清洗后的数据转换为数据库可接受的格式。 5. 连接数据库,并将数据插入相应的表中。 6. 系统检查数据完整性和一致性。 7. 如果数据完整且一致,则标记为已入库。 8. 否则,返回错误信息给用户。 9. 用户可以在系统中查询已入库的数据。 此流程确保了电子报数据的快速、准确和高效入库,为用户提供了便捷的数据管理体验。
作者其他创作
大纲/内容
是
整个文件夹备份到succ文件夹
获取图片节点集合
整个文件夹备份到fail文件夹
遍历,小样节点解析完毕
注:1.除去报头类型的小样节点,每个小样或图片节点都是一条数据记录,2.小样跟图片节点解析失败的原因,即稿件的图片上传失败,记录将会存放在failList中,xml所在的文件夹会被整个移动到fail备份目录下3.解析成功并入库成功之后,文件夹将备份到succ备份目录下4.该工程继承了一个底层封装的Task,通过tcm监控端设置时间调度,定时请求工程入口函数,
包含图片节点
入库成功
failList为空集合
扫描下份xml文件
否
包含小样节点
跳出当前xml解析,进行数据保存操作
mysql库
待解析xml的目标文件夹
读取
报纸不定时发版
tcm程序入口
遍历,图片节点解析完毕
解析成功入集合缓存区xmlBeanSuccList解析失败入集合缓存区xmlBeanFailList
读取一份xml文件,大样解析
解析失败原因:文件读取失败或者版面图,PDF缺失
输入推送
文件备份成功
生成xml文件以及备份图片(版面图,PDF)
获取待解析xml文件集合,遍历集合解析xml
succList为空集合
获取小样节点集合
hybase库
xml遍历完毕
0 条评论
下一页
为你推荐
查看更多