rp
2017-10-12 15:51:02 0 举报
orc数据处理
作者其他创作
大纲/内容
读取配置文件启动线程池,获取待处理文件的ackId(劳动局官网上对每一个公司每一次提交投资数据分配的唯一编号)
在activemq获取请求数据
登陆https://markup.rightpond.com网站
数据提取:解压下载的zip包提取cvs文件内容
pdf文件转换为图片:markup处理pdf的方式是以每张图片处理;通过pdfbox工具包把pdf每个页面拆分为图片
数据加载:把重新生成的文件数据和业界通用的常理文件内容加载内存
Ocr Hander
若页面没有需要选择的数据则点击页面skip,如果有则点击Validate进入数据检测页面
将处理完成的pdf上传亚马逊云
获取上传文件保存在亚马逊云
数据纠正:根据投资总额(投资总额需要大于100万),以及投资类型数据(MU类型)对于不正确或者错误的数据做删除或更新操作(eg:通常情况投资明细和投资总额一定是对等或者接近的情况,如果投资总额和投资明细差距较大(1.5倍以上)认为数据不正确)
否
更新数据状态为”submit.uploadPdfToS3“
数据入正式环境
RP数据处理流程图
启动AwsDataLoader应用程序
文件数据内容校验:读取pdf文件去掉重复页面数据(2个页面内容进过MD5加密获取的字节数组的hash值相同认为是同一个页面),保留包含Ln4i,Ln4j以及表格数据页面
使用文件监控方式查看abbyy处理结果(commonsvfs2工具包)
MarkUp
轮询等待服务器返回PDF文件ocr处理结果
是
数据合并:根据数据性质特征把数据合并分化为ackIds,generalInfo,investmentInfo,trustInfo,vendorInfo等类型文件数据
将下载的pdf文件存放在abbyy(ocr处理工具)待处理目录
AWS Data Loader
获取客户端提交请求文件
图片和文件保存到数据库和亚马逊云
启动ocr应用程序
ocr服务器
文件页面大小纠正:在markup处理页面的时候,图片大小被指定为612x792像素;通过itextpdf工具包调整pdf页面大小为612x792;
在https://www.efast.dol.gov/portal/app/disseminate?execution=e1s2,http://askebsa.dol.gov/BulkFOIARequest/Listings.aspx/GetImage?ack_id=等网站下载pdf文件
新增数据库记录保存状态为”submit.submitOcrTask“
返回请求
提交pdf文件到服务器
等待30分钟超时,认为ocr处理失败,该记录异常处理
更新数据库状态为”submit.enQueue“
数据获取:从美国劳动局官网(http://askebsa.dol.gov/)上下载前几年各公司提交的数据报表
在亚马逊云下载待处理pdf文件
获取需要ocr处理的文件
ocr客户端
在activemq存放本地请求数据信息
ocr处理
获取返回结果,从亚马逊下载pdf文件
0 条评论
下一页