首页  流程图  详情



 



rp

2017-10-12 15:51:02   0  举报





仅支持查看

orc数据处理

模板推荐

作者其他创作

大纲/内容

读取配置文件启动线程池，获取待处理文件的ackId(劳动局官网上对每一个公司每一次提交投资数据分配的唯一编号)

在activemq获取请求数据

登陆https://markup.rightpond.com网站

数据提取：解压下载的zip包提取cvs文件内容

pdf文件转换为图片：markup处理pdf的方式是以每张图片处理；通过pdfbox工具包把pdf每个页面拆分为图片

数据加载：把重新生成的文件数据和业界通用的常理文件内容加载内存

Ocr Hander

若页面没有需要选择的数据则点击页面skip，如果有则点击Validate进入数据检测页面

将处理完成的pdf上传亚马逊云

获取上传文件保存在亚马逊云

数据纠正：根据投资总额（投资总额需要大于100万），以及投资类型数据（MU类型）对于不正确或者错误的数据做删除或更新操作（eg:通常情况投资明细和投资总额一定是对等或者接近的情况，如果投资总额和投资明细差距较大（1.5倍以上）认为数据不正确）

否

更新数据状态为”submit.uploadPdfToS3“

数据入正式环境

RP数据处理流程图

启动AwsDataLoader应用程序

文件数据内容校验：读取pdf文件去掉重复页面数据（2个页面内容进过MD5加密获取的字节数组的hash值相同认为是同一个页面），保留包含Ln4i，Ln4j以及表格数据页面

使用文件监控方式查看abbyy处理结果（commonsvfs2工具包）

MarkUp

轮询等待服务器返回PDF文件ocr处理结果

是

数据合并：根据数据性质特征把数据合并分化为ackIds，generalInfo，investmentInfo，trustInfo，vendorInfo等类型文件数据

将下载的pdf文件存放在abbyy（ocr处理工具）待处理目录

AWS Data Loader

获取客户端提交请求文件

图片和文件保存到数据库和亚马逊云

启动ocr应用程序

ocr服务器

文件页面大小纠正：在markup处理页面的时候，图片大小被指定为612x792像素；通过itextpdf工具包调整pdf页面大小为612x792；

在https://www.efast.dol.gov/portal/app/disseminate?execution=e1s2，http://askebsa.dol.gov/BulkFOIARequest/Listings.aspx/GetImage?ack_id=等网站下载pdf文件

新增数据库记录保存状态为”submit.submitOcrTask“

返回请求

提交pdf文件到服务器

等待30分钟超时，认为ocr处理失败，该记录异常处理

更新数据库状态为”submit.enQueue“

数据获取：从美国劳动局官网(http://askebsa.dol.gov/)上下载前几年各公司提交的数据报表

在亚马逊云下载待处理pdf文件

获取需要ocr处理的文件

ocr客户端

在activemq存放本地请求数据信息

ocr处理

获取返回结果，从亚马逊下载pdf文件

 Collect

Get Started

RP图

 Collect

Get Started

RP Architecture with resilience for Global

 Collect

Get Started

跨RP流程图

 Collect

Get Started

认证3





0 条评论

下一页