智能文字识别「OCR」能力评测与应用思维导图模板

序言

邱跃鹏

人工智能、大数据、区块链、云计算是新一代信息技术革命浪潮；

光学字符识别（OCR，Optical Character Recognition）自19世纪70年代以来，技术不断创新，应用场景逐渐丰富，已成为人工智能领域的重要分支；

2020年4月，国家发改委首次明确将人工智能等技术基础设施列入“新基建”范畴，推动了OCR技术在金融、政府、物流、医疗、教育多个领域的应用；

OCR被成为最“接地气”的人工智能技术，能将图片中的文字自动、快速转化成文本，起到降本增效，节省人物力的作用；

谢呼

推动人类文明走向新一轮创新浪潮的是信息采集、处理和使用技术，OCR生当其时；

OCR作为计算机的“眼睛”，支持和引领技术前进；同时，文明也要意识到其广泛应用在云端的场景存在侵犯用户隐私、数据泄露等安全风险，文明必须不断提升技术安全和抗击风险的能力；

魏凯

将图像、视频中的文字转变为机器可读可处理的字符信息，是计算机信息处理追求的目标，是机器与现实世界进行视觉交互的重要基础，这也催生了OCR技术；

1870 年，电报技术和为盲人设计的阅读设备的出现标志着 OCR 技术的诞生。近年来，随着计算机视觉、自然语言理解、知识图谱等人工智能技术在 OCR 中实际使用，OCR 的性能和效率都得到了质的飞跃；

OCR作为一种相对成熟的人工智能技术，已经在金融、交通、政务、医疗、物流等垂直领域得到了广泛应用。单据处理、车牌识别、证照核验等OCR应用已经成为支撑各垂直行业数字转型、智能升级、融合创新的重要基础能力；

OCR发展背景概述

OCR的基本概念和作用

OCR概念与内涵

光学字符识别(Optical Character Recognition, OCR)是从图像中识别出文字的技术，利用机器将图像中手写或印刷文本转换为计算机可以直接处理的格式；

OCR技术能够处理多种不同场景的图像，包括拍摄或扫描得到的各种卡证、纸质文档图像，也包括含有文字的自然场景图像和叠加了字幕文本的视频图像等；

OCR是机器处理图像文本的基础

图1：OCR三大核心优势

提高效率，相比传统的人工方式，显著提升信息录入效率；

降低成本，通过机器代替人工，可大幅降低人力成本的开销；

适用性强，OCR技术能够实现多种场景、多种语言的识别；

OCR持续向社会生产生活领域渗透

人工智能技术发展提升OCR性能

深度学习（DeepLearning）技术的发展，加速了OCR性能提升；

文字识别应用范围从简单的印刷体数字、字母符号识别，逐步演进到自然场景下多形态文本检测与识别、手写体文本检测与识别等复杂情形；

服务载体多样化加快OCR的普及

智能手机、电脑等终端设备成本降低及性能提升；

云平台、云服务、云计算的大规模普及，大幅降低使用门槛及成本；

产业数字化进一步扩大OCR应用场景

以图像文字作为信息传播载体，并使用OCR实现图像和文字的转换，成为流程自动化的前置基础，高效率、低成本的特点极大的加速产业数字化进程，OCR 已经是当前产业数字化转型不可或缺的支撑能力；

OCR在新基建背景下迎来新的机遇

OCR是新基建提供的重要能力之一

OCR作为人工智能应用中商业推广较为成熟的领域，正成为人工智能新基建落地应用的“头雁”；

新基建加速OCR产业新生态的构建

一是新基建将促进云计算、大数据等新技术产业发展，这也将提升OCR 产业在计算能力、数据处理等环节的基础支撑能力；

二是融合基础设施建设将促进传统基础设施智能化改造，而这将为OCR 的应用生态的发展提供动力；

三是人工智能融入实体经济的过程，也将为OCR产业生态引入丰富的人才、技术、场景等要素；

新基建推动OCR的新一轮技术创新

新技术、新需求催生新的业态，构建新型基础设施是进一步夯实新业态的底座，同时也是催生新一轮技术创新的基础，这将带动 OCR 等人工智能技术的不断创新；

OCR技术发展现状分析

OCR技术历史沿革

1870年：电报技术和为盲人设计的阅读设备标志着OCR技术的诞生；

2000年：在线服务（WebOCR）的发展让OCR在云计算环境以及移动端上被广泛应用；

2014年：深度学习（DeepLearning）技术的出现让OCR技术有了飞速发展；

2015年：OCR技术开始对整体文本进行识别，加强了对文本序列信息的有效利用；

2017年：OCR技术逐渐与NLP技术结合，赋予了OCR技术“理解”文字内容的能力；

OCR技术分类概述

文本检测和识别是OCR技术的两个重要核心技术，OCR技术可以分为传统方法和深度学习方法；

传统方法

传统的OCR方法通过针对文本检测和识别分别设计鲁棒的特征，来提高模型的文字识别效果； 文本检测主要用于定位图片中文本的区域，传统的文本检测方法可以分为基于显著特征的检测方法和基于滑动窗口的检测方法两大类； 文本识别阶段，可划分为文本二值化、文本行分段、字符分割、单字识别、字符矫正等一系列子问题；

缺点：传统的文本检测与识别方法受限于手工设计特征的表达能力和处理流程的复杂性，对于较为复杂的图片情况，例如带有大角度畸变以及模糊不清的文本图像，很难达到理想的文字识别效果；

深度学习

独立两阶段方法

独立两阶段是指对文本检测和文本识别两个阶段分开建模的方法；

文本检测中不同方法优劣点各异，基于回归的检测方法能够很好的解决场景图像中带方向文字的检测，但会受到文本区域形状不规则的干扰；

基于分割的方法不受限于文本的大小及形状，但对距离较近的文本行容易出现文本行粘连而失效;基于分解的方法先定位文本片段或单个字符，再将它们组合成最终的检测结果，可以很好地处理任意形状、方向的文本；

文本识别的算法可分为基于CTC技术的方法和基于注意力机制的网络模型两大类； 其中，CTC技术可以有效地捕获输入序列的上下文依赖关系，同时能够很好地解决图像和文本字符对齐的问题，但在自由度较大的手写场景下仍会出现识别错误； 注意力机制主要应用于卷积神经网络特征权重的分配上，提高强特征权重，降低弱特征的权重，同时在由图像到文字的解码过程中又具有天然的语义捕获能力，因此在图像特征提取以及语义提取方面都提升了OCR模型的性能；

端到端一段式方法

与独立两阶段方法不同，端到端的方法是将文字检测和识别整合到一个网络模型中进行训练，避免检测模型和识别模型之间由于误差传播而导致的性能下降；

一种经典的端到端文本定识方法是使用文本建议框生成器和经过训练的聚合通道特征检测器的组合来生成候选文本包围框，对候选框进行过滤和校正后，再进行文本内容识别，根据识别结果和标注文字的差异来联合调整网络中文本检测和识别两部分参数；

另一种字符级的端到端方法Mask TextSpotter被提出，该方法基于经典的Mask-RCNN方法改进，针对图像每个可能区域生成字符响应图，用于表示单个字符的存在和位置信息，模型使用字符响应图作为特征训练模型来识别单字符，最后将预测的单字符连接在一起后输出文本预测结果；

传统方法与深度学习方法的比较

传统方法

文本检测方法

基于滑动窗口的检测方法

基于显著特征的检测方法

文本识别方法

手工设计文本特征训练模型

深度学习方法

独立两极端方法

文本检测方法

基于回归的方法

基于分割的方法

基于分解的方法

文本识别方法

基于CTC技术的方法

基于注意力机制的网络模型

端到端文本定识方法

文字检测+识别

文字检测和识别整合到一个网络模型中，已成为OCR领域的新技术趋势

OCR技术发展趋势

鲁棒性

什么是鲁棒性？

鲁棒是Robust的音译，也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力；

见百度百科：鲁棒性

一体化的端到端OCR模型

构建一体化的端到端网络，同时对文字检测和识别进行训练，目前已成为了OCR领域的一种重要技术趋势；

端到端的网络设计，实现了基础特征的共享，既能够减少重复计算，又能够提高特征的质量，促进任务性能的改善；

高效率

兼具高性能高效率的OCR

大量的OCR应用需要在资源受限的移动端设备上运行，当前移动端OCR算法大多以牺牲一定的算法精度来换取运行速度，针对移动设备设计兼顾性能和效率的轻量OCR模型是未来趋势；

智能

从感知到认知的智能OCR

OCR技术通常从计算机视觉领域出发，未来与自然语言处理技术、知识图谱等更广领域的交叉融合，通过语义及知识的深度挖掘提升OCR性能是重要趋势；

此外，在OCR中引入强化学习和元学习等新的学习范式，让机器自主学习如何识别文字，也将成为研究热点；

OCR产业发展现状分析

OCR产业情况概述

OCR产业规模逐年稳步提升

深入行业：金融、保险、医疗、交通、教育

产业规模

数据来源：美国权威机构 GRAND VIEW RESEARCH

发布内容：《全球 OCR(Optical Character Recognition)市场预测以及趋势分析》

发布数据：2018 年以来全球OCR市场将以 13.7% 的复合年增长率稳健发展，至2025年全球OCR市场规模将达到133.81 亿美元

OCR产业生态不断丰富完善

图2：OCR技术在各行各业构建了产业生态

COR成为科技巨头能力标配

国外以谷歌、微软等为代表；

国内以腾讯、阿里、华为、百度等为代表；

OCR应用成熟度概述

标准场景文字识别相对成熟

证照类：名片、身份证、护照、港澳通行证、户口薄、驾驶证、行驶证、银行卡等；

票据类：以及增值税发票、银行票据、营业执照等票据识别为主；

手写文字识别应用逐步扩大

教育、物流等行业；

且相比于印刷体通常存在文字粘连，提升手写体文字的识别性能依然具有一定挑战；

复杂场景文字识别开始探索

具体一方面是追求自适应识别不同的图片以及图片上的文字，如在银行、财务等相关业务场景自动识别各类证照卡票；

另一方面追求在不同光照、不同拍摄角度等方面识别的性能，如无人机器人摄像机的对拍摄内容的自适应识别；

典型应用案例介绍

丰巢快递柜实名验证

图3：实现用户自助进行实名验证，可以有效提高用户寄件、取件的效率

顺丰快递单自主识别

图4：自动识别运单的收寄件人信息，提高效率并降低了人力成本：3 小时识别2000万张

宁波银行票据自动录入

图5：银行业大量金融票据的分类和录入

搜狗广告图片文本审核

图6：自动识别海量的图片文字内容，进行广告图片内容审核，降低业务违规风险

OCR技术标准化

重要背景

传统OCR的功能性能评测方法和工具无法满足评估评测需求

从技术实现层面看

基于计算机视觉和自然语言理解融合的OCR技术，与传统OCR技术实现的本质有较大不同； 仅评估字准确率的传统方法已经无法满足现阶段 OCR 的评估需求；

从测试工具层面看

大量覆盖不同场景、不同特点的测试数据集为全面测试OCR在不同场景下的效率提供了支撑；

从应用层面看

商业用户不仅关心识别的准确率，在大负载下算法和系统的执行效率也是客户关注的重点；

从产业层面来看

随着人工智能技术开源开放程度的提升，使进入OCR的门槛逐步降低，但这也出现了OCR技术产品鱼龙混杂的局面，大大增加了用户企业的选择成本；

评测标准与规范

背景

2020年4月，中国人工智能产业发展联盟完成了《OCR 服务智能化分级技术要求和评估方法》，规定了OCR服务在功能、性能、安全等方面的技术要求以及评估方法；

7月，OCR 服务要求及评估方法在国际电信联盟 ITU-T SG16 组成功立项(《Requirements and Evaluation Methods for AI-based Optical Character Recognition Service》)，标志着深度学习背景下的OCR评测方法已经逐渐被国际标准组织所接受；

评测流程概述

第一步：对测试图片进行人工标注

标注任务分为标签标注和字符标注；

标签标注是指根据自定义的样本类型进行样本打标签，便于测试引擎在不同场景下的OCR文字识别能力；

字符标注是指对样本图片上的字符进行人工标注，字符包括了文字和标点符号；

第二步：是将测试图片输入到OCR引擎中得到引擎的文字识别结果；

第三步：将经过格式标准化处理后的标注结果和引擎输出结果进行评测指标计算，分析各个评测指标，完成对OCR引擎能力的评测；

评测流程图

图7：OCR文字识别评测流程

评测数据构建

不同应用场景测试数据

卡证类样本数据

包括身份证、银行卡、营业执照、驾驶证、行驶证、护照、道路运输证等证件类图片；

票据类样本数据

包括增值税发票、出租车发票、火车票、机票行程单、定额发票、车辆通行费发票、机动车销售发票等票据类图片；

车牌类样本数据

包括警用车、港澳车、教练车、外交机构用车、临时车牌、双行车牌等车牌类图片；

通用印刷体类样本数据

包括菜单、表格、试卷、行业文档、电商广告等图片；

不同干扰场景测试数据

不同拍摄角度

指通过正拍、斜拍和图像反转等不同角度进行拍摄；

不同光线

指在亮光(可能会出现反光)、暗光和部分亮光部分暗光的情形下拍摄；

文字不清晰

指存在因污损、遮挡、折痕、印章、背景纹理等造成文字不清楚的样本；

边框不完整

主要指图片样本中物体(证件、票据、车牌等)边框没有完整出现在画面中；

其他特殊情况

主要指卡证类样本需考虑带有少数民族文字、生僻字； 同时考虑到证件等用于高安全场景，对复印、扫描、屏幕翻拍、PS等样本进行告警； 印刷体样本需考虑不同字号、不同排版方向，以及弯曲的文本；

主要评价指标

OCR识别效果指标

字段召回率

指被完全正确识别字段(测试输出结果与字段的所有字符完全匹配) 数量与总字段数比值；

字段准确率

指被完全正确识别字段(测试输出结果与字段的所有字符完全匹配) 数量与测试返回识别结果的字段数量比值；

字符召回率

指被完全正确识别字符数量与真实字符总数的比值，可以反应识别错和漏识别的情况；

字符准确率

指被完全正确识别字符数量与测试返回的字符数的比值，可以反应识别错和多识别的情况；

Fβ-Score

可以综合反映字符识别召回效果和字符识别准确效果；

图8：Fβ-Score-计算公式

最小编辑距离

表示测试结果要与标注结果一致需要修改的字符数，忽略引擎返回行的顺序与原图标注的顺序；

适用于电商广告、手机截图等样本版式不规范的 OCR 应用评测；

全图编辑距离

表示测试返回结果要与标注结果一致需要修改的字符数，要求引擎返回的每一行文字顺序要和标注顺序一致；

适用于文档、表格等样本版式较为规范的OCR应用评测；

OCR服务性能指标

识出率

表示成功返回识别结果的概率，识出率越高表示OCR服务被调用成功的概率越大；

图9：识出率-计算公式

平均耗时

表示成功调用引擎的所有请求耗时的平均值(不包括调用OCR服务失败的请求)，用于衡量引擎的处理速度；

图10：平均耗时-计算公式

TOP99耗时

指将引擎成功被调用的所有请求的耗时按升序进行排列，排序在第99%位的耗时数据，表示当前测试环境下，99%的请求耗时都在这个时间范围内； 用于衡量OCR系统处理性能；

OCR告警功能指标

负样本正确告警率

指复印件、扫描件、屏幕翻拍件和PS样本等高风险样本，负样本正确告警率用于衡量OCR服务对负样本的正确告警概率；

图11：负样本正确告警率-计算公式

正样本误告警率

指证件或票据原件图片，正样本误告警率用于衡量OCR服务对正样本的错误告警概率；

图12：正样本误告警率-计算公式

自动化评测平台

天鉴OCR服务引擎自动化评测平台

架构图

图13：腾讯云天鉴服务引擎自动化评测平台框架

标注层和样本层实现测试样本快速标注

标注层支持给样本打上对应的标签和详细的文字标注，将场景数据沉淀为有价值的测试样本； 样本层利用样本标签对样本进行自动化分类，标签也可以自定义设置； 标注人员还可以使用平台根据标签进行数据筛选，方便快速找到符合需求的数据；

评测层实现OCR能力自动测试

评测层使用评测样本集测试不同OCR方法或系统，对字段 / 字符召回率、准确率等指标进行统计分析； 对比分析不同OCR服务系统的识别效果，自动地输出OCR服务评测报告；

自动化评测结果

图14：自动化评测结果示意图1

图15：自动化评测结果示意图2

图16：多维度可视化对比分析示意图

总结

随着人工智能技术发展，OCR相关产品和服务也在不断地演进和迭代。在这一波人工智能浪潮中，OCR技术历久弥新，展现出了勃勃生机，作为计算机视觉领域代表性技术，为众多行业转型升级提供支撑；

为了适应当前OCR技术和产品的发展趋势，更好的推动国内OCR相关产业的发展，中国人工智能产业发展联盟联合业界专家共同制定了OCR服务智能化分级评估规范，也在积极推动相关技术标准国际化；

后续我们将持续推动OCR相关技术标准化工作，不断丰富自动化测试平台能力，为OCR技术供给方提供技术测试服务，帮助企业完善技术和产品；同时，也将发布OCR技术或产品的测试结果，为OCR需求方提供客观公正的选型依据；