序言
邱跃鹏
人工智能、大数据、区块链、云计算是新一代信息技术革命浪潮;
光学字符识别(OCR,Optical Character Recognition)自19世纪70年代以来,技术不断创新,应用场景逐渐丰富,已成为人工智能领域的重要分支;
2020年4月,国家发改委首次明确将人工智能等技术基础设施列入“新基建”范畴,推动了OCR技术在金融、政府、物流、医疗、教育多个领域的应用;
OCR被成为最“接地气”的人工智能技术,能将图片中的文字自动、快速转化成文本,起到降本增效,节省人物力的作用;
谢呼
推动人类文明走向新一轮创新浪潮的是信息采集、处理和使用技术,OCR生当其时;
OCR作为计算机的“眼睛”,支持和引领技术前进;同时,文明也要意识到其广泛应用在云端的场景存在侵犯用户隐私、数据泄露等安全风险,文明必须不断提升技术安全和抗击风险的能力;
魏凯
将图像、视频中的文字转变为机器可读可处理的字符信息,是计算机信息处理追求的目标,是机器与现实世界进行视觉交互的重要基础,这也催生了OCR技术;
1870 年,电报技术和为盲 人设计的阅读设备的出现标志着 OCR 技术的诞生。近年来,随着计算机视觉、自然语言理解、 知识图谱等人工智能技术在 OCR 中实际使用,OCR 的性能和效率都得到了质的飞跃;
OCR作为一种相对成熟的人工智能技术,已经在金融、交通、政务、医疗、物流 等垂直领域得到了广泛应用。单据处理、车牌识别、证照核验等OCR应用已经成为支撑各垂直行业数字转型、智能升级、融合创新 的重要基础能力;
OCR技术发展现状分析
OCR技术历史沿革
1870年:电报技术和为盲人设计的阅读设备标志着OCR技术的诞生;
2000年:在线服务(WebOCR)的发展让OCR在云计算环境以及移动端上被广泛应用;
2014年:深度学习(DeepLearning)技术的出现让OCR技术有了飞速发展;
2015年:OCR技术开始对整体文本进行识别,加强了对文本序列信息的有效利用;
2017年:OCR技术逐渐与NLP技术结合,赋予了OCR技术“理解”文字内容的能力;
OCR技术分类概述
文本检测和识别是OCR技术的两个重要核心技术,OCR技术可以分为传统方法和深度学习方法;
传统方法
传统的OCR方法通过针对文本检测和识别分别设计鲁棒的特征,来提高模型的 文字识别效果;<br>文本检测主要用于定位图片中文本的区域,传统的文本检测方法可以分为基于显著特征的检测方法和基于滑动窗口的检测方法两大类;<br>文本识别阶段,可划分为文本二值化、文本行分段、字符分割、单字识别、字符矫正等一系列子问题;
缺点:传统的文本检测与识别方法受限于手工设计特征的表达能力和处理流程的复杂性,对于较为复杂的图片情况,例如带有大角度畸变以及模糊不清的文本图像, 很难达到理想的文字识别效果;
深度学习
独立两阶段方法
独立两阶段是指对文本检测和文本识别两个阶段分开建模的方法;
文本检测中不同方法优劣点各异,基于回归的检测方法能够很好的解决场景图像中带方向文字 的检测,但会受到文本区域形状不规则的干扰;
基于分割的方法不受限于文本的大小及形状,但对距离较近的文本行容易出现文本行粘连而失效;基于分解的方法先定位文本片段或单个字符,再将它们组合成最终的检测结果,可以很好地处理 任意形状、方向的文本;
文本识别的算法可分为基于CTC技术的方法和基于注意力机制的网络模型两大类;<br>其中,CTC技术可以有效地捕获输入序列的上下文依赖关系,同时能够很好地 解决图像和文本字符对齐的问题,但在自由度较大的手写场景下仍会出现识别错误;<br>注意力机制主要应用于卷积神经网络特征权重的分配上,提高强特征权重,降低弱 特征的权重,同时在由图像到文字的解码过程中又具有天然的语义捕获能力,因此 在图像特征提取以及语义提取方面都提升了OCR模型的性能;
端到端一段式方法
与独立两阶段方法不同,端到端的方法是将文字检测和识别整合到一个网络模型中进行训练,避免检测模型和识别模型之间由于误差传播而导致的性能下降;
一种经典的端到端文本定识方法是使用文本建议框生成器和经过训练的聚合通 道特征检测器的组合来生成候选文本包围框,对候选框进行过滤和校正后,再进行文本内容识别,根据识别结果和标注文字的差异来联合调整网络中文本检测和识别两部分参数;
另一种字符级的端到端方法Mask TextSpotter被提出,该方法基于经典的Mask-RCNN方法改进,针对图像每个可能区域生成字符响应图,用于表示单个字符的存在和位置信息,模型使用字符响应图作为特征训练模型来识别单字符,最后将预测的单字符连接在一起后输出文本预测结果;
传统方法与深度学习方法的比较
传统方法
文本检测方法
基于滑动窗口的检测方法
基于显著特征的检测方法
深度学习方法
独立两极端方法
文本检测方法
基于回归的方法
基于分割的方法
基于分解的方法
文本识别方法
基于CTC技术的方法
基于注意力机制的网络模型
端到端文本定识方法
文字检测+识别
文字检测和识别整合到一个网络模型中,已成为OCR领域的新技术趋势
OCR技术发展趋势
鲁棒性
什么是鲁棒性?
鲁棒是Robust的音译,也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力;
见百度百科:鲁棒性
一体化的端到端OCR模型
构建一体化的端到端网络,同时对文字检测和识别进行训练, 目前已成为了OCR领域的一种重要技术趋势;
端到端的网络设计, 实现了基础特征的共享,既能够减少重复计算,又能够提高特征 的质量,促进任务性能的改善;
高效率
兼具高性能高效率的OCR
大量的OCR应用需要在资源受限的移动端设备上运行,当前移动端OCR算法大多以牺牲一定的算法精度来换取运行速度,针 对移动设备设计兼顾性能和效率的轻量OCR模型是未来趋势;
智能
从感知到认知的智能OCR
OCR技术通常从计算机视觉领域出发,未来与自然语言处理技术、知识图谱等更广领域的交叉融合,通过语义及知识的深度挖掘提升OCR性能是重要趋势;
此外,在OCR中引入强化学习和元学习等新的学习范式,让机器自主学习如何识别文字,也将成为研究热点;
总结
随着人工智能技术发展,OCR相关产品和服务也在不断地演进和迭代。在这一波人工智能浪潮中,OCR技术历久弥新,展现出了勃勃生机,作为计算机视觉领域 代表性技术,为众多行业转型升级提供支撑;
为了适应当前OCR技术和产品的发展趋势,更好的推动国内OCR相关产业的发展,中国人工智能产业发展联盟联合业界专家共同制定了OCR服务智能化分级评估规范,也在积极推动相关技术标准国际化;
后续我们将持续推动OCR相关技术标准化工作,不断丰富自动化测试平台能力,为OCR技术供给方提供技术测试服务,帮助企业完善技术和产品;同时,也将发布OCR技术或产品的测试结果,为OCR需求方提供客观公正的选型依据;