文献综述(或调研报告):
自然场景下的文本识别一直是计算机视觉领域和深度学习领域比较火热的课题,近些年来有不少学者进行研究,研究发表了许多新颖有效的算法。总体来说,对于自然场景下的文本识别研究包括两个大方向,分别是传统的文本检测与文本识别以及基于深度学习的文本检测与识别。
(1)传统的文本检测与文本识别
传统的文本检测与识别主要包括两种方法,分别是连通域(Connected Components, CCS)处理法和滑动窗口(Sliding Windows, SW)处理法。
2004年,J Matas提出了最大稳定极值区域[1] (Maximally Stable Extremal Regions, MSER)算法,这种算法基于分水岭概念,对图像进行灰度处理,最初用于图像的斑点区域检测,后经过Neumann L改进用于检测得到候选的文本区域[2]。而后Epshtein等人提出了一种笔画宽度变换(Stroke Width Transform, SWT)算法[3],用Canny算法对图像进行边缘检測,对于每一个可能属于文字边缘的像素点与它最有可能所属的笔画建立联系,就是该笔画的宽度。相对于MSER算法来说,SWT算法的鲁棒性和识别率不佳。MSER算法在自然场景文本检测领域上取得了较好的成绩。在此基础上,MSER有了进一步 的改进,在2013年Li Y等人用梯度信息提出了保留边缘的 MSER 算法[4]。这一方法沿用了传统的计算机视觉领域的思路,在文本识别前先使用复杂的滤波器从图像中提取局部图像的特征,然后再一层一层的使用传统的分类算法对文本和非文本区域进行区分。
传统的文本检测与识别的另一种方法是基于滑动窗口的方式。它通过设定多种不同的尺度和多种不同长宽比的滑动窗口[5],将它们在输入图像上进行滑动,基于滑动所选窗口位置处先提取特征,然后计算方向梯度直方图最后应用随机蕨(Random Ferns)算法来评估所选窗口中是否存在字符。这种算法简单易懂,能够充分地使用滑动窗口中包含的信息,但是由于输入图像产生的滑动窗口较多,需要计算机计算的数据较多,导致计算速度较慢。Pan等人在2011年提出了一种算法[6],通过滑动窗口方法来计算文本存在的置信度和尺度信息,在计算得到置信度以及尺度信息之后,利用条件随机场(Conditional Random Field,CRF)模型来反选非文本区域。在此之后,Mishra改进了滑动窗口算法,提出一种自顶向下的算法[7],使用具有与字符类似的较大宽高比的标准滑动窗口算法获得备选区域,再在备选区域内进一步寻找是否存在文本。
总体来说,传统的检测方法基本都是采用人工手动提取相应的特征信息,由此可能无法避免存在特征信息不完整,特征信息遗漏的问题,从而导致识别效果较差。目前认为,传统的目标检测算法主要存在以下缺点:
Ⅰ)基于滑动窗口的文本检测与识别耗时长、滑动窗口存在冗余;
Ⅱ)基于连通域的文本检测与识别在面对环境复杂的变化下鲁棒性较差;
Ⅲ)对于数据量较大的图片信息的处理能力较差,算力有限。
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。