传统字符识别算法的流程是先对单个字符定位然后分割,接着再采用人工设计的特征对分类器进行训练,识别效果的好坏主要由分割算法决定,较常见的分割算法有基于连通域的和基于垂直投影的[8-10]。分割算法将图像进行二值化后,再通过连通域或灰度直方图切割字符,在样式规整、背景单一下的字符有较好的效果,但这对于背景复杂的字符很难有好的效果。于是有的研究者开始探索另一条道路,如Girshick等[11]提出R-CNN模型,便标志着深度学习[12]与OCR技术结合道路的开始。随后Hinton课题组使用深度学习创建的AlexNet[13],在ImageNet图像识别比赛上一举夺冠,并且碾压第二名采用SVM方法的分类性能,这成果吸引了众多学者开始关注深度学习,此后深度学习的发展进入爆发性增长,更多的研究人员将OCR技术与深度学习结合在一起,一些具有优秀性能的网络结构被提出[14-16],基于深度学习的各种文本检测和文本识别模型也逐渐涌现。