关键词:水稻害虫;模式识别;全局特征;局部特征;训练样本;支持向量机
随着图像处理和机器学习理论的发展与应用,基于图像的昆虫自动识别技术取得了很大的进展[1-6]。昆虫图像识别方法的研究步骤一般包括昆虫图像采集、图像预处理、昆虫特征提取与优化、分类器的训练和测试等;其中,昆虫特征的提取与优化和训练样本的选择对昆虫识别结果的影响很大。研究对象不同,选取的特征也不一样。用于昆虫识别的特征主要包括全局特征、局部特征或多特征进行融合。刘芳等[1]提取了蝴蝶正面和反面的颜色特征值,结合神经网络实现了对蝴蝶的自动识别,准确率达到 95.2%。于新文等[2]提取了6种几何形状特征,利用判别函数识别3种昆虫,准确率达100%;张红涛等[3] 、方明等[4]提取了7 个形态学特征,对稻纵卷叶螟、棉铃虫等 9 种害虫图像进行自动识别。赵三琴等[5]将傅里叶描述子用于昆虫识别中,分别以欧式距离和形状特征系数为判度,通过图像相似性来识别象甲和飞虱。Zhao 等[6]提出一种基于 Gabor 纹理特征描述子的纹理特征提取方法,对 6 种不同形态的害虫图像进行识别,取得较好效果。Larios 等[7]提取石蝇的 PCBR(principal curvature-basedregion detector)检测器识别石蝇幼虫,可以效地区分出两种难以辨别的石蝇。Wen 等[8]建立了基于全局特征和局部特征的组合模型,有效地实现了对果树害虫的分类识别。李凡[9]利用图像轮廓特征和灰度共生矩阵特征,训练支持向量机(support vector machine, SVM)分类器来识别50种蝴蝶,准确率达到98.0%。胡永强等[10]利用图像颜色、形态和纹理,结合稀疏表达来识别5种油菜害虫,识别率为80.7%。
近几年,随着深度学习在图像识别中出色的表现,已有学者开始将卷积神经网络应用到昆虫识别中,取得了较好的结果。Liu等[11]首先利用显著性分割方法定位害虫,然后建立CNN模型对自然环境下拍摄的12种水稻害虫识别,获得95.1%的识别率。杨国国等[12]利用卷积神经网络进行茶园昆虫识别,获得了91.5%识别率。Wen等[13]利用金字塔堆叠去噪自动编码器(IpSDAE)架构构建深层神经网络对蛾类进行识别,获得96.9%识别率。虽然深度卷积神经网络在图像识别中已取得较好的表现,但它严重依赖于大数据。
上述这些研究,不管是传统的模式识别方法,还是目前流行的深度卷积神经网络模型,在特定的有限的昆虫种类和样本中识别,均能获得较好的识别效果。实际上,自然界昆虫种类繁多,而我们的训练样本不可能囊括所有种类的昆虫,如果待识别昆虫不在训练样本集中,将被误检为已知昆虫。为了有效排除非目标,Lytle等[14]利用朴素贝叶斯模型预测待测图像的概率,并与概率阈值进行比较,实现非目标石蝇图像的排除,分类准确率可达到96.4%。2015年,冼鼎祥等[15] 则是将非目标昆虫作为一类,利用昆虫图像的全局特征训练SVM分类器识别3种水稻目标害虫,获得了较高的识别率。
针对小样本数据,如何利用传统的模式识别方法,从大量的未知种类的昆虫图像中识别出某些种类的目标昆虫,是本文研究的主要目的。在经典的模式识别方法中,筛选出能区分目标昆虫的图像特征是获得良好分类器的前提,这样可以减少特征维数、增强模型泛化能力、减少过拟合和提升模型的性能[16]。当非目标昆虫数量远远多于目标昆虫,目标和非目标样本量不均衡情况下,如何确定目标与非目标样本的比例以获得最优的分类器,冼鼎祥等[15]一文并没有作出深入的研究。本文以水稻昆虫为研究对象,为了从大量的水稻昆虫图像中识别出5种目标害虫,研究不同的图像特征和设置不同数量的训练样本训练支持向量机分类器对目标害虫识别结果的影响。
1 材料与方法
1.1 材料
将水稻害虫测报灯[17]诱集到的水稻昆虫平铺于白色平台上,利用工业相机(1200万像素)采集昆虫图像。利用最大熵阈值分割方法[18]、去噪、填充空洞、去除无效连通域、与原图进行映射等预处理方法去除背景,并用黑色背景进行填充。在这些水稻灯诱昆虫图像中,非目标昆虫约占90%以上(图1.1 A-B)。需要识别的水稻目标害虫包括体型较大的3种螟虫(大螟(Sesamia inferens)、二化螟(Chilo suppressalis)和稻纵卷叶螟(Cnaphalocrocis medinalis))和体型较小的2种飞虱(白背飞虱(Sogatella furcifera)和褐飞虱(Nilaparvata lugens) )(图1.1 C-J)。在非目标昆虫中,有很多昆虫在颜色、形态和纹理上与目标害虫有一定的相似性。根据昆虫体型相对大小,这里将它们分为大型昆虫和小型昆虫;3种螟虫属于大型昆虫,2种飞虱属于小型昆虫。