摘 要:【目的】为实现在移动端对胡麻干旱胁迫实时监测,解决传统机器学习方法在识别分类时准确率低、速度慢的问题,本研究提出一种基于改进ResNet18的胡麻干旱胁迫分类识别方法。【方法】首先在网络中添加卷积块注意力(CBAM)模块,强化网络对胁迫特征的提取能力;其次调整残差块中批标准层、激活函数、卷积块的连接顺序,实现对输入的样本数据进行归一化操作;最后将ReLU激活函数替换成LeakyReLU激活函数,避免出现神经死亡现象。试验分为无胁迫、轻度干旱、重度干旱3个水分胁迫处理,分批次采集不同干旱程度胡麻叶片图像,数据样本按3:1分为训练集与测试集,并使用数据增强的方法增加样本的多样性。【结果】测试结果显示,改进ResNet18模型分类准确率高达98.67%,相比于ResNet18和VGG16分别提高6.14和4.87个百分点,而模型所需参数大小仅为42.80MB,单幅图像推理时间为17.50ms。【结论】该文模型对胡麻干旱胁迫具有更好的分类识别效果,能够实现嵌入式设备上胡麻干旱胁迫识别的实时性要求。可为胡麻干旱监测、机械化生产等研究提供技术支持。
关键词:胡麻干旱胁迫;图像识别;ResNet18;迁移学习;深度学习
【研究意义】胡麻是我国北方种植的一种重要的经济作物,具有很多的功效,且用途广泛[1]。既可以制作成品质优良的食用油,也可以增强人体免疫能力,降低血脂和血压,还可以抑制癌细胞转移,表现良好的抗癌效果,胡麻的保健功效已受到越来越多的学者和专家重视[2]。胡麻的生长发育对水分要求较高,适宜的水分能促进胡麻的产量和品质。不同干旱胁迫水平对胡麻生长和产量有不同的影响。同时,不同干旱胁迫水平的胡麻需要不同的灌溉量[3]。因此,实现胡麻干旱胁迫的准确监测,对于胡麻精准灌溉、确保胡麻高产具有重要意义。【前人研究进展】早期的干旱胁迫诊断方法是土壤水分检测和农业气象预报等,这种
方法主要通过采集土壤含水量和分析气象数据间接地对干旱进行监测,该技术效率低下,且精度不高,不适合用于干旱胁迫下植物的早期鉴定。在干旱胁迫下,植株叶子会出现萎蔫、叶片表面变黄等表型特征[4]。因此,植株的表型特征可以直接监测出干旱情况,基于表型特征对植株进行干旱胁迫识别和分类是快速、无损的方法[5]。传统的机器学习方法主要提取植物的颜色、纹理等特征[6],然后将其用作研究分析。庄硕[7]通过人工设计一组候选特征从颜色和纹理两个角度,有效地表达玉米植株的表型信息,与两阶段分类模型相结合快速检测出田间群体玉米的干旱胁迫状态。Gutiérrez等[8]利用热成像技术和机器学习模型,通过对成像分析来评估葡萄园的水分胁迫状态。虽然传统的机器学习在生物胁迫的识别中取得不错的效果,但需要对采集的图像进行分割和人工提取,人工提取到的特征也容易受环境影响,识别和分类的准确程度不高。与传统的机器学习方法相比,深度学习处理技术提供自动特征提取和分析的优点,在生物干旱胁迫识别中,具有更好的性能。采用卷积神经网络并借助已有的预训练模型进行迁移学习是最常见的模型训练方法,在实际应用的过程中取得较好效果,大大提高了识别的准确率,缩短了训练时间。钟仁海等[9]在深度学习的玉米估产模型中嵌入注意力机制的长短期记忆神经网络对玉米生长过程时序特征进行提取,通过多任务学习方法对玉米产量进行估测,总体估产精度提升11%-19%,在气象胁迫年份提升幅度更明显(20%-23%)。赵奇慧等[10]通过MaskR-CNN网络对番茄叶片进行实例分割,使用微调的DenseNet169模型对温室番茄叶片水分胁迫程度进行识别分类。Chandel等[11]测试了AlexNet、GoogLeNet和InceptionV3模型,以确定玉米、秋葵、大豆的干旱胁迫,结果发现GoogLeNet的性能优于其他模型。Alsharman等[12]使用改进的GoogleNet模型,对COVIDCT数据集的胸部CT冠状病毒图像进行识别。【本研究切入点】基于深度学习的方法在图像识别与分类过程中表现出良好的性能[13],但其准确率和效率仍有待改进。【拟解决的关键问题】本文提出一种基于改进ResNet18的胡麻干旱识别与分类研究算法。首先引入卷积块注意力模块CBAM进行自适应的特征细化[14];其次通过修改ResNet18网络结构排列顺序,提高网络提取特征能力,最大程度降低了过拟合;最后将ReLU激活函数替换成LeakyReLU激活函数,解决神经死亡问题,增强模型的鲁棒性。以此来解决胡麻干旱胁迫识别分类时准确率低、速度慢的问题,为胡麻干旱胁迫的预防和监测提供了一种自动化方案。
1胡麻图像识别网络模型构建
1.1图像数据采集
该试验于2023年6-7月在甘肃省定西市农科院西寨油料站(104°37'12"E,35°34'48"N)进行,拍摄胡麻开花期包括早上、中午、傍晚等不同时间段。胡麻的干旱状态是逐渐发生的,通过控制施水量来控制胡麻的胁迫状态。使用土壤湿度传感器测量土壤相对含水量,设置3种不同干旱处理,分别为无胁迫即适宜水分(土壤相对含水量为75%~90%)、轻度胁迫(土壤相对含水量为60%~70%)和重度胁迫(土壤相对含水量为25%~35%)。不同干旱胁迫下胡麻叶片表型特征如表1所示。
表1 3种不同胁迫下叶片图像的叶片特征
利用海康机器人开发的MV-CA004-10GM,分辨率720×540的工业相机,拍摄时间为上午8:00至下午18:00,选取三种干旱胁迫下的胡麻图像各500张,试验样本总计1500张。图像样本示例如图1所示。
图1胡麻干旱胁迫图像示例
1.2残差网络模型
ResNet是2016年由何凯明团队提出的一种影响深远的网络模型,在ImageNet的分类比赛上将网络深度直接提高到了152层,ImageNet的目标检测以碾压的优势成功夺得了当年识别和目标检测的冠军,COCO数据集的目标检测和图像分割比赛上同样碾压夺冠,可以说ResNet的出现对深度神经网络来说具有重大的历史意义。与传统的网络结构相比,ResNet增加了“短路”连接(shortcutconnection)或称为跳跃连接(skipconnection),如图2所示:
图2残差块结构
ResNet添加了一个短路连接到第二层线性整流函数(ReLU)之前,那么线性整流函数的输入就由原来的输出H(x)=F(x)变为了H(x)=F(x)+x。在ResNet中,这种输出等于输入的操作成为恒等映射,图2残差块结构中的identity保证了恒等映射。引进identity之后,身份映射将改变网络层的方向,即F(x)+x→x,采用该方法可以实现跨层数据流,以确保模型仍然处于最优状态,并且可以加快网络收敛。在解决梯度弥散的问题上,通过如下的公式分析。
XL=Xl+F(Xi,wi) (1)
上述公式(1)中,XL表示网络第L层的特性,即浅层单元l的特征Xl加上一残差函数映射∑i1F(Xi, wi ),表明模型在任意单元内都具有残差特性。可以看出在残差网络中,下面的层次残差的块的输出都可以由上面的某一层确定。对于反向传播,假设损失函数为E,根据反向传播的链式求导法则,可以得到残差网络的梯度公式[15]。
公式(2)被分为两部分,即不通过权重层传递的和通过权重层传递的1+∑i1F(Xi,wi)),保证了传递直接可以传回任意的浅层Xl,这多层普通神经网络映射上的结果。即使新增的多层神经网络的梯度为0时,残差网络的梯度更新会多一个“1”!这样可以保证不会出现梯度消失的现象,深层的梯度可以直接通过去到上一层,使得浅层的网络层参数得到有效的训练。
1.3改进ResNet18模型构建
为了保证胡麻干旱胁迫分类任务的准确率和效率,选择网络层数较小的ResNet18网络为基础模型。ResNet18即保证网络深度的同时又实现快速收敛,也可以嵌入到物联网设备中,用于该领域的实时干旱监测。
1.3.1增加卷积块注意力模块
卷积块注意模块(ConvolutionalBlockAttentionModule,CBAM)有两个子模块:通道模块和空间模块。通过CBAM中间特征图在深度网络的每个卷积块上进行自适应地细化,可以提高特征表达能力,让网络学会关注重点信息。CBAM是一个轻量级的注意模块,它几乎可以嵌入到任何卷积神经网络中[16],而引入的计算量和参数几乎可以忽略不计,并且可以与基础CNN一起进行端到端训练,如图3所示。
图3通道模块与空间模块在CNN中的连接方式
在原始网络ResNet18中添加卷积块注意力模块CBAM,构成ResNet18-CBAM。如果直接把CBAM模块添加ResNet18中,模型的网络结构将发生变化,导致无法使用预训练参数。本研究在ResNet18中添加了两个CBAM模块,经过测试,两个模块的位置分别设置在第一层卷积和最后一层卷积之后,如图4所示。该组合在识别处具有较高的权重系数,增强了ResNet18的分类效果。
图4ResNet18-CBAM网络结构
1.3.2网络结构的调整
图5表示传统的残差网络结构,依次按照卷积层、标准化层、激活函数的顺序连接[17]这样的连接顺序没有对输入的样本数据进行归一化操作,并未发挥出批标准层的重要作用。
图6改进残差块网络结构
1.3.3 LeakyReLU激活函数
ReLU是在神经网络中常用的激活函数,通常意义下,其指代数学中的斜坡函数,即ReLU(x)=max(0,x)[18]。ReLU对应的函数图像和公式如图7和式(3)所示。
图7ReLU激活函数图像
由图7和公式(3)可以看出,随着训练的进行,只有输入x的取值为正数时,ReLU激活函数才会起作用;当输入的值为负值时,ReLU会出现神经元死亡的问题,导致权重无法更新。
为了解决这一问题,本文使用LeakyReLU替换ReLU作为中间层的激活函数,使训练期间在负区域的激活功能更加活跃,解决了神经死亡问题。LeakyReLU激活函数的图像和公式如图8和式(4)所示。
图8LeakyReLU激活函数图像
LeakyReLU与ReLU很相似,仅在输入小于0的部分有差别,ReLU输入小于0的部分值都为0,而LeakyReLU输入小于0的部分,值为负,且有微小的梯度。
式中,α通常取较小的值。使用LeakyReLU的优势在于:在反向传播过程中,当LeakyReLU输入小于0的值时,也可以计算得到梯度,这样不仅避免了训练过程中出现死节点现象,还增强了模型的鲁棒性。
1.4迁移学习
迁移学习是一种机器学习方法,它利用现有知识来解决不同但相关领域的问题[19-20]。其目标是完成相关领域之间的知识转移。对于卷积神经网络,迁移学习是成功地将在特定数据集上训练的“知识”应用于新领域。
通常有两种方法可以将迁移学习应用于卷积神经网络。一种是使用具有学习权重的预训练模型来获得新问题中要使用的特征,即使用预训练模型作为特征提取器。此时,网络的输出在最后一个完整连接层前面的部分中提取感兴趣的特征。另一种是使用新的数据集来训练网络以微调网络权重。在这种情况下,必须修改输出图层结点的数量以匹配新问题中的类别数量。此外,在这两种情况下,输入数据都必须与预训练网络的输入大小匹配。具体的迁移学习方法取决于目标数据集和原始数据集在大小上的差异和相似性,如果目标数据集非常小且相似,为了防止过度拟合,可以使用预先训练过的模型作为特征提取器,反之则使用微调。
由于本试验中使用的数据集较小,过拟合的可能性相对较大,因此将经过训练的ResNet18网络模型作为特征提取器,即用预先训练过的模型提取图像的特征,最后提取的特征放到Softmax分类器中进行分类训练。
2基于改进ResNet18的胡麻干旱胁迫分类试验
2.1图像数据预处理
数据增强可以提高模型的识别精度,克服过拟合问题。首先将每幅图像尺寸缩放到224×224像素,以最小化训练时间,并调整强度值填充整个强度范围[0,255],然后随机将75%的样本设置为训练集,25%的样本设置为测试集。
由于本文采集的数据样本较小,为了增加训练集的数据量,提高模型的泛化能力[21],因此采用预处理技术对图像数据进行增强,以便提高模型的识别精度并克服过度拟合。本实验采用宽度偏移、高度偏移、水平垂直翻转、剪切和缩放等方式对数据集进行扩充,扩充后的图像共7500张,表2列出了数据增强的具体参数值。
表2数据增强参数值
2.2试验平台与训练参数
所有试验均在Python3.8.5、PyTorch1.8.0环境下进行,硬件环境CPU为IntelCorei7-8750H,主频2.20GHz;GPU为NVIDIAGeForceGTX1050Ti,4GB显卡内存,操作系统为Windows1064位。
为了验证改进ResNet18的有效性,将改进后的分类算法与其他主流网络模型进行对比测试。试验中6个对比模型分别为:ResNet18,VGG16,在ResNet18网络中添加CBAM注意力机制的ResNet18-CBAM模型,改变残差块中批标准层、激活函数、卷积块的连接顺序的ResNet18-调整结构模型,改变ReLU激活函数的ResNet18-LeakyReLU模型,以及原始网络为ResNet18且同时添加CBAM模块、调整网络结构、改变ReLU激活函数的本文方法。在训练期间,所有模型的超参数都是一致的,实验具体参数设置如表3所示。
表3模型参数设置
2.3评价指标
本文采用准确率(Accuracy),召回率(Recall),精确率(Precision),F1值(F1-score),模型大小(Modelsize/MB)以及单幅图像的推理时间(Time/ms)来评估网络的性能。
上述公式中,Accuracy为算法对所有预测中正确预测的比率;Recall为正确预测结果与所有预测的比率;Precision表示被分为正样本的示例中实际为正的比率;F1-score是一个综合评价指标。TP和FN分别表示样本中正样本和负样本的数量;FP和TN表示预测负样本为正和负的样本数量。Modelsize为模型大小,一般使用参数量parameter来衡量,但由于该文中使用的模型参数量太大,所以用单位MB来表示。Time表示单幅图像的推理时间,即从接收输入数据到输出结果所需要的时间。
3结果与分析
3.1损失函数
在训练集上各网络的损失函数变化情况如图9所示。
图9各分类模型在训练期间的损失曲线
从图9损失曲线可以看出,与其他网络相比,VGG16不仅有较大的损失值,损失曲线的震幅也较大。而原始网络为ResNet18的模型则相对稳定一些,且添加CBAM注意力机制、调整网络结构和改变激活函数的模型在训练期间表现更好。本文所提模型的损失曲线最稳定,也低于其他模型,不到1000步时就已经开始稳定。
3.2不同网络模型对比
为了对比6种网络模型在不同胡麻干旱胁迫条件下的分类性能,选择准确率、精度、召回率、F1值、模型大小和平均单幅图像的推理时间作为评价指标,在测试集上的试验结果如表4所示。
表4不同模型评估标准对比
从表4可以看出,本文所提出的在ResNet18中添加CBAM注意力机制、调整网络结构和改变激活函数结合起来构建的新模型,对胡麻干旱胁迫的分类精度为98.67%,优于原始的ResNet18(92.67%),这也进一步说明本文所提网络的可靠性。与此同时,本文提出的三种改进策略在胡麻干旱胁迫数据集上的准确率都略高于ResNet18和VGG16网络模型,分别提升4.53、2.67、1.6和3.27、1.4、0.33个百分点。其中添加CBAM注意力机制方法提升的效果最为明显,这是因为引入CBAM之后,特征覆盖到了胡麻叶片的更多部位,且最终判别的几率也更高,CBAM注意力机制让网络学会关注重点信息。
将三种改进策略结合的网络比只有一种改进模块的准确率都要高,且精度和召回率达到98.67%。在胡麻叶部干旱胁迫分类对比试验中,所提出的模型大小较原始ResNet18网络模型几乎没有增加,训练耗费的时间变化不大,说明其性能提升的同时,并没有增加时间复杂度和空间复杂度,进一步体现了模型改进的有效性。上述结果进一步表明,本文提出的胡麻干旱胁迫分类模型具有轻量化、实时性强且容易部署在嵌入式设备上等优点。
为了进一步探究模型对不同干旱胁迫的分类差异,各类样本的分类精度、召回率和F1值如表5所示。
表5不同模型的精度、召回率和F1值对比
从表5可以看出,所提模型的召回率、F1值都很高,三种胁迫的分类精确度均在97.00%以上,特别是对重度胁迫的分类精度达到100%。说明本文提出的模型有效提升了胡麻干旱胁迫分类的准确性,且具有较好的泛化性能,能够出色的处理分类任务。
3.3分类结果的混淆矩阵
混淆矩阵是用来可视化地展示分类模型的性能,是评估网络结果的重要指标。为了进一步了解各类干旱胁迫分类的识别情况,6种分类网络对3种胁迫分类准确率如图10所示。图中明确标出各模型将某个干旱胁迫类别识别为其他类别的比例,可以更加直观的展示出各模型的错误分类情况。
图10不同模型分类准确率对比
分类混淆矩阵显示,尽管大多数图像被正确分类,但仍有少部分存在错误分类。适宜水分(无胁迫)很容易被错误地归类为轻度干旱,轻度干旱容易被误分类为适宜水分和重度干旱,重度干旱也容易被误以为轻度干旱。通过分析得出被错误分类的可能原因,一方面是由于数据集较少,导致样本不均匀;另一方面因为图像中存在不同的干旱胁迫胡麻植株和不同的表型特征,在同一胁迫处理中,有些叶子卷起特征较明显,有些不明显,这就导致样品分类不正确。此外土壤水分分布不均匀也会导致被错误分类。
总体来说,除了本文提出的模型之外,其他模型被错误分类的情况较为明显。可以看出本文改进的网络模型能够较好地对胡麻干旱胁迫进行区分和判别,有效地降低了干旱胁迫识别误识率。
4结论
(1)本文提出了一种基于改进ResNet18胡麻干旱胁迫鉴定方法。通过添加增加卷积块注意力模块CBAM,进行自适应的特征细化;改变残差块中批标准层、激活函数、卷积块的连接顺序,提高网络提取特征能力;将ReLU激活函数替换成LeakyReLU激活函数,解决神经死亡问题。实验结果表明,改进后的网络分类准确率达到98.67%,优于ResNet18(92.67%)和VGG16(93.80%)。验证了改进方法的准确性,能够准确识别胡麻干旱,为胡麻干旱胁迫的预防和控制提供了一种自动化方案。
(2)通过混淆矩阵可视化地对种类识别结果分析,3种干旱胁迫的精确度、召回率、F1值都达到98.67%,其中重度胁迫的精确度、召回率、F1值基本达到100%。证明了改进模型的性能优越,能够有效地辨别胡麻干旱胁迫。
(3)改进后的模型大小仅为42.80MB,平均单幅图像的推理时间为17.50ms,可满足嵌入式设备上以提供实时、准确、广泛地胡麻干旱胁迫监测和预警。
文章摘自:刘芳军,李玥,武凌,吴丽丽.基于改进ResNet18的胡麻干旱胁迫识别与分类研究[J].江西农业大学学报, 1-17.