基于深度卷积神经网络的番茄主要器官分类识别方法-周云成.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于深度卷积神经网络的番茄主要器官分类识别方法-周云成.pdf》由会员分享,可在线阅读,更多相关《基于深度卷积神经网络的番茄主要器官分类识别方法-周云成.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 33 卷 第 15 期 农 业 工 程 学 报 Vol.33 No.15 2017 年 8月 Transactions of the Chinese Society of Agricultural Engineering Aug. 2017 219 基于深度卷积神经网络的番茄主要器官分类识别方法周云成,许童羽,郑 伟,邓寒冰 (沈阳农业大学信息与电气工程学院,沈阳 100866) 摘 要: 为实现番茄不同器官的快速、准确检测,提出一种基于深度卷积神经网络的番茄主要器官分类识别方法。在VGGNet 基础上,通过结构优化调整,构建了 10 种番茄器官分类网络模型,在番茄器官图像数据集上,应用多
2、种数据增广技术对网络进行训练,测试结果表明各网络的分类错误率均低于 6.392%。综合考虑分类性能和速度,优选出一种 8 层网络用于番茄主要器官特征提取与表达。用筛选出的 8 层网络作为基本结构,设计了一种番茄主要器官检测器,结合Selective Search 算法生成番茄器官候选检测区域。通过对番茄植株图像进行检测识别,试验结果表明,该检测器对果、花、茎的检测平均精度分别为 81.64%、 84.48%和 53.94%,能够同时对不同成熟度的果和不同花龄的花进行有效识别,且在检测速度和精度上优于 R-CNN 和 Fast R-CNN。 关键词: 目标识别;图像处理;像素;番茄器官;深度卷积
3、神经网络;数据增广;深度学习 doi: 10.11975/j.issn.1002-6819.2017.15.028 中图分类号: TP183 文献标志码: A 文章编号: 1002-6819(2017)-15-0219-08 周云成,许童羽,郑 伟,邓寒冰. 基于深度卷积神经网络的番茄主要器官分类识别方法 J. 农 业工程学报,2017,33(15):219226. doi: 10.11975/j.issn.1002-6819.2017.15.028 http:/www.tcsae.org Zhou Yuncheng, Xu Tongyu, Zhen Wei, Deng Hanbing. Cl
4、assification and recognition approaches of tomato main organs based on DCNNJ. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(15): 219226. (in Chinese with English abstract) doi: 10.11975/j.issn.1002-6819.2017.15.028 http:/www.tcsae.org 0 引 言从植株图像
5、中检测出番茄的主要器官(花、果、茎、叶)是典型的目标识别问题,其对病虫害检测、靶向施药、日光温室场景理解,以及智能农机的发展都具有重要意义。利用颜色空间的差异进行图像分割是常采用的传统目标识别方法之一。文献 1-2利用成熟番茄与背景颜色特征的差异,通过阈值分割的方法识别红色成熟番茄,但这种方法无法识别未成熟果。文献 3通过分析番茄植株图像的 HIS 颜色空间分布特性,用 Otsu 分割算法突出红色吊蔓绳区域来间接识别番茄的主茎杆,该方法需要借助于红色吊蔓绳,有一定的制约性。用过滤器算子提取图像低等级特征后再用分类器分类是另一种传统目标识别方法。 Haar4、 HOG5、 Sift6等是一些常用
6、的过滤器算子。文献 7用 Haar-like 提取成熟番茄的非颜色编码特征, 结合 AdaBoost 算法构建识别成熟番茄的分类器。文献 8提出一种融合 Harris 和 Sift 算法的荔枝采摘点计算与立体匹配方案。过滤器结合分类器的目标识别方法需要人工选择过滤器算子,算子类型和数量的选择需要结合大量的试验测试,适用性往往受到抑制。番茄器官,特别是果和花,其形态多样、颜色变化丰富、重叠遮挡严重、环境背景复杂,用传统方法识别的技术难度较大,收稿日期: 2017-03-06 修订日期: 2017-07-25 基金项目:辽宁省科学事业公益研究基金( 2016004001) ;国家自然科学基金( 3
7、1601218) 作者简介:周云成,男,安徽阜阳人,副教授,博士,主要从事机器学习在农业信息处理中的应用研究。沈阳 沈阳农业大学信息与电气工程学院,100866。 Email: 且很难用一种方法同时识别所有类型的器官。 近年来发展起来的深度卷积神经网络( deep convolutional neural network, Deep CNN, DCNN)是一种新的目标分类识别方法。 该方法能够实现自动化的图像特征提取,与分类识别过程融为一体,并通过数据实现自我学习。国内外学者在 DCNN 的基本理论9、分类网络10-15与识别网络16-20设计,以及大规模图像处理的应用21上开展了相关研究,
8、取得了长足进展。 DCNN在图像处理领域正得到越来越广泛的应用22。 文献 23用视频分析方法提取奶牛躯干图像作为 DCNN 的输入来识别奶牛的个体身份。 Ouyang 等设计了具有多分辨率图像输入的 DCNN 来分类浮游生物24。文献 25用约简的 AlexNet10识别茶园主要害虫。文献 26设计了一个 7 层结构的 CNN 网络,用于鲜茶叶智能分选系统的茶叶等级筛选。文献 27结合 CNN 和支持向量机( support vector machine, SVM)提出一种适用于空心村高分影像的建筑物自动化检测方法。这些研究表明CNN 在图像多类型目标的分类识别中具有很好的适用性,克服了传统
9、方法的不足。 为同时实现番茄不同器官的快速、准确检测,本文借鉴 Fast R-CNN18, 提出 1 种基于 DCNN 的番茄器官分类识别方法。考虑番茄器官形态多样性,在不同环境光条件下采集番茄主要器官和植株图像,构建训练样本。基于 VGGNet13,以 top-1 错误率为判据,通过优化调整网络结构及输入图像维度,同时利用避免网络过拟合的数据增广( data augmentation)技术,设计、训练、筛选高性能分类网络。以筛选出的分类网络为基础,将其卷万方数据农业工程学报( http:/www.tcsae.org) 2017 年 220 积部分用于番茄植株图像的特征提取与表达,建立番茄器官
10、检测器,并通过检测试验检验本文方法的有效性。 1 番茄图像采集 图像数据采集自沈阳农业大学实验基地日光温室,主要采集番茄的花、果、茎、叶 4 类图像。为了将番茄植株和器官同环境背景区别开,采集温室背景环境(温室建筑、土壤等)作为第 5 类图像。使用高清摄像机和本文开发的快速图像获取程序采集图像,共采集 30 000幅 5 种类型的 RGB 图像,用于网络的训练和测试。为降低训练样本的多样性不足导致的网络过拟合的概率,图像采集过程中采取了一些措施:考虑温室环境光条件的不同造成的成像结果的差异,分别在晴朗天气和阴天分时段采样;采样时考虑番茄器官的不同形态、遮挡情况,以果实部分为例,分别对不同果形、
11、不同成熟度的果,从多个角度进行成像,以增加样本的多样性。同时采集 了 1 000 幅番茄植株图像,用于识别网络的训练和测试。 2 基于 VGGNet 的番茄器官分类网络 网络变得更深是深度学习的本质24,理论上,增加网络的宽度和深度,可提高网络的学习能力。尽管加深网络层次已成为通用的方法,但随着深度的增加,网络的训练成本也大幅增加,且有研究表明当网络增加到一定层数后,再增加深度,性能反而降低14。因此,为设计 1 个实用的番茄器官分类网络,需要结合理论分析和大量的试验验证。 2.1 VGGNet 网络架构 VGGNet 是 DCNN 的典型代表,其 33 小卷积核的设计思想使得网络的参数更少,
12、 且在具有 1 000 个分类的大规模图像数据集 ImageNet21的分类和定位上的适用性已得到了充分的验证,因此许多网络均以此为基础进行设计。图 1是含 16 个权重层的 VGGNet 网络结构( VGG-16)。 注: conv3-64 等表示卷积核大小为 33,通道数为 64 的卷积层,下同; pool,/2 表示滑动步长为 2 pixel 的池化层; FC-4 096 等表示通道数为 4 096 的全连接层,下同。 Note: conv3-64 and so on indicate some convolutional layers with 33 convolution kerne
13、l and 64 channels, the same below; pool,/2 represents 2 pixel sliding step pooling layer; FC-4 096 and so on means the fully-connected layers with 4 096 channels, the same below. 图 1 16 个权重层的 VGGNet 网络架构 Fig.1 16 weight layers VGGNet architecture VGGNet 的输入为 224224 pixel 的 RGB 图像, 图像经过网络的处理,输出其属于每个类
14、别的概率。 VGGNet架构总体上由 5个用于特征映射和降维的池化层分隔成 6部分( 6 组),其中前 5 组分别由多个卷积核大小为 33的卷积层构成, 第 6 组为 3 个全连接 ( fully-connected, FC)层。 VGGNet 的每个卷积层卷积操作的滑动步长( stride)固定为 1 pixel,并通过边界填充( padding)来保持输入 /输出数据维数(宽高)不变。 5 组卷积层的通道数从 64开始,后一组的数量是上一组的 2 倍,直至扩大到 512。VGGNet 的池化层均采用最大池化( max-pool),池化窗口大小为 22。 3 个 FC 层的通道数分别为 4
15、096、 4 096和 1 000,第 3 个 FC 层的 1 000 个出口( way)分别表示1 幅图像属于每个类别的得分。 VGGNet 的最后一层为soft-max 层,用于将得分转化为图像属于每个类别的概率。在 VGGNet 中,除池化层外,每个隐层后都设置 1个修正线性单元( ReLU)做非线性变换,以加快网络收敛速度。 2.2 基于 VGGNet 的番茄器官分类网络配置 将 VGG-16 直接用于番茄器官特征提取与分类有许多不适用的地方。首先番茄的果、花在植株图像上的成像通常较小,因此选择 128128 pixel 和 6464 pixel 两种规格的 RGB 图像作为网络输入,
16、并通过后续试验选择适宜大小。针对番茄花、果、茎、叶及背景图像的 5 分类问题, 将 VGGNet 的第 3 个 FC 层的神经元数量 (通道数)调整为 5 个。 VGG-16 的权重参数达 65 M13,是为解决类似 ImageNet 这种大规模图像任务而设计的 DCNN,其训练和应用过程中的计算量庞大。番茄器官的分类识别在类型和样本数量上都远小于 ImageNet。为提高计算效率,在保持 VGGNet 基本架构不变的前提下,本文通过调整 VGG-16 的网络深度和宽度,配置了 10 种类型的番茄器官分类网络(表 1),通过后续试验选择高性能的网络,每种网络需训练的参数数量如表 2。 VGGN
17、et 的权重参数主要集中在 FC 层。 表 2 说明,随着网络深度的增加,网络参数的数量逐渐增加,但增加的幅度要远小于通过增加网络的宽度带来的参数增加量。 3 番茄器官分类网络的训练与分析 3.1 图像数据增广与预处理 表 1 中网络需要 128128 或 6464 pixel 大小的输入图像,由于番茄器官样本图像大小不同,在输入前,要对读入的每幅图像进行预处理。在预处理中,除了将图万方数据第 15 期 周云成等:基于深度卷积神经网络的番茄主要器官分类识别方法 221 像缩放 /裁剪为合适的大小,还需要利用数据增广技术来降低网络过拟合的风险。数据增广是指在保持图像数据类型(标签)不变的前提下,
18、对原图像进行各种变换,以增加样本的多样性。 表 1 基于 VGGNet 的 10 种分类网络配置 Table 1 10 kinds of network configurations based on VGGNet 网络配置 Network configurations 网络名称 Network name Conv1 Pool1 Conv2 Pool2 Conv3 Pool3 Conv4 Pool4 Conv5 Pool5 FC1 FC2 FC3 输出Output权重层数Weightlayers I conv3-64 max-pool conv3-128 max-pool conv3-256
19、max-pool conv3-512 max-pool - - FC-4096 FC-4096 FC-5 soft-max 7 II conv3-64 max-pool conv3-128 max-pool conv3-256 max-pool conv3-512 max-pool conv3-512 max-pool FC-4096 FC-4096 FC-5 soft-max 8 III conv3-64 max-pool conv3-128 max-pool conv3-256 2 max-poolconv3-5122 max-poolconv3-5122 max-pool FC-4096
20、 FC-4096 FC-5 soft-max 11 IV conv3-64 2 max-pool conv3-128 2 max-pool conv3-256 2 max-poolconv3-5122 max-poolconv3-5122 max-pool FC-4096 FC-4096 FC-5 soft-max 13 V conv3-64 2 max-pool conv3-128 2 max-pool conv3-256 3 max-poolconv3-5123 max-poolconv3-5123 max-pool FC-4096 FC-4096 FC-5 soft-max 16 VI
21、conv3-64 2 max-pool conv3-128 2 max-pool conv3-256 4 max-poolconv3-5124 max-poolconv3-5124 max-pool FC-4096 FC-4096 FC-5 soft-max 19 VII conv3-32 max-pool conv3-64 max-pool conv3-128 max-pool conv3-256 max-pool conv3-256 max-pool FC-2048 FC-2048 FC-5 soft-max 8 VIII conv3-16 max-pool conv3-32 max-po
22、ol conv3-64 max-pool conv3-128 max-pool conv3-128 max-pool FC-1024 FC-1024 FC-5 soft-max 8 IX conv3-8 max-pool conv3-16 max-pool conv3-32 max-pool conv3-64 max-pool conv3-64 max-pool FC-512 FC-512 FC-5 soft-max 8 X conv3-4 max-pool conv3-8 max-pool conv3-16 max-pool conv3-32 max-pool conv3-32 max-po
23、ol FC-256 FC-256 FC-5 soft-max 8 注: Conv1Conv5 表示第 1第 5 组卷积层; Pool1Pool5 表示第 1第 5 个池化层; FC1FC3 表示第 1第 3 个全连接层, 下同; conv3-64 2 等表示 2 层 conv3-64。 Note: Conv1-Conv5 represent 1st to 5th convolutional layer groups; Pool1-Pool5 represent 1st to 5th pooling layers; FC1-FC3 represent 1st to 3rd fully-conne
24、cted layers, and the same below; conv3-64 2 and so on represent 2 conv3-64 layers. 表 2 网络参数的数量 Table 2 Number of network parameters 分类网络 Classification network/M 输入大小 Input size I II III IV V VI VII VIII IX X 128128 pixel 51.902 54.261 59.570 59.754 65.063 70.371 13.571 3.396 0.880 0.213 6464 pixel
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 卷积 神经网络 番茄 主要 器官 分类 识别 方法 周云成
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内