书签分享收藏举报版权申诉 / 10

立即下载

当前位置：首页 > 教育专区 > 教案示例 > 基于深度卷积网络的图像超分辨率--译文-董超资料(共10页).doc

基于深度卷积网络的图像超分辨率--译文-董超资料(共10页).doc

上传人：飞****2

文档编号：16277726

上传时间：2022-05-16

格式：DOC

页数：10

大小：50KB

( 4.5 )

《基于深度卷积网络的图像超分辨率--译文-董超资料(共10页).doc》由会员分享，可在线阅读，更多相关《基于深度卷积网络的图像超分辨率--译文-董超资料(共10页).doc（10页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上基于深度卷积网络的图像超分辨率摘要：提出一种深度学习方法单一图像超分辨率(SR)。我们的方法直接学习一个端到端的低/高分辨率图像之间的映射。映射表示为卷积神经网络(CNN)的深处低分辨率图像作为输入和输出的高分辨率。我们进一步证明传统基于稀疏编码的SR方法也可以被视为一个深卷积网络。但与传统方法的是分别处理每个组件,我们的方法共同优化所有层。我们深CNN还一个轻量级的结构,展示了先进的修复质量,为达到快速的实际在线使用。我们将探讨不同的网络结构和参数设置来实现性能和速度之间权衡。此外,我们扩展我们的网络同时应对三个颜色通道,并显示更好的整体重建质量。专心-专注-专业1

2、介绍单一图像超分辨率(SR)20,旨在恢复高分辨率图像从一个低分辨率图像,是计算机的一个经典问题愿景。这个问题本质上是不适定的因为多样性存在对于任何给定的低分辨率的解决方案像素。换句话说,它是一个欠定的逆问题,并不是唯一的解决方案。这样的通常由约束减轻问题解空间的先验信息。学习先验,最近主要是采用最先进的方法基于实例的46策略。这些方法要么利用内部相似性的图像5,13,16,19,47,或者从外部学习映射函数低收入和高分辨率的范例对2,4,6,15,23,25,37,41,42,47,48,50,51。外部的基于基于实例的方法可以制定通用图像超分辨率,或者可以设计合适领域特定的任务,例如,人脸

3、幻觉30,50,根据训练样本提供。基于稀疏编码的方法49,50老代表外部基于实例的方法之一。这涉及几个步骤的解决途径。首先,人口出现的重叠的块输入图像和预处理(如。,减去的意思是和归一化)。这些块然后编码由一个低分辨率的字典。稀疏的系数传入的高分辨率字典重建高分辨率块。重叠重建块聚合(如。通过加权平均)来产生最终的输出。这个途径通过基于最外部的实例的方法共享,特别注意学习和优化词典2,49、50或构建有效的映射功能25、41、42,47。然而,其余的途径已经很少优化或步骤考虑在一个统一的优化框架。在本文中,我们表明,上述途径相当于深卷积神经网络27(更多细节在3.2节)。出于这事实上,我们考虑

4、一个卷积神经网络直接学习一个端到端的低收入和之间的映射高分辨率图像。我们的方法从根本上不同于现有外部基于实例的方法,在我们这没有明确学习词典41,49、50或繁殖2、4为建模的块空间。这些都是隐式地实现通过隐藏层。此外,块提取和聚合也制定了卷积层,所以在优化。在我们的方法中,整个SR途径完全是通过学习,很少的前/后处理。我们命名该模型超分辨率卷积神经网络(SRCNN)1。被提议的SRCNN有一些吸引人的属性。首先,它的结构是故意设计简单,然而, 相比之下最先进的基于实例的方法，提供了优越的准确性。图1所示。该超分辨率卷积神经网络(SRCNN)超过双三次的基线通过几个训练迭代,并优于基于稀疏编码

5、的方法(SC)50与温和培训。性能可以进一步提高更多的训练迭代。提供了更多的细节4.1.1节(Set5数据集和一个升级的因素3)。该方法提供了视觉吸引力重建图像。图1显示了一个例子的比较。第二,中等数量的滤波器和层,我们的方法实现速度快为实际在线使用即使在一个CPU。我们的方法比基于实例的数量方法,因为它是完全前馈和不需要解决优化问题上使用。第三,实验表明,修复质量网络可以进一步改善，当(i)更大和更多不同的数据集，和/或当(2)一个更大的和更深入的模型被使用。相反,更大的数据集/模型可以对现有基于实例方法的挑战。此外,该网络可以应付三个通道的彩色图像同时实现超分辨率提高性能。总的来说,本研究

6、的贡献主要是在三个方面:1)提出了一种完全卷积神经网络图像超分辨率。网络直接学习一个端到端的高低分辨率图像之间的映射,除了优化只有很少的前/后处理。2)我们之间建立一个关系基于深度学习的SR法和传统基于稀疏编码的 SR方法。这种关系为网络结构的设计提供了指导。3)我们证明深度学习是有用的经典计算机视觉的超限分辨问题,质量好,所能达到的水平速度。提出了一种初步版本的这项工作早期的11。目前的工作增加了初始版本在重要的方面。首先,我们改善SRCNN引入大的滤波器大小的非线性映射通过添加非线性映射层,探索更深层次的结构层。其次,我们延长SRCNN处理三个颜色通道(YCbCr或RGB同时颜色空间)。实

7、验中,我们证明,可以提高性能相比单通道网络。第三,大量的新被添加到分析和直观的解释最初的结果。我们也扩展原始实验从Set52和Set1451测试图像BSD20032(200个测试图像)。此外,我们与许多最近发表的方法和确认我们的模型仍然优于现有方法不同的评价指标。2相关工作2.1图像超分辨率根据图像先验,单幅图片超分辨率算法可以分为四种类型：预测模型,基于边缘的方法,图像统计方法和基于块(或基于实例)的方法。这些方法已经彻底研究,评估在杨的工作46。其中,基于实例的方法实现的最先进的性能。内部基于实例的方法利用自相似性特征并生成范例块输入图像。这是Glasner首次提出的工作16,和几个改进的

8、变异13,45提出了加快实现。外部基于实例方法学习低/ 高分辨率块从外部数据集之间的映射。这些研究不同于如何学习一个紧凑的字典或多个空间来联系低/高分辨率块,和如何表示计划可以进行在这样的空间。弗里曼的先驱工作等。14,字典是直接呈现低/高分辨率块对,最近邻域(NN)的输入块是发现在低分辨率的空间,其相应的高分辨率块用于重建。Chang等。4引入流形嵌入技术替代最近邻域策略。在杨工作49,50,上述最近邻域通信的进步更复杂的稀疏编码形成。其他映射等功能内核回归,简单函数,随机森林和锚定社区回归提出了进一步提高映射精度和速度。基于稀疏编码的方法及其几种改进41,42、48等在如今先进的几种SR方

9、法当中。在这些方法中,块是重点优化;块提取和聚合步骤视为前/后处理和处理分别。大多数的SR算法关注灰度或单通道图像超分辨率。对于彩色图像,上述方法首先将问题转化到不同的颜色空间(YCbCr或YUV),SR只有在亮度通道。也有工作同时试图super-resolve所有渠道。例如,金和Kwon25和DAI et al7应用他们的模型到每个RGB通道和他们相结合生成最终的结果。然而,没有一个分析了SR性能不同的渠道及恢复所有三个渠道的必要性。2.2卷积神经网络卷积神经网络(CNN历经几十年27和cnn部分由于其成功的形象分类，最近显示出爆炸性流行 18、26。他们也被成功地应用于其他计算机视觉领域,

10、如对象检测34、40、52,人脸识别39行人检测35。有几个因素的中央在这个进步重要性:(i)有效训练实现在现代强大的gpu26,(ii)提出的修正的线性单元(ReLU)33使得收敛更快,同时还提出了好质量26,(iii)方便地访问大量的培训数据(如ImageNet9)用于训练更大的模型。我们的方法也受益于这些进展。2.3图像恢复深度学习有一些使用深度学习的研究图像恢复的技术。所有层的多层感知器(MLP)全(卷积)相比,适用于自然图像去噪post-deblurring去噪36和3。更多的与我们的工作密切相关,卷积神经网络应用于自然图像去噪22和消除嘈杂的模式(污垢/雨)12。这些修复或多或少是

11、denoising-driven问题。崔等。5提出将auto-encoder网络嵌入超分辨概念下途径内部基于样本方法16。深度模型不是特别设计为一个端到端解决方案,因为每一层级联的要求独立的自相似性搜索过程和auto-encoder的优化。在相反,该SRCNN优化端到端映射。此外,SRCNN更快的速度。它不仅是一种定量方法优越,但也实际有用的。3卷积神经网络超分辨率3.1制定考虑一个低分辨率的图像,我们第一次使用双立方插值来提升它到所需的尺寸,是我们唯一perform预处理。让我们表示插值的图像作为y .我们的目标是恢复从Y图像F(Y)尽可能相似地面真理的高分辨率图像x方便演示,我们仍然叫Y“

12、低分辨率”形象,虽然有相同的大小作为x,我们希望学习一个映射F,概念上包括三个操作:1)块提取和表示:这个操作从低分辨率图像提取(重叠)块Y和代表每个块高维向量。这些向量组成组特征图,等于数量向量的维数。2)非线性映射:此操作非线性把每个高维向量映射到另一个高维向量。每个映射向量是高分辨率的概念上的表示块。这些向量构成另一组特性地图。3)重建:此操作集合以上高分辨率patch-wise表示来生成最终的高分辨率图像。这图像将类似于地面真理X。我们将显示所有这些操作形成一个卷积神经网络。网络的概述如图2所示。接下来我们详细的定义每个操作。3.1.1块提取和表示在图像恢复(如一个受欢迎的策略。1)人

13、口中提取的块,然后由一组pre-trained基如PCA、DCT,哈雾等等代表他们。这个相当于卷积滤波器的图像由一组,这是一个基础。在我们的配方中,我们涉及这些基地的优化的优化网络。在形式上,第一层表示为一个操作F1F1(Y) = max(0; W1 Y + B1) ; (1)W1和B1分别代表了滤波器和偏见,和“”表示卷积操作。这里,W1对应n1滤波器的支持c f1f1,其中c是在输入图像通道的数量,f1是一个滤波器的空间大小。直观地说,W1将n1卷积用于图像,每个卷曲内核大小c f1f1。输出组成n1特征图。B1是n1-dimensional向量的每个元素与一个滤波器。我们应用修正线性单元

14、(ReLU马克斯(0,x)滤波器33responses4。3所示。双立方插值也是一个卷积操作,所以它可以作为卷积层制定。然而,输出的大小这一层是大于输入大小,所以有部分的跨步。来利用流行的优化实现作为cuda-convnet26,我们排除这“层”学习。图2所示。给定一个低分辨率的图像Y,第一个卷积层SRCNN提取一组特征图。第二层地图这些特性非线性映射到高分辨率块表示。最后一层结合预测在一个空间附近生成最终的高分辨率图像F(Y)3.1.2非线性映射第一层每一个块提取一个n1-dimensional特性。在第二次手术,我们每个地图这些n1-dimensional向量n2-dimensional一

15、个。这相当于应用n2的滤波器一个简单的空间支持11。这个解释是只有效期为11滤波器。但它很容易推广到更大的滤波器33或55。在这种情况下,非线性的映射不是在输入图像的一个块;相反,在一个33或55“块”地图的功能。的第二层是操作:F2(Y)= max(0;W2F1(Y)+ B2):(2)这里W2包含n2滤波器的大小n1f2 f2,和B2是n2维。每个输出的n2维向量是一个高分辨率的概念上的表示块,将用于重建。可以添加更多的卷积层增加非线性。但这可以增加模型的复杂性(n2f2 f2n2参数一层),因此需要更多的训练时间。我们将探索更深层次的结构通过引入额外的4.3.3节中非线性映射层。3.1.3

16、重建在传统的方法,预测重叠高分辨率块通常平均生产最后的完整图像。平均可以考虑作为一个预定义的滤波器在一组特征图(每个职位的“夷为平地”向量形式highresolution块)。出于这一点,我们定义一个卷积层产生最终的高分辨率图片:F(Y)= W3F2(Y)+ B3:(3W3对应c n2f3f3滤波器的大小,和B3 c-dimensional向量。如果表示的高分辨率块在图像域(即。,我们可以简单地重塑表示形成的块),我们期望的滤波器的行为像一个平均滤波器;如果表示在一些其他领域的高分辨率块(如。系数的一些基地),我们预计W3像首先投射系数上图像域,然后平均。无论哪种方式,W3一组线性滤波器。有趣

17、的是,尽管上述三个操作出于不同的直觉,他们都导致相同的形式作为一个回旋的层。我们把所有三个操作结合在一起,形成一个卷积神经网络(图2)。在这个模型中,所有的过滤权重和偏见进行了优化。尽管简洁的整体结构,我们仔细SRCNN模型由绘画丰富的经验了从超分辨率的显著进展49,50。在下一节中,我们详细描述了关系。3.2 基于稀疏编码方法的关系我们表明,基于稀疏编码的 SR方法49,50可以视为一个卷积神经网络。图3显示了一个例子。在基于稀疏编码的方法,让我们考虑一下提取一个f1f1低分辨率块输入图像。稀疏编码的能手,Feature-Sign29,将第一个项目块到(低分辨率)字典。如果字典大小是n1,这

18、相当于应用n1线性滤波器(f1f1)输入图像(平均减法也是线性的操作也会被吸收)。随着中对此进行了阐述图3的左部。稀疏编码解算器将迭代过程n1系数。这个解算器的输出是n2系数,通常n2 = n1在稀疏的情况下编码。这些n2系数的表示高分辨率块。在这个意义上,稀疏编码解决者的行为作为一种特殊的非线性映射运营商的空间支持11。看到中间图3的一部分。然而,稀疏编码的能手不是前馈,即。,它是一种迭代算法。在相反,我们的非线性算子是完全前馈,可以有效地计算。如果我们设置f2 = 1,那么我们可以视为pixel-wise非线性算子全层。值得注意的是,“稀疏SRCNN编码解决者”指的是第一个两层,但不只是第

19、二层或激活功能(ReLU)。因此,非线性操作在SRCNN也是通过优化学习过程。图3所示。说明基于稀疏编码的卷积神经网络方法的观点。上面的n2系数(稀疏编码后)然后投射到另一个(高分辨率)字典产生一个高分辨率块。重叠高分辨率块然后取平均值。如前所述上图,这相当于线性运算上n2特征图。如果用于高分辨率块重建的大小f3f3,那么线性滤波器有一个等价的空间大小f3f3的支持。看到正确的图3的一部分。上面的讨论表明,sparse-codingbased SR方法可以被视为一种卷积神经网络(不同的非线性映射)。但并非所有的操作被认为是基于稀疏编码的 SR的优化方法。相反,在我们的卷积神经网络,低分辨率字典

20、、高分辨率字典,非线性映射,意味着减法和在一起平均,都参与了滤波器来进行优化。所以我们的方法优化端到端映射包括所有操作。上面的比喻也能帮助我们设计hyperparameters。例如,我们可以设置滤波器的大小最后一层比第一层的小,因此我们更加依赖中央部分highresolution块(极端,如果f3 = 1,使用没有平均的中心像素)。我们也可以设置n2 n1,因为它是稀疏的。一个典型的和基本的设置是f1 = 9,f2 = 1,f3 = 5,n1 = 64,和n2 = 32(我们评估更多的设置实验部分)。总的来说,估计利用高分辨率的像素信息的(9 + 5 - 1)2 = 169像素。显然,这些信

21、息利用重建相对比用于现有外部基于实例的方法,如。使用(5 + 5 - 1)2 = 81 pixels515,50。这是一个的原因SRCNN给性能优越3.3培训端到端映射函数F学习需要网络参数的估计=fW1;W2 W3、B1、B2;B3g。这是通过重构图像之间的损失最小化F(Y;)和相应的地面实况highresolution x给定一组高分辨率图像fXig及其相应的低分辨率图像fYig图像,我们使用均方误差(MSE)损失函数:L()= 1nnX我= 1jjF(易建联;)- Xijj2;(4)其中n是训练样本的数量。使用MSE损失函数支持高PSNR。的PSNR值为定量评估是一种广泛使用的度量吗图像

22、恢复质量,至少是部分相关感知质量。值得注意到的是卷积神经网络不排除使用其他种类的损失函数,如果失去功能可诱导的。如果一个更好的感知动机指标培训期间,它是灵活的网络适应这一指标。相反,这种灵活性一般是对传统的“手工”方法难以实现。尽管该模型培训有利于PSNR值高,我们还观察到令人满意的性能评估模型时使用选择评价指标。、SSIM MSSIM(见4.1.1节)。损失最小化使用随机梯度下降法与标准反向传播28。特别是,权重矩阵更新i+1 = 0:9 i - LW i; Wi +1 = Wi + i+1; (5)在“f1;2,3 g和我的指标层和迭代,是学习速率,和W L”我的导数。每一层的过滤权重通过

23、初始化从与零均值高斯分布随机和标准偏差0.001(偏见和0)。的4学习速率是打败第一两层和纯最后一层。我们实证发现较小的学习率在过去的网络层是很重要的收敛(类似于去噪情况下22)在训练阶段,fXig地面实况图像准备为fsubfsubc-pixel子图片随机从训练图像裁剪。我们通过“子图片”意味着这些样本被视为“图像”,而小比“块”,在这个意义上,“块”是重叠的,需要一些平均后处理“子图片”不需要。合成的低分辨率fYig样品,我们模糊子图像的高斯内核,业者进行升级的因素,和高档的通过双立方插值相同的因素。为了避免边界效应在训练,所有的卷积层没有填充,和网络产生一个更小的输出(fsubf1,f2,

24、f3 + 3)2c)。MSE损失函数是评价的差异习的中心像素与网络的输出。虽然我们在训练中使用一个固定的图像大小,卷积神经网络可以应用于图像在测试期间任意大小的。我们实现我们的模型使用cuda-convnet包26。我们也试过咖啡包24观察到相似的性能。4实验我们首先研究使用不同的数据集的影响对模型的性能。接下来,我们检查滤波器学会了我们的方法。然后,我们探索不同网络的体系结构设计,研究超分辨率性能和因素之间的关系像深度,滤波器,滤波器的大小。随后,我们将我们的方法和最近state-ofthe-arts定量和定性。后42,超分辨率只应用于亮度通道(Y通道YCbCr颜色空间)在章节4.1 -4.

25、4,所以c = 1在第一/最后一层,和性能(如。、PSNR和SSIM)评估在Y通道。在最后,我们将扩展网络处理彩色图像和评估的性能在不同的频道。4.1培训数据如文献所示,深度学习受益于大数据训练。为了便于比较,我们使用一个相对较小的训练集41,50,由91年的图片,和一个大训练集,由图像ILSVRC 2013 ImageNet分区检测培训。培训子图片的大小fsub = 33。因此,91 -图像数据集可以分解到24800年子图片,从原始图像中提取的步幅14。而ImageNet提供超过500万子图片甚至使用了33。我们用基本的网络设置,即。f1 = 9,f2 = 1,f3 = 5,n1 = 64,

26、和n2 = 32。我们使用Set52作为验证集,我们观察到类似的趋势如果我们使用较大的Set1451。升级的因素是3。我们使用基于稀疏编码的方法50基线,达到平均PSNR值为31.42dB使用不同的培训测试收敛曲线集如图4所示。培训时间在ImageNet差不多在91 -图像数据集反向传播的数量是一样的。可以观察到,相同数量的反向传播(即。8108),SRCNN + ImageNet达到32.52分贝,高于32.39 dB产生了91年的训练图像。积极的结果表明SRCNN性能可能进一步提高使用更大的训练集,但是大数据的影响并不一样令人印象深刻所示的高层视力问题26。这是主要是因为,91年的图片已经

27、足够可变性的自然图像捕获。在另一方面,我们的SRCNN是一个相对较小的网络(8032参数),不能overfit 91图像(24800个样本)。尽管如此,我们采用ImageNet,它包含更多样的数据,作为默认培训在接下来的实验。4.2学习超分辨率的滤波器。图5显示的例子学习第一层滤波器训练在ImageNet 3升级的因素。请查阅我们发表实现升级2和4的因素。有趣的是,每个滤波器其特定的功能。例如,g和滤波器h就像高斯拉普拉斯算子/滤波器,滤波器- e就像边缘探测器在不同方向,滤波器f是像一个纹理提取器。示例特征图不同的层如图6所示。很明显,特征图的第一层包含不同的结构(如。在不同方向的边缘),而

28、的第二层主要是不同的强度。4.3模型和性能的权衡基于基本的网络设置(即。f1 = 9,f2 = 1,f3 = 5,n1 = 64,和n2 = 32),我们将逐步修改这些参数调查的一些最好的性能和速度之间权衡,研究性能和参数之间的关系图4所示。培训ImageNet大得多的数据集超过91张图片的使用提高了性能。图5所示。图中显示的第一层滤波器训练与一个升级的因素ImageNet 3。滤波器是组织基于各自的差异。图6所示。不同层特征图的示例。4.3.1滤波器数量一般来说,性能将提高如果我们增加网络width6,即。,添加更多的滤波器运行时间的成本。具体地说,基于我们的网络默认设置的n1 = 64和n

29、2 = 32岁,我们的行为两个实验:一个是与一个更大的网络n1 = 128和n2 = 64,(2)另一种是较小的网络和n1 = 32和n2 = 16。类似于4.1节,我们也训练两个模型ImageNet和测试3 Set5升级的因素。结果观察到在8108反向传播如表1所示。它是清楚,优越的性能可以通过增加宽度。然而,如果一个恢复速度快需要一个小网络宽度优先,哪个仍然可以取得更好的性能比sparsecoding-based方法(31.42 dB)。表1使用不同的结果在SRCNN过滤数据。培训执行ImageNet同时评估是在Set5数据集上进行。4.3.2滤波器的大小在本节中,我们检查网络灵敏度不同大

30、小的滤波器。在以前的实验中,我们设置滤波器尺寸f1 = 9,= 1 f2和f3 = 5,网络可以表示为9-1-5。首先,是一致的基于稀疏编码的方法,我们固定滤波器的大小第二层是f2 = 1,并扩大滤波器的大小其他层f1 = 11和f3 = 7(11-1-7)。所有其他的设置与4.1节保持不变。结果有一个升级的因素3 Set5 32.57 dB,这是略高于32.52 dB在4.1节。这表明相当大的滤波器大小掌握丰富的结构信息,进而导致更好的结果。然后我们进一步研究网络与一个更大的滤波器第二层的大小。具体来说,我们修复滤波器的大小f1 = 9,f3 = 5,扩大第二个滤波器的大小层(我)f2 =

31、3(9-3-5)和(2)f2 = 5(9-5-5)。收敛曲线在图7中显示使用一个更大的滤波器尺寸可以显著提高性能。具体来说,通过9 - 3 -平均PSNR值5和9-5-5在Set5 8108反向传播分别为32.66 dB和32.75 dB。研究结果显示利用邻域信息的映射阶段是有益的。然而,部署速度也会降低与一个更大的滤波器的大小。例如,的数量参数为9-1-5、9-3-5和9-5-5是8032,24416年分别为57184。9-5-5几乎的复杂性9-3-5的两倍,但性能改进边际。因此,网络规模的选择应该是性能和之间的平衡速度。4.3.3层数最近的研究他和太阳17表明,CNN受益于增加网络的深度吗

32、适度。在这里,我们试着更深层次的结构通过添加另一个非线性映射层,n22 = 16滤波器的大小f22 = 1。我们进行三个控制实验,即。,9-1-1-5,9-1-1-5,9-5-1-5,添加一个附加层9-1-5、9-3-5和9-5-5,分别。初始化方案和学习速率的附加层第二层是一样的。从图13(a),13 8(b)和(c),我们可以观察到但是网络收敛慢于三层网络。然而,如果有足够的训练时间,更深层次的网络将最终赶上和收敛于三层的。超分辨率的深层结构的有效性是发现明显不如图片所示分类17。此外,我们发现更深网络并不总是导致更好的性能。具体地说,如果我们添加一个额外的层n22 = 32滤波器在9-1

33、-5网络,那么性能就会降低和不能超过三层网络(见图9(a)。如果我们通过添加两个非线性映射层更深n22 = 32和n23 = 16滤波器9-1-5,那么我们必须设置一个较小的学习速率确保收敛,但我们仍然不观察优越性能经过一个星期的培训(见图9(a)。我们也试图扩大额外的滤波器的大小层f22 = 3,探索两个深层结构- 9 - 33 - 5和9-3-3-3。然而,从收敛曲线如图9所示(b),这两个网络没有显示更好的结果比9-3-1-5网络图8所示。对比三层和基础课网络。所有这些实验表明,它不是“越深“在这个深度模型超分辨率越好。它可能是由于训练的难度。我们的美国有线电视新闻网网络不包含池层或接触

34、层,因此,敏感的初始化参数和学习速度。当我们去更深层次的(如。,4或5层),我们发现很难设置合适的学习速率保证收敛。即使它是收敛的,网络可能会陷入一个坏局部最小值,学到了什么滤波器的多样性甚至给予足够的培训时间。这种现象也在16,在那里不当增加了深度会导致精度饱和或退化的图像分类。为什么“更深不是更好”,仍然是一个悬而未决的问题,这就需要调查,以便更好地理解渐变和培训动力学在深架构。因此,我们仍然采用三层网络在接下来的实验。4.4比较先进的在本节中,我们展示了定量和定性我们的方法的结果相比,最先进的方法。我们采用该模型具有良好的performancespeed权衡:三层网络与f1 = 9,f2

35、 =5,f3 = 5,n1 = 64,和n2 = 32 ImageNet训练。为每个升级因素2 f2;3,4 g,我们特定的训练网络factor7。比较。我们比较我们与先进SR饮片SRCNN方法:杨的SC -稀疏coding-based方法等。50不+米歇尔-邻居嵌入+局部线性的嵌入方法4ANR固定社区回归方法41+ -调整后固定社区回归方法42,和KK -25中描述的方法,实现了最佳的性能在外部examplebased方法,根据全面在杨等进行评价的工作46的实现都是公开的作者提供的代码,所有图像downsampled使用相同的双三次的内核。测试集。 Set52(5)图像,Set1451(图片

36、14日)和BSD20032(200张照片)8用于评估升级的性能因素2、3和4。评价指标。除了广泛使用的PSNR值和SSIM43指标外,我们还采用另一个四评价矩阵,即信息保真度准则(IFC)38,噪声质量测量(NQM)8,加权峰值信噪比(WPSNR)和多尺度结构相似度指数(MSSSIM)44获得高的相关性与人类知觉的分数报道46。4.4.1的定量和定性评估如表2所示,3和4,拟议中的SRCNN收益率最高的分数在大多数experiments9评价矩阵。请注意,我们的SRCNN结果基于检查点的8108反向传播。具体来说,升级因子3,平均收益在PSNR值通过SRCNN 0.15 dB,0.17 dB

37、,0.13 dB,高于下一个最好的方法,一个+42,在这三个数据集。当我们看一看评价指标,我们观察到SC,令我们吃惊的是,比双立方插值得到更低的分数国际金融公司和NQM。很明显,SC的结果比双立方插值的视觉上赏心悦目。这表明这两个指标可能并不真实揭示了图像质量。因此,不管这两个指标,SRCNN之间达到最佳的性能所有方法和扩展的因素。值得指出的是,SRCNN超过的双三次的基线的一开始学习阶段(见图1),适度训练,SRCNN优于现有最先进的方法(见图4)。然而,性能远未收敛。我们猜想,可以获得更好的结果较长的训练时间(参见图10)。图14、15和16显示了超分辨率的结果一个升级的因素的不同方法3。

38、是可以被观察到,SRCNN产生尖锐的边缘比其他方法没有任何明显的工件整个图像。此外,我们报告最近的另一个深刻的学习崔的图像超分辨率方法(DNC)等艾尔。5。他们采用不同的内核(高斯模糊滤波器的标准偏差0.55),我们训练一个特定的网络(9-5-5)使用相同的模糊和DNC内核公平的定量比较。升级的因素3,训练集是91 -图像数据集。从收敛曲线如图11所示,我们观察我们的SRCNN超过DNC只有7107backprops,可以获得更大的利润较长的训练时间。这也证明了端到端学习优于DNC,即使模型已经“深度”。10/24/11运行时间。图12显示了运行时间比较的几个最先进的方法,以及它们的恢复Set

39、14性能。所有基线方法得到从相应的作者的MATLAB +墨西哥人实现,而我们是在纯c+。我们配置文件所有算法的运行时间使用相同的机(Intel CPU 3.10 GHz和16 GB的内存)。请注意,我们的方法是高度的处理时间线性测试图像分辨率,因为所有图片通过相同数量的旋转。我们的方法之间总是会有取舍的性能和速度。为了展示这一点,我们的火车三个网络的比较,9-1-5,9-3-5,9-5-5。很明显,9 -1 - 5网络是最快的,而它仍然达到更好性能比下一个最先进的A +。其他方法是几次甚至数量级相比9-1-5网络慢。注意速度差距不是主要由不同的MATLAB / c+实现,而是需要解决的其他方法

40、复杂的优化问题上使用(如。,稀疏的编码或嵌入),而我们的方法是完全前馈。9-5-5网络实现最佳性能,但运行时间的成本。的测试时间CNN可以进一步加速的速度在许多方面,例如,近似或简化训练网络10,21,31,可能微乎其微降解性能4.5实验的颜色通道在之前的实验中,我们遵循传统super-resolve彩色图像的方法。具体来说,我们首先将彩色图像转换为YCbCr空间。SR算法只应用于Y频道,Cb,Cr通道是高档双立方插值。有趣的是找出如果超分辨率如果我们共同考虑所有可以提高性能在这个过程中三个频道。我们的方法是灵活的接受更多的渠道在不改变学习机制和网络设计。特别是,它可以很容易地处理三个通道同时

41、通过设置输入通道c = 3。在接下来的实验中,我们将探讨不同培训策略彩色图像超分辨率随后评估他们的表现不同频道。实现细节。培训的执行91 -图像数据集,进行了测试Set52。网络设置:c = 3,f1 = 9,f2 = 1,f3 = 5,n1 = 64,和n2 = 32。正如我们已经证明SRCNN在不同尺度的有效性,我们只在这里评估3升级的性能因素。比较。我们比较我们的方法与stateof-art颜色SR方法- KK25。我们也尝试不同学习策略进行比较:Y只:这是我们的基本方法,这是一个单通道(c = 1)网络只在训练亮度通道。Cb,Cr通道使用双立方插值高档。YCbCr:培训执行的三个频道Y

42、CbCr空间。Y pre-train:第一,保证上的性能Y频道,我们只使用MSE Y的通道输给pre-train网络。然后我们使用所有渠道的MSE来调整参数。CbCr pre-train:我们使用Cb的MSE,Cr输给pre-train网络渠道,调整参数在所有频道。RGB:培训的三个通道上执行RGB空间结果如表5所示,我们有后观察。(我)如果我们直接上火车YCbCr渠道,比这更糟的结果双立方插值。培训分为一个糟糕的地方最低,由于固有的不同的特征Y和Cb的Cr频道。(2)如果我们pre-trainY或Cb,Cr渠道,最终性能改善,但是还没有比“Y”的彩色图像(见表5的最后一列,在PSNR值计算在

43、RGB颜色空间)。这表明,Cb,Cr渠道可以减少训练时Y通道的性能表现在一个统一的网络。(3)我们注意到,Cb,Cr有更高的渠道为“Y pre-train PSNR值”比“CbCr pre-train”。原因在于Cb之间的差异,Cr渠道和Y通道。视觉、Cb、Cr频道比Y更模糊的通道,从而不影响将采样的过程。当我们pre-trainCb,Cr渠道,只有少数滤波器激活。然后训练很快就会陷入一个坏的在微调局部最小值。另一方面,如果我们在Y pre-train频道,更多的滤波器激活,Cb的性能,将Cr通道被推高得多。图13显示了Cb,Cr渠道的第一层滤波器“Y pre-train”所示的模式很大程度上

44、不同于哪一个图5。在RGB(iv)培训渠道实现在彩色图像的最佳结果。不同于YCbCr频道,RGB通道展览高相互之间的交互作用。拟议中的SRCNN能够利用这种自然通讯渠道之间的重建。因此,模型达到类似的结果在Y通道“Y”,并更好的结果在Cb,Cr渠道比双立方插值。(v)在KK25,超分辨率分别应用在每个RGB通道。当我们变换结果YCbCr空间,PSNR值Y的通道作为“Y”类似,但是,Cb,Cr渠道比双立方插值贫穷。结果表明该算法偏Y通道。总的来说,我们的方法在RGB通道达到更好的性能比KK和singlechannel网络(“Y”)。它也是值得注意的改善与单通道网络并不重要(即。0.07 dB)。这表明Cb,Cr渠道几乎帮助改善的性能。5结论我们提出了一种新颖的深度学习的方法针对单一图像超分辨率(SR)。我们表明,常规基于稀疏编码的 SR方法12新配方深层卷积神经网络。SRCNN建议的方法,学习一个端到端的低收入和高分辨率图像之间的映射,一些额外的优化以外的前/后处理。和一个轻量级的结构,SRCNN取得比最先进的方法性能优越。我们猜想这额外的性能可以进一步通过探索更多的滤波器和不同的培训策略。此外,拟议的结构,以其简单性和鲁棒性的优点,可以应用其他低层次视觉问题,如图像去模糊或同时SR +去噪。一个也可以调查网络,以应对不同的升级因素。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于深度卷积网络图像分辨率译文资料 10

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：基于深度卷积网络的图像超分辨率--译文-董超资料(共10页).doc
链接地址：https://www.taowenge.com/p-16277726.html