基于深度卷积网络的图像超分辨率--译文-董超资料(共10页).doc
《基于深度卷积网络的图像超分辨率--译文-董超资料(共10页).doc》由会员分享,可在线阅读,更多相关《基于深度卷积网络的图像超分辨率--译文-董超资料(共10页).doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上基于深度卷积网络的图像超分辨率摘要:提出一种深度学习方法单一图像超分辨率(SR)。我们的方法直接学习一个端到端的低/高分辨率图像之间的映射。映射表示为卷积神经网络(CNN)的深处低分辨率图像作为输入和输出的高分辨率。我们进一步证明传统基于稀疏编码的SR方法也可以被视为一个深卷积网络。但与传统方法的是分别处理每个组件,我们的方法共同优化所有层。我们深CNN还一个轻量级的结构,展示了先进的修复质量,为达到快速的实际在线使用。我们将探讨不同的网络结构和参数设置来实现性能和速度之间权衡。此外,我们扩展我们的网络同时应对三个颜色通道,并显示更好的整体重建质量。专心-专注-专业1
2、介绍单一图像超分辨率(SR)20,旨在恢复高分辨率图像从一个低分辨率图像,是计算机的一个经典问题愿景。这个问题本质上是不适定的因为多样性存在对于任何给定的低分辨率的解决方案像素。换句话说,它是一个欠定的逆问题,并不是唯一的解决方案。这样的通常由约束减轻问题解空间的先验信息。学习先验,最近主要是采用最先进的方法基于实例的46策略。这些方法要么利用内部相似性的图像5,13,16,19,47,或者从外部学习映射函数低收入和高分辨率的范例对2,4,6,15,23,25,37,41,42,47,48,50,51。外部的基于基于实例的方法可以制定通用图像超分辨率,或者可以设计合适领域特定的任务,例如,人脸
3、幻觉30,50,根据训练样本提供。基于稀疏编码的方法49,50老代表外部基于实例的方法之一。这涉及几个步骤的解决途径。首先,人口出现的重叠的块输入图像和预处理(如。,减去的意思是和归一化)。这些块然后编码由一个低分辨率的字典。稀疏的系数传入的高分辨率字典重建高分辨率块。重叠重建块聚合(如。通过加权平均)来产生最终的输出。这个途径通过基于最外部的实例的方法共享,特别注意学习和优化词典2,49、50或构建有效的映射功能25、41、42,47。然而,其余的途径已经很少优化或步骤考虑在一个统一的优化框架。在本文中,我们表明,上述途径相当于深卷积神经网络27(更多细节在3.2节)。出于这事实上,我们考虑
4、一个卷积神经网络直接学习一个端到端的低收入和之间的映射高分辨率图像。我们的方法从根本上不同于现有外部基于实例的方法,在我们这没有明确学习词典41,49、50或繁殖2、4为建模的块空间。这些都是隐式地实现通过隐藏层。此外,块提取和聚合也制定了卷积层,所以在优化。在我们的方法中,整个SR途径完全是通过学习,很少的前/后处理。我们命名该模型超分辨率卷积神经网络(SRCNN)1。被提议的SRCNN有一些吸引人的属性。首先,它的结构是故意设计简单,然而, 相比之下最先进的基于实例的方法,提供了优越的准确性。图1所示。该超分辨率卷积神经网络(SRCNN)超过双三次的基线通过几个训练迭代,并优于基于稀疏编码
5、的方法(SC)50与温和培训。性能可以进一步提高更多的训练迭代。提供了更多的细节4.1.1节(Set5数据集和一个升级的因素3)。该方法提供了视觉吸引力重建图像。图1显示了一个例子的比较。第二,中等数量的滤波器和层,我们的方法实现速度快为实际在线使用即使在一个CPU。我们的方法比基于实例的数量方法,因为它是完全前馈和不需要解决优化问题上使用。第三,实验表明,修复质量网络可以进一步改善,当(i)更大和更多不同的数据集,和/或当(2)一个更大的和更深入的模型被使用。相反,更大的数据集/模型可以对现有基于实例方法的挑战。此外,该网络可以应付三个通道的彩色图像同时实现超分辨率提高性能。总的来说,本研究
6、的贡献主要是在三个方面:1)提出了一种完全卷积神经网络图像超分辨率。网络直接学习一个端到端的高低分辨率图像之间的映射,除了优化只有很少的前/后处理。2)我们之间建立一个关系基于深度学习的SR法和传统基于稀疏编码的 SR方法。这种关系为网络结构的设计提供了指导。3)我们证明深度学习是有用的经典计算机视觉的超限分辨问题,质量好,所能达到的水平速度。提出了一种初步版本的这项工作早期的11。目前的工作增加了初始版本在重要的方面。首先,我们改善SRCNN引入大的滤波器大小的非线性映射通过添加非线性映射层,探索更深层次的结构层。其次,我们延长SRCNN处理三个颜色通道(YCbCr或RGB同时颜色空间)。实
7、验中,我们证明,可以提高性能相比单通道网络。第三,大量的新被添加到分析和直观的解释最初的结果。我们也扩展原始实验从Set52和Set1451测试图像BSD20032(200个测试图像)。此外,我们与许多最近发表的方法和确认我们的模型仍然优于现有方法不同的评价指标。2相关工作2.1图像超分辨率根据图像先验,单幅图片超分辨率算法可以分为四种类型:预测模型,基于边缘的方法,图像统计方法和基于块(或基于实例)的方法。这些方法已经彻底研究,评估在杨的工作46。其中,基于实例的方法实现的最先进的性能。内部基于实例的方法利用自相似性特征并生成范例块输入图像。这是Glasner首次提出的工作16,和几个改进的
8、变异13,45提出了加快实现。外部基于实例方法学习低/ 高分辨率块从外部数据集之间的映射。这些研究不同于如何学习一个紧凑的字典或多个空间来联系低/高分辨率块,和如何表示计划可以进行在这样的空间。弗里曼的先驱工作等。14,字典是直接呈现低/高分辨率块对,最近邻域(NN)的输入块是发现在低分辨率的空间,其相应的高分辨率块用于重建。Chang等。4引入流形嵌入技术替代最近邻域策略。在杨工作49,50,上述最近邻域通信的进步更复杂的稀疏编码形成。其他映射等功能内核回归,简单函数,随机森林和锚定社区回归提出了进一步提高映射精度和速度。基于稀疏编码的方法及其几种改进41,42、48等在如今先进的几种SR方
9、法当中。在这些方法中,块是重点优化;块提取和聚合步骤视为前/后处理和处理分别。大多数的SR算法关注灰度或单通道图像超分辨率。对于彩色图像,上述方法首先将问题转化到不同的颜色空间(YCbCr或YUV),SR只有在亮度通道。也有工作同时试图super-resolve所有渠道。例如,金和Kwon25和DAI et al7应用他们的模型到每个RGB通道和他们相结合生成最终的结果。然而,没有一个分析了SR性能不同的渠道及恢复所有三个渠道的必要性。2.2卷积神经网络卷积神经网络(CNN历经几十年27和cnn部分由于其成功的形象分类,最近显示出爆炸性流行 18、26。他们也被成功地应用于其他计算机视觉领域,
10、如对象检测34、40、52,人脸识别39行人检测35。有几个因素的中央在这个进步重要性:(i)有效训练实现在现代强大的gpu26,(ii)提出的修正的线性单元(ReLU)33使得收敛更快,同时还提出了好质量26,(iii)方便地访问大量的培训数据(如ImageNet9)用于训练更大的模型。我们的方法也受益于这些进展。2.3图像恢复深度学习有一些使用深度学习的研究图像恢复的技术。所有层的多层感知器(MLP)全(卷积)相比,适用于自然图像去噪post-deblurring去噪36和3。更多的与我们的工作密切相关,卷积神经网络应用于自然图像去噪22和消除嘈杂的模式(污垢/雨)12。这些修复或多或少是
11、denoising-driven问题。崔等。5提出将auto-encoder网络嵌入超分辨概念下途径内部基于样本方法16。深度模型不是特别设计为一个端到端解决方案,因为每一层级联的要求独立的自相似性搜索过程和auto-encoder的优化。在相反,该SRCNN优化端到端映射。此外,SRCNN更快的速度。它不仅是一种定量方法优越,但也实际有用的。3卷积神经网络超分辨率3.1制定考虑一个低分辨率的图像,我们第一次使用双立方插值来提升它到所需的尺寸,是我们唯一perform预处理。让我们表示插值的图像作为y .我们的目标是恢复从Y图像F(Y)尽可能相似地面真理的高分辨率图像x方便演示,我们仍然叫Y“
12、低分辨率”形象,虽然有相同的大小作为x,我们希望学习一个映射F,概念上包括三个操作:1)块提取和表示:这个操作从低分辨率图像提取(重叠)块Y和代表每个块高维向量。这些向量组成组特征图,等于数量向量的维数。2)非线性映射:此操作非线性把每个高维向量映射到另一个高维向量。每个映射向量是高分辨率的概念上的表示块。这些向量构成另一组特性地图。3)重建:此操作集合以上高分辨率patch-wise表示来生成最终的高分辨率图像。这图像将类似于地面真理X。我们将显示所有这些操作形成一个卷积神经网络。网络的概述如图2所示。接下来我们详细的定义每个操作。3.1.1块提取和表示在图像恢复(如一个受欢迎的策略。1)人
13、口中提取的块,然后由一组pre-trained基如PCA、DCT,哈雾等等代表他们。这个相当于卷积滤波器的图像由一组,这是一个基础。在我们的配方中,我们涉及这些基地的优化的优化网络。在形式上,第一层表示为一个操作F1F1(Y) = max(0; W1 Y + B1) ; (1)W1和B1分别代表了滤波器和偏见,和“”表示卷积操作。这里,W1对应n1滤波器的支持c f1f1,其中c是在输入图像通道的数量,f1是一个滤波器的空间大小。直观地说,W1将n1卷积用于图像,每个卷曲内核大小c f1f1。输出组成n1特征图。B1是n1-dimensional向量的每个元素与一个滤波器。我们应用修正线性单元
14、(ReLU马克斯(0,x)滤波器33responses4。3所示。双立方插值也是一个卷积操作,所以它可以作为卷积层制定。然而,输出的大小这一层是大于输入大小,所以有部分的跨步。来利用流行的优化实现作为cuda-convnet26,我们排除这“层”学习。图2所示。给定一个低分辨率的图像Y,第一个卷积层SRCNN提取一组特征图。第二层地图这些特性非线性映射到高分辨率块表示。最后一层结合预测在一个空间附近生成最终的高分辨率图像F(Y)3.1.2非线性映射第一层每一个块提取一个n1-dimensional特性。在第二次手术,我们每个地图这些n1-dimensional向量n2-dimensional一
15、个。这相当于应用n2的滤波器一个简单的空间支持11。这个解释是只有效期为11滤波器。但它很容易推广到更大的滤波器33或55。在这种情况下,非线性的映射不是在输入图像的一个块;相反,在一个33或55“块”地图的功能。的第二层是操作:F2(Y)= max(0;W2F1(Y)+ B2):(2)这里W2包含n2滤波器的大小n1f2 f2,和B2是n2维。每个输出的n2维向量是一个高分辨率的概念上的表示块,将用于重建。可以添加更多的卷积层增加非线性。但这可以增加模型的复杂性(n2f2 f2n2参数一层),因此需要更多的训练时间。我们将探索更深层次的结构通过引入额外的4.3.3节中非线性映射层。3.1.3
16、重建在传统的方法,预测重叠高分辨率块通常平均生产最后的完整图像。平均可以考虑作为一个预定义的滤波器在一组特征图(每个职位的“夷为平地”向量形式highresolution块)。出于这一点,我们定义一个卷积层产生最终的高分辨率图片:F(Y)= W3F2(Y)+ B3:(3W3对应c n2f3f3滤波器的大小,和B3 c-dimensional向量。如果表示的高分辨率块在图像域(即。,我们可以简单地重塑表示形成的块),我们期望的滤波器的行为像一个平均滤波器;如果表示在一些其他领域的高分辨率块(如。系数的一些基地),我们预计W3像首先投射系数上图像域,然后平均。无论哪种方式,W3一组线性滤波器。有趣
17、的是,尽管上述三个操作出于不同的直觉,他们都导致相同的形式作为一个回旋的层。我们把所有三个操作结合在一起,形成一个卷积神经网络(图2)。在这个模型中,所有的过滤权重和偏见进行了优化。尽管简洁的整体结构,我们仔细SRCNN模型由绘画丰富的经验了从超分辨率的显著进展49,50。在下一节中,我们详细描述了关系。3.2 基于稀疏编码方法的关系我们表明,基于稀疏编码的 SR方法49,50可以视为一个卷积神经网络。图3显示了一个例子。在基于稀疏编码的方法,让我们考虑一下提取一个f1f1低分辨率块输入图像。稀疏编码的能手,Feature-Sign29,将第一个项目块到(低分辨率)字典。如果字典大小是n1,这
18、相当于应用n1线性滤波器(f1f1)输入图像(平均减法也是线性的操作也会被吸收)。随着中对此进行了阐述图3的左部。稀疏编码解算器将迭代过程n1系数。这个解算器的输出是n2系数,通常n2 = n1在稀疏的情况下编码。这些n2系数的表示高分辨率块。在这个意义上,稀疏编码解决者的行为作为一种特殊的非线性映射运营商的空间支持11。看到中间图3的一部分。然而,稀疏编码的能手不是前馈,即。,它是一种迭代算法。在相反,我们的非线性算子是完全前馈,可以有效地计算。如果我们设置f2 = 1,那么我们可以视为pixel-wise非线性算子全层。值得注意的是,“稀疏SRCNN编码解决者”指的是第一个两层,但不只是第
19、二层或激活功能(ReLU)。因此,非线性操作在SRCNN也是通过优化学习过程。图3所示。说明基于稀疏编码的卷积神经网络方法的观点。上面的n2系数(稀疏编码后)然后投射到另一个(高分辨率)字典产生一个高分辨率块。重叠高分辨率块然后取平均值。如前所述上图,这相当于线性运算上n2特征图。如果用于高分辨率块重建的大小f3f3,那么线性滤波器有一个等价的空间大小f3f3的支持。看到正确的图3的一部分。上面的讨论表明,sparse-codingbased SR方法可以被视为一种卷积神经网络(不同的非线性映射)。但并非所有的操作被认为是基于稀疏编码的 SR的优化方法。相反,在我们的卷积神经网络,低分辨率字典
20、、高分辨率字典,非线性映射,意味着减法和在一起平均,都参与了滤波器来进行优化。所以我们的方法优化端到端映射包括所有操作。上面的比喻也能帮助我们设计hyperparameters。例如,我们可以设置滤波器的大小最后一层比第一层的小,因此我们更加依赖中央部分highresolution块(极端,如果f3 = 1,使用没有平均的中心像素)。我们也可以设置n2 n1,因为它是稀疏的。一个典型的和基本的设置是f1 = 9,f2 = 1,f3 = 5,n1 = 64,和n2 = 32(我们评估更多的设置实验部分)。总的来说,估计利用高分辨率的像素信息的(9 + 5 - 1)2 = 169像素。显然,这些信
21、息利用重建相对比用于现有外部基于实例的方法,如。使用(5 + 5 - 1)2 = 81 pixels515,50。这是一个的原因SRCNN给性能优越3.3培训端到端映射函数F学习需要网络参数的估计=fW1;W2 W3、B1、B2;B3g。这是通过重构图像之间的损失最小化F(Y;)和相应的地面实况highresolution x给定一组高分辨率图像fXig及其相应的低分辨率图像fYig图像,我们使用均方误差(MSE)损失函数:L()= 1nnX我= 1jjF(易建联;)- Xijj2;(4)其中n是训练样本的数量。使用MSE损失函数支持高PSNR。的PSNR值为定量评估是一种广泛使用的度量吗图像
22、恢复质量,至少是部分相关感知质量。值得注意到的是卷积神经网络不排除使用其他种类的损失函数,如果失去功能可诱导的。如果一个更好的感知动机指标培训期间,它是灵活的网络适应这一指标。相反,这种灵活性一般是对传统的“手工”方法难以实现。尽管该模型培训有利于PSNR值高,我们还观察到令人满意的性能评估模型时使用选择评价指标。、SSIM MSSIM(见4.1.1节)。损失最小化使用随机梯度下降法与标准反向传播28。特别是,权重矩阵更新i+1 = 0:9 i - LW i; Wi +1 = Wi + i+1; (5)在“f1;2,3 g和我的指标层和迭代,是学习速率,和W L”我的导数。每一层的过滤权重通过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 卷积 网络 图像 分辨率 译文 资料 10
限制150内