2022年模拟视觉系统的稀疏编码神经网络模型 .pdf
模拟视觉系统的稀疏编码神经网络模型邹琪 罗四维北方交通大学计算机与信息技术学院 北京 100044 E-mail: 摘要 神经生物学研究表明,视感知系统V1层神经元的感受野对刺激图像采取稀疏表示的策略。本文模拟视感知系统对视觉信息的处理提出了稀疏编码的神经网络模型。该模型用快速ICA 算法得到的特征基模拟感受野,反馈网络的输出模拟简单细胞的响应。对自然图像的编码实验说明该模型在生物学上的合理性和计算上的可行性。 关键词视神经科学独立分量分析特征基双向神经网络稀疏编码 Sparse Code Neural Network Model Based on Visual System Zou Qi Siwei Luo Department of Computer Science, Beijing Northern Jiaotong University, Beijing, China, 100044 Abstract: Study in neurobiology has shown that the receptive fields of neurons in V1 in visual perceptual mechanism produce sparse presentations towards stimulus. Simulating the way visual system processes signal ,we present a sparse coding neural network model. Feature basis functions obtained by fastICA algorithm are used to model receptive fields and outputs of the feedback network to model activities of simple cells .Coding experiment on nature images explains the models plausibility in neuroscience view and feasibility in practical computation. Keywords:visual neuroscience , ICA ,feature basis, bilateral neural network , sparse code 1 引言 稀疏编码1的概念源于视神经网络的研究,是对只有一小部分神经元同时处于活跃状态的多维数据的神经网络的表示方法。生物学实验2表明,视皮层对外界刺激的处理采用神经稀疏表示原则,这既对繁杂冗余的信息提供了简单表示,又利于上层传感神经抽取刺激中最本质的特征。 目前对图像稀疏编码的研究主要有几种模型:Simocelli从小波变换的角度进行神经表示和有效编码3 ;Olshausen和 Field 把数学上具有良好的超定特性的超完备基引入到稀疏编码4; Oja 和 Hyvarinen 则围绕多维 ICA 模型和不变特征子空间展开深入研究5。 然而,无反馈的单向模块式人工神经网络(如线性 ICA模型)由于对视神经网络的过分简化,其编码模型很难克服精度差、受噪声影响大的问题,非线性的模型(如超完备基模型)则由于其计算复杂性高,难以达到实时。基于对图像的有效编码使其在计算效率和恢复性能上都接近人的视觉系统的出发点, 我们利用 ICA 在计算效率上的高效性和双向网络在图像重建性能上的精度,实现对自然图像的稀疏编码。 2 模型的建立 人的视感知系统将外界刺激通过感受野的特征提取表达为视觉细胞的活动状态,这一过程用信息编码的模型描为(1)=+=niiisaI1其中, I 是图像象素值;a 为特征基向量;是随机系数,表示对不同的图像iisI 的响应, 对应简单细胞的活动状态;是高斯白噪声。每幅图像均可表示为特征基向量的线性组合,这是因为特征基对应着局部的时频域特征。当图像在某一频率和方向上有最明显的特征时,与之对应的神经元会有最大的响应,而其它神经元不响应。因此将图像投影到这些基向量张成的特征子空间上时,只有一小部分神经元同时处于活跃状态,产生对该幅图像的稀疏表示。2.1 稀疏编码与ICA 的关系 ICA 算法适用于对自然图像稀疏编码的特征基函数的估计在于它的两大基本特征:成份的独立性和非高斯性。 稀疏编码的目标是找到 (1) 式的逆变换 WWIs-=使尽可能得稀疏, 而 ICA的目标是从混合信号中分离出尽可能独立的成份。由于自然图像信号大部分自身即具备典型的稀疏统计特性:服从超高斯分布,因此,只要找到不相关的投影方向,这些方向上的独立成份就大致满足稀疏分布。用 ICA 算法得到的标准正交阵W 等价于不相关的投影方向,s名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 4 页 - - - - - - - - - 其拟逆阵A 可作为对自然图像稀疏表示的特征基函数的近似。这种等价关系的深层原因在于ICA 算法和稀疏编码在冗余减少的目标上是一致的。在模拟实验中可以发现用ICA 算法得到特征基函数与简单细胞的感受野图像类似,这进一步证明ICA 得到的基可以模拟视觉系统对自然图像的稀疏编码的基。二维Gabor 函数的平移、旋转得到小波基也具有简单细胞的感受野的性质,但 Gabor 变换在于抽取数学特征,与图像信息自身的特性关联极小, 后文将说明ICA 得到的编码完全取决于自然图像的统计特性。我们也没有采用按Hebb 学习规则迭代出超完备基的方法,是从计算速度考虑。22 神经网络模型 模拟视觉系统的层次结构,我们建立双向神经网络模型。输入层单元代表投影在LGN 层的传入信号,接受自然图像信号 I ;前馈连接代表简单细胞的感受野;输出层代表主视皮层V1 区的简单细胞,其活动状态对应稀疏编码s ,输出层有自反馈并且对输入层存在反馈连接。好的编码模型应该能最大程度的去统计相关(即冗余减少)且恢复出的图像除噪的同时有最小重建误差。基于这样的出发点,我们用最小均方差重建原则(LMSER ) ,学习的目的是使目标函数()2asIEJ-=(2) 达最小。考虑到简单细胞间在自组织动态匹配过程中的自抑制作用和感受野的先验分布,加上自抑制函数项和基向量,上述目标函数变为()2asIEJ-=+iisH)(+(3) iiTiaa)(其中,为自抑制作用强度系数,是与先验分布的方差有关的正常数。自抑制函数的作用是使非零系数尽量集中在少数活跃状态基上。求出梯度,可得出系数的学习方程)(isHids/dJ)( )()1(iTiiisHratsts-+=+(4) 同理,基向量的学习方程iiiiarstata-+=+)()1(5) 其中=-=niiisaIr1自抑制函数的选取既依据生理试验又兼顾图像信号的统计特性。简单细胞的自抑制协调响应是具有自适应衰减的函数,所以取)(isH(2exp)2iusC-=(isH)isv-. 其中, u 和v 根据 Pham的内积投影定理6推导得到: 2)|1 (iisEvsEu-= 222)|(|)0(2iiiisEsEsEsEHv-=由其表达式可以判断和uv的取值反映了信号源的概率分布。自然图像信号大部分服从超高斯分布5,其陡峭度越大, v 越大,当 v 时,自抑制函数接近Laplace 分布,使编码的稀疏度极大增加。因此,该模型得到的编码取决于自然图像的统计特性,与Gabor 变换有本质的差别。u通过用对称的双向网络实现该学习过程。初始连接权值是事先由 ICA 学习得到的, 两个方向上均为。网络具有自下而上(bottom-up)和自上而下 (top-down)两个学习阶段。ia图 1 稀疏编码的计算模型输入 I , 输出 s ,前馈连接对应特征基,反馈连接为,自反馈为Tiaia)(sH 7证明用 LMSER 法来训练上述网络时,输出收敛于最活跃权值向量方向的投影,这些收敛点对应于重建误差曲面的全局最小点。输出输入神经元对应非线性函数,使用LMSER ,每个单元会具有选择性。自抑制函数作为惩罚项,使 is序列形成的各种编码方案在学习阶段出现竞争和协作,最终产生满足能量最小经济原则的编码方案,电生理实验证明,这符合生物进化的普遍规律8。以往的模型大多采用前馈神经网络。但是,人的视觉系统中的确存在自上而下的反馈过程 用于注意控制机制9。在我们简化的模型中,这种反馈作用体现在调整LGN 层对接受信息的响应使之更符合V1 层简单细胞对统计特性的预测,即先验识别:=iiisaI)(6)这实质上是 (1)式去掉了噪声项。 通过选择机制压制不能反映信息本质特征的响应(包括噪声),而保留最适合表达信息的统计模型的响应。3 算法实现 步 1 选择与待处理图像具有相同统计特性的无噪自然图像;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 4 页 - - - - - - - - - 步 2 对选择的自然图像预处理:白化数据使具有零均值单位方差,舍弃的图像块。把一幅自然图像分割成8*8 的图像块,记为图像块的方差,为整幅图像的平均方差;221.0avai2ii2ava这两种预处理均是为了加快寻找最佳基函数的速度。由于自然图像沿各个方向的方差不一致(低频特征向量方向的方差远大于高频特征向量方向的方差),这就使寻找最佳梯度下降方向变得很困难。白化处理使方差沿各方向均匀分布,极大减少了ICA 优化过程的迭代时间。舍弃方差太小的图像块是因为这些图像块对形成最佳基贡献很小,却要消耗同样的计算时间。. 步 3 用ICA算法得出的转换阵W 估计基函数A :由得到正交基,;2/1)(-=WWWWT1)(-= WA步 4 以被噪声污染的待处理图像为输入点阵信息,前馈过程:由式 (4)计算,其中为 A 的列向量;反馈过程:根据式 (6)由反馈连接恢复除噪后的图像isiaI)。如此反复, 直到 (2)式中的 J小于 2%, 认为此时重构精度已达到要求,得到的即为稀疏编码。由于按ICA 算法得出的基函数已基本是最优基,故只需在迭代多次后, 由式 (5)对进行微小的调动。 isisia4 实验结果 取从自然图像中分割出的8*8 的图像块作为输入, 人工加入方差矩阵为的高斯白噪声(这里IN2I 表示单位矩阵) 。取刺激图像方差的0.1 倍。=0.02 . 图 2 是由快速ICA 算法得出的64 个特征基的图像。该结果是在普通配置的 PC 机上, 输入 10000 幅 8*8 的图像块, 运行 1 分钟所得。而超完备基模型,若以16*16 的图像块为输入,需要在SGI的工作站上运行8 小时才能得到稳定的解。图 2 8*8的特征基图像为衡量编码效率,图3 给出编码值的概率分布情况,纵坐标表示的概率是多幅图像取平均的结果。虚线表示由该模型得到的编码,实线表示将自然图像投影到随机数组成的特征基矩阵上得到的系数分布。可见,该模型的稀疏程度比原始图像提高了,意味着可用更少的非零值表示图像信息,即起到了压缩的作用。图 4 用客观保真度准则衡量该编码方法的质量。客观保真度准则用重建图像的均方信噪比与输入图像信噪比的对比 关 系 表 示 , 其 中 重 建 图 像 的 均 方 信 噪 比 由=SNRerro210)(log10asIE-求 得 , 输 入 信 噪 比 由=SNRI26411064)(logNiTiiaa=10求得。图中实线表示本文提出的模型的客观保真度, 虚线表示无反馈的线性ICA 模型的客观保真度。两种模型得到编码的客观保真度都随图像信噪比的降低而减小, 但线性 ICA 模型的变化较平缓。 当噪声方差达到原始图像方差的50%时,该模型的恢复质量仍可接受,而线性 ICA 模型已无法获得可靠的重建图像。当噪声方差小于10%时, 该模型的恢复质量明显优于无反馈的线性ICA 模型。图 3 编码的稀疏分布051015-12.5-10-7.5-5-2.50Isnr(dBERROsnr(dB)图 4 编码的客观保真度名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 4 页 - - - - - - - - - 5 总结 本文模拟视感知系统的稀疏表示策略对自然图像进行稀疏编码,这不仅提供了我们理解视觉处理等级中V1 层神经元响应特性的一种方式,还说明借助认知神经科学的研究成果,结合统计学理论和人工神经网络,完全有可能找到新的信息处理的计算模型。正如目前引起广泛关注的“模型比编码更重要” 的观念10:神经网络不应该仅仅作为把输入信号转换为具有某些理想特性的编码表示的工具,更应该侧重于模拟人的视觉系统处理信息的层次模型。因此,本文提出的模型,其目的在于让产生有效编码的统计模型更符合认知神经科学的理论。该模型在除噪和稀疏特性方面都有较好的仿真效果,并且比超完备基模型计算速度快。但在与人脑真实模型的接近程度上仍有许多问题,如:神经元之间是否存在水平的侧连接,底层的反馈连接除了除噪作用,在注意控制机制上有何作用,这些都有待于进一步研究。参考文献: 1Barlow, H.B., “Possible Principles Underlying the Transformations of Sensory Messages”, Sensory Communication, MIT Press, pp217-234, 1961; 2Yong M.P , Yamane S. “Sparse Population Coding of Faces in the Inferotemporal CortexJ” , Science ,256:1, pp1327-1330, 1992; 3Eero P Simoncelli ,Bruno A Olshausen, “Natural Image Statistics and Neural Representation” , NeuroScience , 24:1, pp193-216, 2001; 4Bruno A Olshausen ,D.J. Field “Sparse Coding with an Overcomplete Basis Set : A Strategy Employed by V1?” Vision Research, 37:3313-3325, 1997; 5Hyvarinen,A. and Hoyer,P.O. “A Two-layer Sparse Coding Model Learn Simple and Complex Cell Receptive Fields and Topography from Natural Images” , Vision Research ,41(18) : 2413-2423, 2002; 6Pham. D.T.,Gurrat. P. and Jutten. C. “Seperation of a mixture of independent sources through maximun likelihood approach”, In proc. EUSIPCO, pp771-774, 1992; 7 Xu Lei “Least Square Error Reconstruction Principle for self-Organizing NN.” Neural Network, 6:627-648, 1993; 8Rolls E.T. ,Tovee M. J. “sparseness of the neuronal representation of stimuli in primate temporal visual cortexJ”, Neurophysiology, 173:713-726, 1995; 9Hinton G .E. and Ghahramani Z. “Generative models for discovering sparse distributed representation”, Phil. Trans. R. Soc. Lond. B,352:1171-1190, 1997; 10Barlow H.B. “Redundancy Reduction Revisited”, Network: Computation in Neural Systems, 12:241-253, 2001b 作者简介邹琪:北方交通大学计算机与信息技术系博士研究生方向:神经网络计算机视觉模式识别基金项目:博士点基金基于视觉处理模式的信息有效编码研究资助项目( 20020004020)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 4 页 - - - - - - - - -