欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    一种基于噪声建模技术的手写体数字去噪方法.pdf

    • 资源ID:50072873       资源大小:218.16KB        全文页数:5页
    • 资源格式: PDF        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    一种基于噪声建模技术的手写体数字去噪方法.pdf

    一种基于噪声建模技术的手写体数字去噪方法一种基于噪声建模技术的手写体数字去噪方法【摘要】:文章研究的是在手写体数字字符图像上的孤立噪声移除问题,提出了一种基于噪声建模技术的新方法。新方法主要针对于难以处理的斑块状噪声的移除,通过模型判断并移除噪声。一种基于投影算法的模型用于移除位于字符两边的噪声,而一种基于神经网络的模型用于移除字符中间的噪声。另外,新方法对字符形态没有改变,保留了数字的原始信息。我们对约 4000 张带噪字符集进行实验,平均去噪错误率小于 0.7%。【关键词】:噪声移除;噪声建模;手写体数字一、引言在光学字符识别(OCR)系统中,当识别带有噪声的字符图像时,往往分类器的表现会大打折扣。尤其是对基于结构技术设计的分类器而言,更是一个必需解决的问题1。所以,出现了很多方法用来移除噪声或降低噪声的干扰。主要分为下面两种技术:1滤波:滤波作用主要是用于平滑图像或背景,使之能够更好地进行后续处理。滤波主要包括卷积操作和形态学操作。一般来说,滤波运算更适合移除面积较小的椒盐状噪声。2噪声建模:主要通过一些测度量来检测并移除噪声。由于引入噪声的情况很多,诸如光学扫描和书写时的人为因素,复杂背景下的阈值运算等等,各种因素使得噪声具有很大的随机性,所以对噪声建模的研究十分有限1,2。基于上述情况,文章提出了一种基于噪声建模技术的新方法。该方法用于移除难以处理的斑块状噪声,同时可以保留破损字符的笔划。第 2 节中,描述了从 MNIST 字库中抽取并建立了两个子集,约 4000 张带噪字符图像,用于噪声移除实验。同时定义了用于建模的特征因子,还提出了用于评估方法效果的测度参数。在第3 节,我们提出了两个噪声模型:一个基于投影模型,用于移除字符两边的噪声;另一个基于神经网络(ANN)模型,用于移除混淆于字符中的噪声。第 4 节给出了移除噪声的全部算法框架。通过实验证明了该算法的鲁棒性,其错误率小于 0.7%,可靠性大于 99%。最后,第 5 节对方法进行了总结。二、数据集和测度参数在一幅手写体数字图像中,我们将一块前景连通域称为一个物体。据统计,拥有最大面积的物体总是属于数字本身,或数字的一部分,称为主物体。小于这个面积的物体,我们称之为副物体(图 1)。图 1:带噪数字字符图像中的主物体和副物体。黑色部分是一个数字的主物体,而灰色部分是一个数字的副物体。其中,左边数字有2 个副物体,右边数字有 3 个副物体。2.1 数据集MNIST 是一套著名手写体数字字库。其中,每张样本图像均为 2828 大小的灰度图。为了研究问题的方便,我们在 MNIST 字库中提取并组合出两套带噪的子字符集,设为 MB1 和 MB2。首先,我们使用全局最大方差阈值4对 MNIST字库进行了二值化,并抽取结果中所有带噪图像,组成MB1。又对MNIST 字库使用局部阈值算法进行二值化,对结果取出所有带噪图像,组成 MB2。带噪图像的判断方式是,检测一幅图像中存在的物体(连通域)数目。如果物体数目大于 1,我们认为是一幅带噪图像。最后 MB1 共 1702 张样本,MB2 共 2945 张样本。这里我们采用的二值化算法分别为,全局方差阈值和局部 8-邻域均值阈值。和前者相比,后者对布局信息的敏感程度更高,从而会保留更多像素,但这样会使得边缘轮廓锯齿状增多,并引入的更多的孤立噪声点。2.2 特征参数我们对一幅数字字符图像抽取了下列特征参数:(1)物体数(NOM):即在一幅图像 M 中,物体的总数。(2)物体面积(Sk):第 k 个物体 Ok 的面积:Sk=count(p(x,y),(p(x,y)Ok),其中 p(x,y)为坐标(x,y)处的像素点。(3)物体高度(Hk):第 k 个物体 Ok 的高度:Hk=|ybottom-ytop|,其中 ybottom为物体最低点的 y 轴坐标,ytop 为物体最高点 y 轴坐标。(4)物体宽度(Wk):第 k 个物体 Ok 的宽度:Wk=|xright-xleft|,其中 xright为物体最右边点的 x 轴坐标,xleft 为物体最左边点 x 轴坐标。(5)距离(Dkj):Dkj 指为一个物体 k 到另一个物体 j 之间的欧式距离,并以像素为单位。2.3 去噪效果评估参数一般来说,评估去噪方法的效果和可靠程度,需要下列参数:(1)去噪率去噪总数样本总数;(2)拒绝率拒绝总数样本总数;(3)正确去噪率正确去噪数样本总数;(4)错误去噪率错误去噪数样本总数;(5)可靠率正确去噪数去噪总数;(6)失误率错误去噪数去噪总数。三、噪声建模首先一幅带噪图像中,孤立噪声都有可能存在这些情况:存在面积较小的椒盐状噪声;存在面积较大的斑点状噪声。另外还存在一些更大面积副物体,它们主要是进行阈值或分割数字区域时保留下来的背景或边框,也属于一种噪声。一般情况下,引入斑块状噪声的情况复杂,并且这类噪声和破损数字的部分笔划具有相似性,所以移除这类噪声的工作非常困难。目前少有方法能处理这种情况。3.1 预处理基于对斑块状噪声建模的需要,对于面积较小的椒盐状噪声需要提前清除。移除椒盐噪声的方法很多,大部分使用滤波的方式移除,如文献 3使用了形态学滤波。由于椒盐状噪声分布区域随机性大,并且面积很小,所以根据第 2 节提到的物体面积这个测度量,就可以移除一部分椒盐状噪声,并且这样会保证留下的物体形状信息不变化。我们为了简单起见,仅仅移除面积小于 2 的物体。3.2 垂直投影建模通过对 MB1 和 MB2 字库图像中副物体的统计分析,我们发现当副物体处于主物体垂直投影区之外的区域时,有超过 96%的副物体是需要移除的噪声。对分布在这些区域的副物体通过一些测度量可以移除,对两个字库的建模满足下列规则:规则 1、满足副物体落在主投影区外部(见图 2 所示);规则 2、如果规则 1 为真,且它的高宽比 HWR2 时,只移除面积比 SR2的副物体;规则 3、如果规则 1 为真,且它的高宽比 HWR2 时,只移除面积比 SR4的副物体。其中,HWR 为当前副物体的高度和宽度的比值;SR 为主物体面积和当前副物体面积的比值。图 2:灰色部分为主投影区。副物体 A 位于主投影区内,副物体 B 位于主投影区外。根据上述规则,位于主投影区之外的噪声可以被检测并移除。例如,图5中,副物体A 不在主投影区中,并且满足规则3,所以被移除。而副物体B 和 C则不满足规则 2 和 3。3.3 人工神经网络建模投影模型只能够移除主投影区之外的噪声,而对于留在主物体投影区内的副物体来说,情况复杂判断非常困难。所以我们通过BP 神经网络建立了一套噪声模型。这样,通过神经网络建立的噪声判断模型来判断是否移除副物体。建立模型的特征参数如下:(1)AN 表示一幅图像中副物体的数目;(2)ASk 表示第 k 个副物体的面积;(3)SRk 表示主物体和第 k 个副物体的面积比值;(4)MDk 表示主物体和第 k 个副物体之间的最小距离;(5)Hk 表示第 k 个副物体的高度;(6)HWRk 表示第 k 个副物体的高度和宽度的比值。四、算法和实验根据第 3 节的理论分析,我们提出了下列算法用于对手写体数字的二值图像去噪:Step 1:输入图像,进行预处理;Step 2:IF AN=0,THEN 算法结束并输出结果图像;ELSE 执行 Step 3;Step 3:从 IMG_IN 中获得全部副物体,并对每一个副物体执行下列步骤:3.1:如果当前副物体不在主投影区域中,跳到 Step 4;3.2:否则跳到 Step 5;Step 4:使用 3.2 节的投影模型移除噪声;Step 5:获取特征参数 ASk,如果 ASk阈值 T(根据 3.3 节统计分析,这里的阈值 T 为 20 像素),算法结束;否则跳到 Step 6;Step 6:获得3.3 中提出的 6 个特征参数,使用BP 神经网络模型去噪,然后跳到 Step 2。我们使用 MB1 和 MB2 分别测试上述算法,得到实验结果如表 1 所示:表 3 展示了上述算法最后实验的统计结果。其中,平均错误率为0.67%,平均正确去噪率为 63.91%。这是由于一些多物体的字符图像中的副物体为实际笔画,从而降低了计算出来的正确去噪率。五、总结文章提出的噪声移除算法是主要基于两种噪声模型。一种为投影模型,另一种为神经网络建立的模型。同时还提出了一组特征参数用于建模。新方法使用了噪声建模技术,能够保护原始图像的信息不被改变。通过实验,我们的方法使得移除的错误率小于 0.7%(表 5),证明了方法的有效性和鲁棒性。参考文献1 N.Arica,F.T.Yarman-Vural.An Overview of Character RecognitionFocused on Off-Line Handwriting J.IEEE Trans.Systems,Man and Cybernetics,Part C:Applications and Reviews,V olume 31,Issue 2,Pages 216-233,May 2001.2 R.Plamondon,S.N.Srihari.On-line and Off-line Handwriting RecognitionA Comprehensive Survey J.Pattern Analysis and Machine Intelligence,IEEETransactions on,2000,2(1):63-84.3 Ping Zhang,Lihui Chen.Document filters using morphological andgeometrical J.Image and Vision Computing,V ol.19,pp.847-855.2001.4 N.Otsu.A Threshold Selection Method from Gray-Level Histograms J.IEEE Transactions on Systems,Man,and Cybernetics,V ol.9,No.1,pp.62-66.1979.注:本文中所涉及到的图表、注解、公式等内容请以 PDF 格式阅读原文。

    注意事项

    本文(一种基于噪声建模技术的手写体数字去噪方法.pdf)为本站会员(赵**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开