《基于matlab的数字识别系统设计论文(26页).doc》由会员分享,可在线阅读,更多相关《基于matlab的数字识别系统设计论文(26页).doc(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-基于matlab的数字识别系统设计论文-第 25 页基于matlab的数字识别系统设计论文 1.绪论1.1研究背景1.1.1索书号的简介 索书号是图书馆赋予每一种馆藏图书的号码,这种号码具有一定结构并带有特定的意义。在馆藏系中,每种书的索书号是唯一的,可准确地确定馆藏图书在书架上的排列位置,它是读者查找图书必要的代码信息。索书号通常是根据中国图书资料分类法编排的【1】简称中图法。中图法采拉丁字母和阿拉伯数字相结合的混合标记符号。根据图书的学科主题,以拉丁字母标记并顺序展列出22个基本大类,其中没有L、M和Y开头的参考附录1中图法简表。由于“T工业技术”的大类范围广泛、内容繁多,故又在该类基础
2、上采用双位拉丁字母标记出16个二级类目,如TK、TL、TM和TN等。字母之后再用阿拉伯数字对大类进行细分。如B表示哲学、宗教一大类;B020则表示宗教理论。有的图书馆如清华大学还在图书分类号码后添加按照图书作者姓名所编排的著者号码,或者是按照图书进馆时间的先后所取用的顺序号码。 不同索书号确定排列先后顺序的步骤是,先比较分类号码:如分类号码相同再比较著者号码或顺序号码。最后按照字母表和数字大小的顺序排列。1.1.2书库中图书查找存在的问题 随着电子计算机和网络技术的发展,现代图书馆都已经广泛建立电子数据库图书管理系统,方便用户查找、阅览书籍。读者借图书的流程如图2所示,一般利用书目查询系统,根
3、据图书的书名,出版社,作者以及书的内容等在电子数据库中检索自己需要的图书,记录图书相关信息。最后,根据图书的索书号,快速方便地在书库中找到相应的图书。但是,经常会遇到下列问题:电子数据库系统显示图书状态为“归还”,利用检索到号,却无法在书库找到此书。出现这种情况主要有两个原因:(1)图书错位放置,即图书在书库中摆放的位置与索书号不一致。(2)图书已经丢失,即虽然电子数据库中显示图书状态为“归还”,但实质图书已经丢失,并不在书库中。随着图书馆藏书数目的不断增加,每天借阅的人数增多,而且有的图书馆发展成拥有几个分馆,上述问题越来越严重。这一方面严重降低了图书馆的资源的利用率;另一方面,浪费了读者的
4、时间,造成了很大麻烦。 目前,图书馆主要通过定期的人工检查发现书库中错位和丢失的图书。但是,由丁馆藏图书多达上万,甚至几十万,而且每天又都有大量图书的借出和还入,人工检查工作量很大,单调、重复的工作容易使工作员疲劳,检查速度比较慢,无法满足实际的需要。因此,迫切希望开发索书号自动识别系统,实现对书库中图书放置位置的自动检查,并通过索书号识别结果与电子数据库中图书信息的比较,找出已经丢失的图书。确保电子数据库中的图书状态与书库中的一致,以及书库中的图书准确排放,从而有效解决上述“用索书号找不到图书”的问题。1.2索书号自动识别系统 近年来,随着电子计算机技术、图像处理技术和摄像技术的迅速发展,图
5、像中的文字信息提取系统已经成功地应用于各个领域。因此,借助其经验,本文研究采用图像处理和识别技术实现索书号的自动识别。1.2.1索书号自动识别系统概述系统的硬件由彩色CCD摄像头,8位图像采集卡和计算机组成,拍摄的图像为8位RGB彩色数字图像。如图1-1所示 CCD摄像 索书号文字图像分割 文字图像二值化 单个字符切分 索书号识别 图书排放位置判断CCD摄像机拍摄排放在书架上的图书图像,图书的图像出索书号外还有其他内容,如出版社的标志,其他文字甚至大块的污渍等,必须从中分割出仅包含索书号的文字图像。灰度的文字图像难以直接用于识别,所以讲灰度的文字图像装换为二值图像。由于噪声和五点的干扰,以及光
6、照不均匀的影响,二值化后的文字会发生粘连,严重改变文字的自营。字符切分成单个字符后才进行文字识别。按照上述流程,具体介绍索书号识别的整个过程。1.2.2 索书号识别存在的问题及关键技术 索书号识别所涉及的摄像技术,无线通讯技术,电子数据库图书管理技术,AGV自动导引技术和图像处理技术都已经在其他领域有成功应用的实例。图像处理技术是索书号识别的核心技术,而与相类似的应用相比,索书号图像处理与识别又有其自身显著的特点和难点。 图书馆收集了近几十年的藏书,不同时代的索书号编写风格大不相同。本论文选取图书馆的主要类别图书印刷体索书号,从图书馆的书架上随即抽取样本进行研究。如图7所示,CCD摄像头拍摄的
7、索书号图像,由于光照不均匀、退色、污迹、噪声以及其他非索书号文字的存在,大大增加了索书号识别的困难。为了能够解决上述问题,索书号图像识别主要由以下4个模块组成:索书号定位,索书号提取,索书号字符切分和索书号单字识别。 第一阶段:索书号定位是在图像中找到包含索书号的图像区域,要求该区域尽可能包含完整的索书号,同时尽量排除非索书号的图像区域。由于该阶段是解决索书号的区域查找问题,而没有涉及单字切分,因此图像区域的估计允许有一定误差。为了包含完整的索书号以及避免索书号漏检,往往是定位得到的图像区域略大于索书号的真实区域。索书号定位主要存在两个问题:(1)受不均匀光照和褪色的影响,索书号的纹理特征、颜
8、色特征以及形状特征等有较大的变化,可靠性相对较差;(2)有的索书号由1个字符串组成,有的索陆号由2个字符串组成,而在索书号的周围附近还会存在其他文字,如出版社名称和作者姓名。因此,将索书号与其他文字相区别比较困难。 第二阶段:索书号提取是在定位得到的索书号区域中,将索书号字符与周围目标和背景相互分离。通过二值化处理,能将字符与背最相互分离。但由于定位得到的图像区域略大于真实索书号区域,二值化后在索书号字符附近可能会存在一些非字符目标,影响后续的单字切分和识别。所以,二值化后采用连通域滤波进一步消除索书号周围的非字符目标。索书号提取主要存在的问题:(1)不均匀光照增大了索书号图像的灰度值变化范围
9、。(2)褪色程度的不同则降低了字符与背景的对比度。(3)污迹的影响。上述因素的存在不仅使得确定二值化过程中合理的阈值非常困难,而且会改变索书号字符的形状特征,最终影响连通域滤波的性能。 第三阶段:索书号字符切分是将索书号字符串切分成一个个字符,以提供给识别算法进行识别。单字切分的结果如何将直接影响识别结果,而且切分好坏除字符能否正确识别之外,没有较好的判别依据。因此,单字切分往往与字符识别紧密结合在一起。索书号的单字切分可以分为两种情况:非粘连单字切分和粘连字符的单字切分。非粘连单字切分比价容易解决。但质量较差索书号图像二值化处理后,相邻字符可能会发生粘连。而粘连索书号切分存在的主要问题是(1
10、)粘连字符的切分比较困难:(2)索书号字符发生粘连有一部分是字符的笔画发生变形所致,如笔划宽度变粗等。即使正确的切分也不一定能够完全修正笔画的变形,即无法通过粘连切分恢复字符的原形。 第四阶段:索书号单字识别。印刷体单字识别的研究已经相当成熟,只是与其他应用领域的文字识别相比,索书号文字的质量较差,存在字符不均匀褪色,笔划残缺以及大面积污迹等问题,2索书号文字图像分割 复杂背景图像中的文字定位和分割是从图像中获取文字信息的关键步骤,直接影响到后续文字识别的准确性,它在机器人视觉汽车牌照自动识别,计算机文本自动输入,邮件地址自动识别,集装箱编号自动识别以及视频图像内容的检索等系统中都有广泛的应用
11、。CCD拍摄的图书索书号图像如图2-1所示.图像中除了索书号还包含尤其他文字,红色条形框还包含有其他文字,红色条形框以及装饰景物等,为了能够正确识别该书的索书号,首先必须从图像中正确分割出索书号图像。 图2-1 图书索书号图像但是,从图像尤其场景图像中自动定位和分割文字是比较困难的,其主要原因有以下几个方面:第一,文字嵌入在图像中,并与其它图形共存,如边框,商标,装饰物以及污点等;第二,由于文字颜色退化,文字颜色不均匀,热切背景颜色有食欲吻脖子颜色差异很小;第三,文字尺寸大小变化;第四,关照条件无法控制,广州不均匀;第五,索书号文字与其他文字。 本课题利用基于边缘点数量统计的文字图像分割方法。
12、根据图书馆索书号的制定规则,索书号文字图像具有如下特征:第一,索书号文字采用黑色应刷;第二,索书号文字的数量至少为3个;第三,索书号字符水平排列;第四,索书号贴在书脊的下半部分。它的算法流程如图2-2所示,实验结果证明,该方法具有定位精度高,准确率高,抗噪能力强,并在“索书号自动识别系统”中取得理想效果。 HSI彩色空间转换 索书号边缘点彩色分割 Canny算子检测 文字图像行区域检测 文字图像列区域检测 边界调整 图2-2 索书号图像分割算法流程 2.1 HSI彩色空间转换 摄像头拍摄的彩色图片的像素点通常是采用24位RGB表示。但R,G和B3分量之间有很高的相关性,直接利用这些分量常常不嫩
13、得到所需的分割效果。比较接近人堆颜色视觉感知的是色度,饱和度和亮度空间。其中I表示颜色的敏感程度,H表示不同的颜色,S表示颜色的深浅,I分量与彩色信息无关,H和S与人感受彩色的方式紧密相连。 本算法中,只对边缘点进行财社分割,切自用S分量。英雌,问了减少算法的耗时,首先子转换I分量,如图2-3所示,待边缘检测出来后,再堆边缘点进行S分量计算。转换关系如下: I=(R+G+B)/3 (2-1) S=1-3/(R+G+B)*min(R,G,B) (2-2) 图2-2 HSI彩色空间的I分量图2.2 Canny算子检测Canny算子边缘检测先计算X和Y方向的梯度平方和,局部最大的梯度幅值局部变化最大
14、的点的过程叫非极大值抑制。 Canny算子边缘检测有如下3个指标:第一,对每个边缘点有唯一的响应,得到的边缘为单像素狂;第二,错误率最低,即要少将真正的边缘点丢失也要少将非边缘点判为边缘点;第三,高位置精度,检测的边缘应在正真的边界上。为此,Canny像影帝定义了3给准函数衣表达上述指标的约束:a,信噪比函数准则;b,定位精度准这函数;c,单边缘响应准这函数。这三个准则相结合可以检测的最佳的边缘。 Canny算子中有3个参数,是高斯函数闻不得参数,他控制平滑程度:高阈值(TG)和低阈值(TL)。实验中设置为1,TL=0.4*TG。这样在Canny算子中只保留了一个参数高阈值(TG)。实际应用中
15、,TG取值只需要满足两个条件:第一,确保尽可能地检测出索书号文字的边缘点,这粗限定了TG取值的最高上限;第二,确保加边缘尽可能少,这限定了TG取值的下限。由于文字和背景具有较强的对比度,TG取值有一个较大的范围,实验中TG=0.2。如图2-4所示,即实验中的Canny算子边缘检测结果。 图2-3 Canny算子检测的边缘 2.3索书号边缘点彩色分割文字图像有一些独特的特征,文字图像的解构比较复杂,边缘像素点比较多,切分布比较集中。受光照条件和文字颜色退化程度不同的影响,文字部分特征如对比度,亮度等容易搜到干扰,但是文字的边缘分布规律且有较强的干扰性能。Canny算子检测等到的边缘点在HSI彩色
16、空间S分量上精心索书号文字边缘点的分割。由于索书号文字采用黑色应刷,但发生不同程度的退色,继黑岩色的饱和度S有一定的变化,故 BW_Word(i,j)= S1Ss2 and BW(i,j)=1 (2-3)式中, BW(i,j)是Canny算子检测的边缘,BW_Word(i,j)是文字的边缘点,S1和S2表示索书号文字S分量对应的范围。实验中,去S1=0,S2=0.05。经边缘点S分量分割后的图像如图2-5所示,图中的边缘点为主要的文字边缘点。 图2-5 分割出的索书号图像2.4文字图像行区域检测由于文字图像中解构相对比较复杂,其边缘点数量也就比较多,分布比较集中。因此文字图像区域中行统计平均的
17、边缘点数量比非文字图像区域中的多,则: Ny0(word)Ny0 (non-word) (2-4)式中, Ny0(word)为文职图像区域的行平均边缘点个数,Ny0(non-word) 为非文字图像区域的行平均边缘点个数。虽然文字图像区域中也存在者字符见得间隔,必能完全保证每一行的边缘点数量都比非文字区域的行边缘点数量多。但是从概率角度可以认为,文字图像区域的每一行边缘点适量大于政府图像边缘点数量的行平均值,而非文字图像区域者相反,即: Ny(word) Ny0(word)Ny (non-word) (2-5)式中 Ny(word)是文字图像区域中某一行的边缘点数量,Ny (non-word)
18、是非文字图像区域中某一行的边缘点数量,Ny0(word)所示是整幅图像边缘点数量的行平均值。边缘点数量统计如图2-6所示。 图2-6 行方向边缘点数量统计 检测出的可能文字图像应先进行合并,形成可能的文字图像区域。受文字图形自身结构繁简程度不同的影响,以及索书号可能有多行字符串组成,而两行字符串之间可能存在间隔,使的图像文字区域中的某些行的边缘点数量低于平均值,设置行方向的间隔阈值Ty=10.即去过两可能文字图像行的间距DyTy,这经性合并,否则视为两个独立的文字图像区域。 经可能文字图像行合并后,图2-1所示的索书号文字图像区域中存在两个索书号图像区域。现在其中包含可能文字图像行最多的区域为
19、索书号文字图像。2.5文字图像列区域检测 在检测出行区域文字图像中进一步确定。同理: Nx0(word)Nx0 (non-word) (2-6) 式中, Nx0(word)为文字图像区域的列平均边缘点个数,Nx0(non-word) 为非文字图像区域的列平均边缘点个数。文字图像区域列边缘点数两也有下属关系: Nx(word) Nx0(word)Nx (non-word) (2-7)式中 Nx(word)是文字图像区域中某一列的边缘点数量,Nx (non-word)是非文字图像区域中某一列的边缘点数量,Nx0(word)所示是整幅图像边缘点数量的列平均值。边缘点数量统计如图2-7所示。 图2-7
20、 列方向边缘点数量统计 检测出的可能文字图像应先进行合并,形成可能的文字图像区域。受文字图形自身结构繁简程度不同的影响,以及索书号可能有多列字符串组成,而两列字符串之间可能存在间隔,使的图像文字区域中的某些列的边缘点数量低于平均值,设置行方向的间隔阈值Tx=20.即去过两可能文字图像行的间距DxTx,这经性合并,否则视为两个独立的文字图像区域。 经可能文字图像行合并后,图2-1所示的索书号文字图像区域中存在两个索书号图像区域。现在其中包含可能文字图像行最多的区域为索书号文字图像。2.6 边界调整 检测出的文字图像中,由于文字大小写,吱声结构等造成字符排列不争气,导致不问字符的笔画会被漏检,如字
21、符P的下半部分。因此,必须调整文字图像的边界。在已经分割出的文字区域赴京,统计行方向的边缘点数量,若边缘点数量大于2,则将列并入文字图像区域。同理在列方向进行边界调整。经过列方向和行方向边界天正,形成完整的文字图像区,并提取出文字图像。如图2-1所示的索书号分割出的索书号图像如图2-8所示。 图2-8 分割出的索书号图像 3文字图像二值化3.1二值化的概述 多数OCR文字识别系统都是在二值化的文字图像上实现的。因此,灰度文字图像的二值化处理是文字识别系统中的关键步骤,其结果直接影响后续的图像处理,包括字符切分、特征提取和字符识别等。 二值化问题描述如:令N为一系列自然数,(x,y)是数字图像的
22、空间坐标,G=0,1,2.l-1是表示灰度级的正整数,这样图像函数以定义为映射:f:N*NG,坐标为(x,y)的像素点值为f(x,y)。设t为阈值,B=(0,1),是一对二值灰度,其二值化过程为: f(x,y)= f(x,y)t由此可见,确定合理的阈值是灰度图像二值化的关键。阈值法就是按照某种准则确定阈值t3.2最优阈值法对灰度图像,基于各像素值的阈值是仅考虑各像素本身灰度值而确定的,因而算法一般较简单,但对抗噪声能力不强。所确定的阈值作用与政府图像的每个相熟,婴儿对木表和背景的灰度有梯度变化的图像效果较差或失效。图像的灰度直方图是图像个相熟灰度值得一种统计度量。许多常用的阈值选取反复发就是更
23、具直方图来进行。如果对算风直方图选取两峰之间的谷所对应的灰度值作为阈值就可将目标和背景分开。谷的选取有很多方法,下面主要介绍最优阈值法。有时图像中目标和背景的灰度值有部分交错,这是乳痈一个全局阈值进行分割则总会稀罕省一定的误差。实际中长希望能尽可能减少误分割(包括吧目标分成背景和把背景分成目标两类)的概率,而选取最有阈值是一种常用的方法。这里最优阈值指能使误分割率最小的分割阈值。图像的直方图可看成像素灰度值的概率分布广函数的一个近似,设疑富图像仅包含两类主要的灰度值区域(目标和背景),那其直方图所代表的像素灰度值概率分布密度函数实际上是对应目标和背景的两个蛋羹分布密度函数纸盒。如果已知密度函数
24、的形式,就有可能计算出一个最优阈值,用它可把图像分成两类区域而是误分割率最小。设有这样一副混有加性高斯噪声的图像,背景和噪声的概率密度分别是P1(z)和P2(z),政府图像的混合概率密度: P(z)=P1*p1(z)+P2*p2(z) (式3-1)P1和p2分别是背景和目标区域灰度值的先验概率。根据概率定义有P1+p2=1,所以混合概率密度式自由5个未知的参数。如果能求的这些参数可以确定混合概率密度。需确定一个阈值T是的灰度值小于T的像素分割为背景而是的灰度值大于T的像素分割为目标。这时错误地将目标像素划分为背景的概率和将背景像素错误地划分为目标的概率分别是: E1(T)= (式3-2) E2
25、(T)= (式3-3)总的误差概率为: E(T)=P2*E1(T)+P1*E2(T) (式3-4) 为了求得误差最小的阈值可将E(T)对T求导并令导数为零,这样得到: P1p1(T)=P2p2(T) (式3-5)将这个结果用于高斯密度,并假设先验概率相等,即P1=P2,则: T=(A1+A2)/2 (式3-6)其中A1,A2为别是背景和目标区域的平均灰度值。这表示如果图像灰度值服从正太分布是,最佳阈值可按上式求得。3.3实验结果及分析经索书号定位和分割处理后,用于验证本二值化算法的性能。其中有的索书号图像中存在污迹,有的文字或标签纸不均匀褪色,有的存在大面积阴影和低对比度等4种典型。图36为实
26、验样本中存在文字褪色和阴影的典型索书号图像。图42为实验样本中低对比度和污迹干扰的典型索书号图像。由于本算法是基于笔画模型检测文字像素点的,因此,实验分为2部分:笔画模型检测文字像素点实验和提出的二值化算法实验。如图3-1即分割出的索书号图像的二值化图像。 图3-1 索书号二值化图像4单个字符的切分4.1粘连字符切分的概述OCR(OplicalCharacterRecognition)文字识别系统大多数是指对单个字符的识别。但在实际应用中,需要识别的往往都是由多个字符组成的字符串,其中不乏存在笔画粘连的字符切分是寻求最佳的路径将字符串切分成一个个的完整字符,它是文字识别系统的关键步骤之一。 错
27、误的字符切分是无法得到正确的识别结果的。一般认为粘连字符的错误切分会导致字符笔画的严重失真变形,以致无法实现字符的正确识别。美国Nevada大学的商业印刷体文字识别系统实验表明,错误的字符切分是产生错误识别的主要原,而且随着图像质量的下降,粘连现象趋于严重,将会导致误切分率的急剧增加。4.2索书号字符的粘连原因文档图像本身是二值图像,如前所述,其粘连的主要原因是字符的字体、尺寸、间距的变化,低劣的印刷质量和图像分辨率较低而引起的,字符笔划变形主要是由字符粘连和粘连笔划的切分引起。因此,准确的切分路径就能纠正字符变形,保证切分后字符识别有较高的正确率。与文档图像相比,索书号字符图像具有以下特点:
28、(1)字符间隔比文档中单词的字符问隔大;(2)索书号的字符基本保持相同高度;发生重叠粘连和交错粘连的概率很小。 但是,从书架上的图书侧翼分割出的索书号字符图像是彩色图像或灰度图像,字符识别之前需要二值化处理。而且索书号字符图像受下列因素的严重干扰:(1)字符串附近存在的污点;(2)字符和纸张的不均匀褪色:(3)光照不均匀。这些因素的存在,使字符图像在二值化处理时,不可避免地会将部分背景I区域错误地分为字符笔划使得笔画变宽或变长,致使字符笔划发生变形而导致粘连,即字符粘连处也是笔划变形程度相当严重的地方,即使准确切分也不一定能完全纠正字符的笔画变形。切分后字符的笔画粘连引起的字符变形被纠正,但是
29、,字符“3”的笔画变形依旧没有修复。因此,索书号粘连字符在准确切分后还必须纠正粘连处的笔划J变形。另一方面,由于干扰而引起的字符变形比较严重,导致图像分析容易出错,切分点的选择和切分路径的建立比较困难。43索书号粘连字符的切分为了提高切分速度,本节提出了采用上下轮廓凹凸特征近似检测单个字符的宽度,在字符宽度的约束下,根据轮廓凹凸特征,直接建立切分路径。并利用切分处笔划宽度特征,对切分处的变形笔划进行了恢复,有效抑制噪声干扰而产生的字符笔划变形,提高索书号文字识别的正确率。431 字符串凹凸轮廓的定义及检测图书馆藏书的索书号文字图像经过文字提取分割后得到的字符串,经阈值分割后大小为MN的二值化图
30、像定义1:从上而下逐列扫描图像,由每列的第一个黑色像素点组成的轮廓曲线称之为字符串上轮廓。上轮廓用其像素点的坐标表示为: PT(i)=ET(i) i=1,2,3,4.M (式4-1)式中ET(i) 即自上而下扫描i列图像时遇到的第一个黑色像素点的y轴坐标。如果所在列无字符,即无黑色像素点,则该列ET(i)为0。同理,同理,从下而上逐列扫描图像,由每列的第一个黑色像素点组成的轮廓曲线称之为字符串下轮廓。下轮廓用其像素点的坐标表示为: PB(i)=EB(i) i=1,2,3,4.M (式4-2)式中Eb(i) 即自上而下扫描i列图像时遇到的第一个黑色像素点的y轴坐标。如果所在列无字符,即无黑色像素
31、点,则该列Eb(i)为0。 根据上述定义检测到的索书号字符的上下轮廓如图所示。在字符间的间隔处,则在上轮廓存在凹结构,在下轮廓存在凸结构。上轮廓的离散差分为, TDp(i)=Tp(i+1)-Tp(i), i=1,2,3,4.M-1 (式4-3)下轮廓的离散差分为: BDp(i)=Bp(i+1)-Bp(i), i=1,2,3,4.M-1 (式4-4)如果TDp(j)0,若k2,i(j,j+k),TDp(i)=0,则在j,j+k】内必然存在唯一的凹结构,如果BDp(j)0,若k2,i(j,j+k),BDp(i)=0,则在j,j+k】内必然存在唯一的凸结构,如图4-1所示为二值化的索书号图像的上轮廓
32、和下轮廓曲线,在凹凸轮廓实际检测时,由于字符图像受噪声影响,字符的部分笔划边缘不光滑,会检测到一些仅有1,2个象素深度或高度的假凹轮廓或假凸轮廓。为了有效抑制笔划边缘不光滑的干扰影响,在检测过程中,增加了一个约束条件,即凹轮廓的深度和凸轮廓的高度必须大于等于3个象素。图4-1(a) 字符串上轮廓曲线 图4-1(b) 字符串下轮廓曲线432字符高度和宽度的近似检测 根据上轮廓和下轮廓的定义,可以检测到各列字符高度H(i): H(i)=ET(i)- EB(i) (式4-4)取字符串的最大高度为字符的近似高度Hw: Hw=maxH(i) (式4-5)字符串图像的上下轮廓曲线表明:(1)非粘连字符的间
33、隔处存在鲜明的凹凸结构;(2)绝大部分粘连字符在间隔处也会同样存在凹凸结构;(3)绝大部分水平笔划粘连的字符至少也会存在凹结构或凸结构。因此,可以采用凹凸结构的间距近似检测单个字符的宽度Gw. 由于凹凸结构受字符自身形状和粘连情况的影响,如I,I,l(小写L)和1等字符相对较窄,而M,N,V,W等字符本身包含凹凸结构,从这些字符检测到的问距会偏小,而水平笔划的字符粘连会使检测到的间距偏大,所以取凹结构间距和凸结构间距的中间值作为单个字符的近似宽度。设n个凹结构的位置集合为CT(1),CT(2),.CT(n),凸结构位置集合为CB(1),CB(2),.CB(m),则凹结构和凸结构的间距分别为:
34、DCT(i)=CT(i)-CT(i-1),i=2,3,.,n (式4-6) DCB(i)=CB(i)-CB(i-1),i=2,3,.,m (式4-7)为了将第一个凹结构和凸结构的间距包括在内,定义第一个凹结构和凸结构的间距为: DCT(1)=CT(1)-Lc (式4-8) DCB(1)=CB(1)-Lc (式4-9)其中Lc为字符串的起始列。 单个字符的宽度估计值为: Gw=medDCT(1),.DCT(1),.DCB(1),.DCB(1) (式4-10)由于受字符形态的影响,即使相同字体的字符,其宽度也有较大的变化,如字符1和字符“M”的宽度,而字符的高度保持基本保持一致。因此,字符高度的检
35、测比宽度检测更加准确,一般来说印刷体的字符高度和宽度之间满足如下关系; Gw=0.7Hw (式4-11)因此,如果当字符因干扰严重而无法准确检测到字符宽度时,根据上述(4-14)式关系,建立字符宽度检测的约束条件: 0.5HwGw0.8Hw (式4-12)即当用凹凸结构轮廓检测的字符宽度不能满足式(4-11)的约束关系时,用式(4-12)估计字符宽度。433粘连索书号的切分 索书号字符粘连的类型主要是简单粘连。上下轮廓的凹凸结构位置作为可能的切分列,在如在约束条件的作用下进行切分: 同一索书号的字符尺寸大小相同,则每个字符的宽度Lw应该在一定范围内,即: 0.6GwLw1.5Gw (式4-13
36、)在上述约束条件的作用下,切分算法如下所示。切分的步骤如下:第一步:为非粘连字符的切分。检测上轮廓的凹结构,若第i个凹结构的Tp(CT(i)=0,则i凹结构为非粘连字符的间隔,切分后所得的字符区域为Pl,P2.Pn)。第二步:在上述切分的基础进行粘连字符的切分。4.3.4字符笔画变形的修复粘连字符的切分是对字符变形的纠正,但并不是正确的切分就能完全修复字符笔划的变形。如图55所示,正确的切分后,字符“3”的变形。由于索书号字符串的字符笔划宽度接近相等,粘连笔划切分后同样应该满足该条件: Rw=minSL/SR,SR/SL (式4-14)若Rw0.5,若Rw0.5,则消除笔划宽度较小的笔划。有时
37、切分,会使上式中的SR或SL为0,无法进行计算分析,因此,当其中任意一值为0时,则令Rw=1。经过笔划修复后,字符3可以回复笔划形。4.4 实验结果分析 字符宽度和高度的估计准确与否直接影响算法的切分结果。首先验证算法对字符宽度和高度估计的准确性。由于不同尺寸大小、不同字符的文字笔画粗不同,而且受文字结构自身变化的影响即使同一个文字,其字符宽度也不是保持某一个恒定的值。为此,采用Wo+1个像素的范围来衡量字符宽度估计的准确性。 索书号字符的估计宽度Gw为22个象素,字符串中最大字符的宽度为28个象素,晟小字符的宽度为20个像素,字符的估计高度Hw为29个象素,字符串的字符宽度均在合理范围内。5
38、0本书共有字符377个,若不考虑1、1和J等过窄字符,字符的真实宽度均在估计范围内。其中粘连的字符有115个,有107个准确切分,其中有5个字符经过切分后的笔划修复回复字形,8个字符发生错误切分,切分准确率为93% 通过实验和分析发现,粘连字符发生错误切分的主要类型是字符M、N和l、T以及7等发生水平笔划粘连。在凹凸轮廓结构分析选择切分路径时,容易在M和N的两边的竖直笔划处发生错误切分。如图所示为索书号二值图像的部分切割的字符。 图4-2 字符4 图4-3 字符7 图 4-4 字符3 5字符识别 采用数字字符轮廓解构特征和统计特征相结合的方法,并从中选出稳定的局部特征,理由结够语句识别的方法进
39、行数字的识别,能够实现不同字体索书号多种字体数字的准确识别,同事还提高了识别的速度。5.1字符轮廓定义 由于受噪声和随机污点的干扰,以及二值化和粘连字符处理会一起字符的变形。为了尽量减少这种变形对星系特征的干扰,或者从变形的字符中提取可靠的特征子女系,讲字符的整体轮廓分解为底部,顶部,左侧和右侧4个方向的轮廓特征来描述,是的当其中某部位的笔画发生变形是,不会改变或者减少对其他部位特征的影响。 左侧轮廓(LP(k),k=1,2.M)定义为字符最左侧边界像素点的遂平方向坐标值。 LP(i)=minx/P(x,y),y=i i=1,2.M (式5-1)式中P(x,y)表示图像坐标为(x,y)的像素点,同理,右轮廓(RP(k),k=1,2.M)定义为字符最右侧边界像素点的遂平方向坐标值。 RP(i)=minx/P(x,y),y=i i=1,2.M (式5-2)相应地,顶部轮廓(TP(k),k=1,2.N)定义为字符最高边界像素点的垂直方向坐标值。底部轮廓(BP(k),k=1,2.N)定义为字符最低边界像素点的垂直方向坐标值。 TP(i)=miny/P(x,y),y=j j=1,2.N (式5-3) BP(i)=miny/P(x,y),y=j j=1,2.N (式5-4)为了描述轮廓的变化特征,定义四个方向轮廓的一阶微分: LPD=LP(i+1)-LP(i) RPD=RP(
限制150内