2022年手写体数字的识别知识 .pdf
《2022年手写体数字的识别知识 .pdf》由会员分享,可在线阅读,更多相关《2022年手写体数字的识别知识 .pdf(32页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、手写体数字识别第一章绪论 . 41.1 课题研究的意义. 41.2 国内外究动态目前水平. 41.3 手写体数字识别简介. 51.4 识别的技术难点. 51.5 主要研究工作 . 6第二章手写体数字识别基本过程:. 62.1 手写体数字识别系统结构. 62.2 分类器设计 . 72.2.1 特征空间优化设计问题. 72.2.2 分类器设计准则. 82.2.3 分类器设计基本方法. 93.4 判别函数 . 93.5 训练与学习 . 10 第三章贝叶斯方法应用于手写体数字识别. 11 3.1 贝叶斯由来 . 11 3.2 贝叶斯公式 . 11 3.3 贝叶斯公式Bayes 决策理论: . 12 3
2、.4 贝叶斯应用于的手写体数字理论部分:. 16 3.4.1.特征描述: . 16 3.4.2 最小错误分类器进行判别分类. 17 第四章手写体数字识别的设计流程及功能的具体实现. 18 4.1 手写体数字识别的流程图. 18 4.2 具体功能实现方法如下:. 19 结束语 . 25 致谢词 . 25 参考文献 . 26 附录 . 27 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 32 页 - - - - - - - - - 摘要数字识别就是通过计算机用数学技术方法来
3、研究模式的自动处理和识别。随着计算机技术的发展, 人类对模式识别技术提出了更高的要求。特别是对于大量己有的印刷资料和手稿, 计算机自动识别输入己成为必须研究的课题,所以数字识别在文献检索、 办公自动化、 邮政系统、 银行票据处理等方面有着广阔的应用前景。对手写数字进行识别, 首先将汉字图像进行处理, 抽取主要表达特征并将特征与数字的代码存储在计算机中,这一过程叫做“训练”。识别过程就是将输入的数字图像经处理后与计算机中的所有字进行比较,找出最相近的字就是识别结果。本文主要介绍了数字识别的基本原理和手写的10 个数字字符的识别系统的设计实现过程。 第一章介绍了数字识别学科的发展状况。第二章手写体
4、数字识别基本过程。第三章贝叶斯方法应用于手写体数字识别。第四章手写体数字识别的设计流程及功能的具体实现,并对实验结果做出简单的分析。关键词 :手写体数字识别分类器贝叶斯vc+6.0 错误!未找到引用源。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 32 页 - - - - - - - - - ABSTRACT The digital recognition researches how to treat with and recognize pattern automa
5、tically through computer with math arithmetic. Along with the development of computer technology, human need more advanced digital recognition technology. Especially for large numbers of printed data and manuscript, the automatic recognition and input of Chinese characters becomes a stringent task,
6、therefore the digital recognition will have a broad application prospect on literature retrieval, office automation, postal service system, bank bill processing. In order to recognize digital characters, the first task we have to do is feature extraction of a map, after that we have to store the fea
7、ture in the computer. This process is called the training. This process compares the hand-written digitals feature and the stored features in the computer. This paper mainly introduces the basic principles of hand-written digital recognition and the design 、realization process of ten hand-written di
8、gital recognition system. The first chapter mainly introduces the concepts related to the digital recognition and this disciplines development condition. The second chapter introduces the digital recognitions process. The third chapter mainly introduces digital recognition with Bayes. The fourth cha
9、pter introduces design process and functions carried out, the experimental result and the simple analysis. Kewords : Hand-Written DigitalRocognition Classification Bayes vc+6.0 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 32 页 - - - - - - - - - 第一章绪论1.1 课题研究的
10、意义手写体数字识别的研究有很大的实用价值,例如在邮政编码、 税务报表、 统计报表财务报表、 银行票据、 海关等需要处理大量字符信息录入的场合,在很大程度上要依赖数据信息的输入。随着人们生活水平的提高, 经济活动的发展, 通信联系的需求使信函的互换量大幅度增加,我国函件业务量也在不断增长, 预计到 2010 年,一些大城市的中心邮局每天处理量将高达几百万件,业务量的急剧上升使得邮件的分拣自动化成为大势所趋。在邮件的自动分拣中, 手写数字识别(OCR)往往与光学条码识别 (OBR-Optical Bar Reading) ,人工辅助识别等手段相结合,完成邮政编码的阅读。 目前使用量最大的OVCS
11、分拣机的性能指标: OCR拒分率 30% ,OCR 分拣差错率 1.1%。如果能通过手写数字识别技术实现信息的自动录入,将会促进这一事业的进展。手写体数字识别的研究不仅有很大的应用价值,而且有重要的理论价值, 由于数字别的类别较小, 有助于作深入分析及验证一些新的理论。例如人工神经网络,相当一部分的 ANN 模型和算法都以手写数字识别作为具体的实验平台。可以说,手写体数字识别的研究将有助于模式识别、机器理解、机器人技术的发展,对今后研究如何更好地进行人机交互,使计算机具有和人一样的能力有很大的理论价值。1.2 国内外究动态目前水平手写体字符的识别在很早以前就开始了。国外从20 世纪 70 年代
12、初研制成“光学字符别机 (OCR) ” ,能够自动识别印刷体的英文文字及阿拉伯数字。20 世纪 70 年代中期出现了能识别手写数字的OCR 。在 20 世纪 70 年代末和 80 年代初又出现了能识别手写英文母的OCR 。日本于 20 世纪 80 年代初研制了印刷体汉字识别样机,这是最早的汉字OCR 。我国从 20 世纪 70 年代就开始进行了字符 (英文字母和数字 ) 识别的研究, 20 世纪 80 年代己进入实用阶段,主要用于邮政信函自动分检, 人口普查和生产统计报表。 手写体数字识别是手写字符识别的一个重要分支,它又分为在线手写体识别和离线写体识别。在线手写体识别通过记录文字图像抬笔、
13、落笔、笔迹上各像素的空间位, 以及各笔段之间的时间关系等信息,对这些信息进行处理,在处理过程中,系统以定的规则提取信息特征,再由识别模块将信息特征与识别库的特征进行比较、加以识别,最后转化为计算机所使用的文字代码。在线手写体识别的一个重要的不足就是要求写入者必须在指定的设备上书写。而离线手写体识别则是通过使用任何一种图像采集设备,如 CCD 、扫描仪、数码相机等将手写者已写好的文字作为图像输入到计算机中,然后由计算机去识别。 在过去的数十年中, 研究者们提出了许许多多的识别方法。按使用的特征不同,这方法主要可以分为三类: 基于结构特征的方法、基于统计特征的方法和人工神经网结构特征通常包括圆、端
14、点、交叉点、笔划、轮廓等,对于一名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 32 页 - - - - - - - - - 个复杂的模式, 采用分解的方法将其划分为若干较简单的子模式乃至基元,通过对基元和子模式识别的综合建立在统计数学,特别是贝叶斯决策理论基础上, 通过模式紧密性、 距离和相似性度量等感念和假定,形成了统计决策方法的一系列结论。人工神经网络具有学习和联想功能,在字符识别中主要采用基于BP算法的多层感知机及多层卷积神经网络; 基于正规化方法构建的径向基函数
15、网络; 以及具有“拓扑保持”特性的自组织特征映射( 包括学习矢量量化LvQ)等。一般来说,各类特征各有优势。例如,使用统计特征的分类器易于训练,而且对于使用统计特征的分类器,在给定训练集上能够得到相对较高识别率; 而结构特征的主要优点之一是能描述字符的结构,在识别过程中能有效的结合几何和结构的知识,因此能够得到可靠性较高的识别结果。神经网络具有自学习、容错性、分类能力强和并行处理等特点。手写体识别目前的研究方向是: 特征提取问题,这个方面一是在现有基础上进行组合,另一个是引入新的特征技术; 分类器研究,一是多分类器继集成,另一个方向是研究新的分类器。 、1.3 手写体数字识别简介手写体数字识别
16、是指利用电子计算机自动辨认手写体阿拉伯数字的一种技术, 它属于光学字符识别 (OCR) 的范畴手写体数字识别又分为联机识别(on-line)和脱机识别 (off-line)两种。其中,最为困难的就是脱机手写字符的识别。主要是因为脱机手写体识别过程无法获得字符书写时的一些动态信息。然而,手写体数字识别技术的研究是非常有价值的,它具有广阔的应用前景。手写体数字识别系统性能的评价方法作为一个识别系统, 我们最终要用某些参数来评价其性能的高低,手写数字识别也不例外。 评价的指标除了借用一般文字识别里的通常做法外,还要根据数字识别的特点进行修改和补充。对一个手写数字识别系统,可以用两方面的指标表征系统的
17、性能: 识别率 A 正确识别样本数 / 全部样本数 *100% 误识率 S 误识样本 / 全部样本数 *100% 两者的关系 A+S=100% 数字识别的应用中,人们往往很关心的一个指标是“识别精度”,即在所有识别的字符中,正确识别的比例,表示如下: 识别精度 :P=A/(A+S)*100% 一个理想的系统应是S尽量小,然而 A尽可能大。1.4 识别的技术难点手写体数字识别的研究是一项具有相当难度的工作,此项工作的难点主要在于以下几方面 : 1. 阿拉伯数字的字形信息量很小,不同数字写法字形相差不大,使得准确区分某些数字相当困难。2. 要识别的数字虽然只有十种,而且笔划简单,但同一数字写法千差
18、万别,不同的人写法也不尽相同, 很难完全做到兼顾各种写法的极高识别率的通用性数字识别系统。3. 在实际应用中,对数字的单字识别正确率的要求要比文字要苛刻得多。这名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 32 页 - - - - - - - - - 是因为文字有上下文关系, 但数字没有上下文关系, 每个单字的识别都至关重要,而且数字识别经常涉及的财会、金融领域,其严格性更是不言而喻的。因此,用户的要求不是单纯的高正确率,更重要的是极低的误识率。4. 大批量数据处理对系
19、统速度又有相当的要求,许多理论上很完美但速度过低的方法也是行不通的。 综上所述,研究高性能的手写数字识别算法是一个有相当的挑战性的课题, 同样的把高效的手写体数字识别算法应用于实际工作之中也是具有重要意义的。1.5 主要研究工作本论文主要介绍了手写体数字识别的一些基本知识和发展概况,然后介绍了贝叶斯理论分类器原理,及贝叶斯分类器应用关于手写体数字识别的设计原理,最后本文叙述了利用贝叶斯原理识别数字的开发过程。第二章手写体数字识别基本过程:2.1 手写体数字识别系统结构一个典型的手写体数字识别系统如图2-1 所示,由数据获取、预处理、特征提取、分类决策及分类器设计五部分组成,一般分为上下两部分。
20、 上半部分完成未知类别模式的分类; 下半部分属于设计分类器的训练过程, 利用样品进行训练,确定分类器的具体参数,完成分类器的设计。而分类决策在识别过程中起作用,对待识别的样品进行分类决策。图 2-1 手写体数字识别系统结构数字识别组成单元功能介绍如下。1.数据获取。用计算机可以运算的符号来表示所研究的对象,一般获取的数据类型有以下几种。二维图像:文字、指纹、脸谱照片等。未知类别模式的分类获取数据预处理特征提取分类决策分类结果训练样本预处理特征选择确定判别函数改进判别函数误差检验分类器设计名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - -
21、 - 名师精心整理 - - - - - - - 第 6 页,共 32 页 - - - - - - - - - 一维波形:脑电图、心电图、季节震动波形等。物理参量和逻辑值:体温、化验数据、参量正确与否的描述。2.预处理。对输入测量仪器或其他因素所造成的退化现象进行复原、去噪声、提取有用信息。3.特征提取。对原始数据进行变换,得到最能反映分类本质的特征。将维数较高的测量空间转变为维数较低的特征空间。4.分类决策。在特征空间中用模式识别方法把被识别的对象归为某一类。5.分类器设计。基本做法是收集样品训练集,在此基础上确定判别函数,改进判别函数和误差检验。2.2 分类器设计2.2.1 特征空间优化设计
22、问题确定合适的特征空间是设计模式识别系统一个十分重要,甚至最为关键的问题。如果所选用的特征空间能使同类物体分布具有紧致性,不同类别物体彼此分开,即各类样品能分布在该特征空间中彼此分割开的区域内,这就为分类器设计提供良好的基础。 反之,如果不同类别的样品在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。特征空间的设计往往是一个逐步优化的过程,设计的初期阶段, 选择的特征空间维数较高, 需要对它进行改造, 改造的目的在于提高某方面的性能,因此又称为特征的优化问题。 一般说要对初始的特征空间进行优化就是为了降维,即将初始的高维特征向量改成一个维数较低的空间。优化后的特征空间应该更有利
23、于后续的分类计算。 对特征空间进行优化有两种基本方法,一是特征选择, 另一种是特征的优化组合。1、特征选择在模式识别中特征提取是首先要解决的问题。为了对样品进行准确的识别,需要进行特征选择或特征压缩。 特征选择指对原始数据进行抽取,抽取那些对区别不同类别最为重要的特征, 而舍去那些对分类并无多大贡献的特征,能得到反映分类本质的特征。 如果区别不同类别的特征都能从输入数据中找到,这时自动模式识别问题就简化为匹配和查表,模式识别就不困难了。2、特征提取假设已有 D 维特征向量空间,12,.nYy yy,特征的组合优化问题涉及特征选择和特征提取两部分。特征选择是指从原有的D 维特征空间中删去一些特征
24、描述量, 从而得到精简后的特征空间。在这个特征空间中, 样品由 d 维空间的特征向量描述:12,.nXx xx,dD。由于 X 只是 Y 的一个子集,因此每个分量 xi必然能在原特征集中找到其对应的描述量xi=yj。特征提取则是找到一个映射关系:A:Y X (3.1)使新样品特征描述维数比原维数低。其中每个分量xi 是原特征向量各分量的函数,即xi=xi(y1,y2,, , yD)(3.2)因此这两种降维的基本方法是不同的。在实际应用中可将两者结合起来使名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - -
25、 - - - 第 7 页,共 32 页 - - - - - - - - - 用,比如先进行特征选择,即从原有的D 维特征空间,删去一些特征描述量,从而得到精简后的特征空间,然后再进一步特征提取,或反过来。总之,特征选择与特征提取的任务是求出一组对分类最有效的特征,有效是在特征维数减少到同等水平时,其分类性能最佳。2.2.2分类器设计准则模式识别分类问题是指根据待识别对象所呈现的观察值,将其分到某个类别中去。具体步骤如下:第一步:建立特征空间中的训练集,已知训练集里每个点所属类别。第二步:从这些条件出发, 寻求某种判别函数或判别准则,设计判决函数模型。第三步:根据训练集中的样品确定模型中的参数。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年手写体数字的识别知识 2022 手写体 数字 识别 知识
限制150内