印刷体汉字识别技术的研究毕业设计(42页).doc
《印刷体汉字识别技术的研究毕业设计(42页).doc》由会员分享,可在线阅读,更多相关《印刷体汉字识别技术的研究毕业设计(42页).doc(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-印刷体汉字识别技术的研究毕业设计-第 36 页 学校代码:10259上海应用技术学院学士学位论文 题 目: 硬刷题汉字识别技术的研究 专 业: 电气工程及其自动化 班 级: 09103212 姓 名: 沈佳骏 学 号: 0910321220 指导教师: 陈岚 二O一三年 六月六日印刷体汉字识别技术的研究摘要:印刷体汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理。实际生活中,大量的书信、报纸、杂志内容需要输入计
2、算机,这就是印刷体汉字识别要解决的问题。本文首先在第一章就汉字识别研究的意义和背景以及对目前存在的问题作了综述。第二章对印刷体汉字的识别过程进行基本概述。第三章对印刷体汉字识别作了详细阐述,论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程;分析了统计模式识别方法、 结构模式识别方法以及人工神经网络模式识别方法;第四章用Matlab对系统进行了仿真;最后在第五章进行全文总结并预测了汉字识别技术研究今后的发展方向。关键词:汉字识别; 特征提取; 匹配识别; 人工神经网络; Matlab仿真The research of printed Chinese characters recog
3、nition technologyAbstract: Printed Chinese character recognition technology is a kind of automatic high-speed, information input method, become the important functions of the computer interface, still can as office automation, the press and publishing, machine translation, etc, the ideal input has w
4、ide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the computer could process Chinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation o
5、f the input characters. Thats what printed Chinese character recognition can do. Firstly, in chapter 1,this thesis gives what is the significance of research and background of Chinese character recognition and introduce the problems we encountered now. The chapter 2,it is a basic overview of the rec
6、ognition process of printed Chinese characters. In chapter 3, we discusses the principles and printed character recognition, feature extraction and analysis, the post-processing process, Emphatically analyses the statistical pattern recognition method, structural pattern recognition method and Artif
7、icial neural network pattern recognition method. In chapter 4, giving an Matlab simulation concludes the whole article and forecast characters identification technology research directions of future development.KeyWords:Chinese characters recognition;feature extraction;Matching recognition;Artificia
8、l neural network;Matlab simulation目 录摘要iABSTRACT.i目录iii1 绪论11.1 印刷体汉字识别技术的研究意义11.2 印刷体汉字识别技术的研究状况11.3 印刷体汉字识别技术存在的难点22 印刷体汉字识别的概述42.1 印刷体汉字识别的原理简介42.2 印刷体汉字识别的流程简介43 印刷体汉字识别技术的研究63.1 预处理63.2 汉字特征提取83.3 汉字识别算法分类93.4 后处理113.5 印刷体汉字识别方法分析123.5.1 结构模式识别方法123.5.2 统计模式识别方法123.5.3 人工神经网络143.5.4 BP神经网络153.5
9、.5 支持向量机173.6 本章小结184 系统的Matlab仿真194.1 系统的分析194.2 系统的实现204.2.1 特征提取204.2.2 BP神经网络的建立214.2.3 BP神经网络的训练214.2.4 系统的仿真234.2.5 系统性能的进一步验证274.2.6 仿真结果分析314.3 本章小结325 未来展望与全文总结335.1 未来展望335.2 全文总结33参考文献35致谢36参考附录37参考附录137参考附录2481 绪论1.1 印刷体汉字识别技术的研究意义 汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中华人民智慧的光芒。同时也是世界上使用人数最多和数量最多的
10、文字之一。在跨入信息时代后,现如今汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是呈爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。然而,随着人们对电子化信息需求的日益增加,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题,也是关系到计算机技术能否在我国真正普及的重要前提,更是能否传播与弘扬中华民族悠久历史文化的关键因素。传统的人工键入不仅速度慢而且劳动强度大,即使是专业的打字员每分钟也只能输入100-120个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价
11、格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。人们要求有一种能将文字信息高速、自动输入计算机的方法,于是印刷体汉字识别技术便应运而生。这种快速,准确的自动处理方式将在很大程度上推动我国信息化的发展进程,对社会各方面的工作都有着相当深远的意义。目前印刷体汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(Optical Character Recognition)的重要组成部分。汉字识别是一门多学科综合性的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像
12、处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等技术都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的相互进步。因而该技术有着重要的实用价值和理论意义。同时,中国是使用汉字最久远和最广泛的国家。因此,能否在汉字识别技术的研究方面占据领先的位置也是中国科技实力的一项至关重要的体现。1.2印刷体汉字识别技术的研究状况 印刷体汉字识别是文字识别技术的一种。利用机器识别文字符号,可以说从1929年奥地利科学家陶舍克利用光学模板匹配识别开始。当时,他使用了10块模板对应10个数字,依次把待识别的数字投影到这10块模板上,当
13、模板透过的光达到最小时(数字遮挡了模板的透光部分),数字就被识别成这块模板上的数字。大约在50年代末60年代初,就已经出现了关于利用计算机识别数字及英文符号的研究论文。据文献记载,印刷体汉字的识别最早可以追溯到60年代中期。1966年,IBM公司发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。随后,日本也在70年代开始对汉字识别进行了研究。1981年5月在日本第56届商业展览会上,富士通研究实验室进行了手写印刷体汉字识别的公开表演。1984年日本武藏野电气研究所研制成多体印刷汉字识别装置,可以识别2300个多体汉字的印刷体汉字识别系统, 识
14、别率为99.88%,识别速度大于100字/秒,代表了当时汉字识别的最高水平1。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统,但因这些系统价格极其昂贵,没有得到广泛应用。直到80年代中期以来,以软件为主并使用通用高档微机的产品才逐步走向市场。 同国外相比,我国的印刷体汉字识别研究起步较晚2。我国在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究,20世纪70年代末仅有少数大学和研究所开始进行汉字识别的研究并发表了一些论文,研制了少量模拟识别软件或系统。但由于我国政府从80年代中期开始对汉字自动识别输人的研究给予了充分的重视和支持,汉字识别技术进入了研究的高潮
15、。经过科研人员这些年的辛勤努力,印刷体汉字识别技术的发展和应用有了长足进步,从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。进入90年代以来,印刷体汉字识别研究的主要目的是提高识别系统的品质和效率,增强系统对不同文本的适应性,扩大使用面。在加强版面分析、识别结果上下文匹配后处理和各种实用化技术的研制的同时,进行对识别方法的进一步研究,促使更实用的产品广泛出现。1.3 印刷体汉字识别技术存在的难点 由
16、于汉字具有以下几个方面的特点,使汉字字符在识别难度上远远大于字母化字符的识别。(1)类别较大目前我国常用汉字约30004000个。国标GB2312一80常用汉字字符集中共有,6763个常用字,分为两级。第一级3,755个汉字,使用频度为99.7%,第二级有3,008个汉字,两级汉字总使用频度为99.99%,识别系统一般应能正确识别这些常用字,才能满足实际应用的需要。目前的研究目标一般都着眼于解决国标一级3755个汉字,即使是这样,汉字识别也属于大类别数的模式识别问题。可以说,字量大是造成汉字识别困难的主要原因之一。(2)结构复杂汉字是一种结构性很强的文字,每个汉字都具有独一无二特定分布的若干笔
17、划构成,笔划是汉字最基本的组成部分,汉字也可以看成是由部件组合而成的,部件是笔划有意义的组合,一般称之为偏旁、部首或字根。笔划和部首的不同排列组合,构成了数以千计表达不同含义的结构异常复杂的汉字字符。与世界上常用的其他民族的文字相比,汉字的结构是最为复杂的。 (3)相似字多部分汉字字符之间只存在着很细小的差别,具有相同笔划数目的汉字字符之间的差异有的表现为某一个笔划位置或形态的微小变化,又比如“土”和“士”这两个字仅在下部笔划长短有细微的差别而已。即使由人来辨认印刷体的这些汉字,在无上下文信息的帮助时,也很容易发生混淆3。识别算法和系统必须能够正确判定这些细微的差异,否则就会发生错误。汉字的以
18、上几个特点就决定了没有单一的一种特征就可以完成对汉字的识别,因此如何有效的选取各种特征,有效的进行组合,使它们在匹配速度和识别率上都能满足实际需求就成为整个系统的关键。2 印刷体汉字识别的概述2.1 印刷体汉字识别的原理简介 汉字识别(CCR:Chinese Character Recognition)是用电子计算机自动辨识印刷在纸上或者人写在纸(或其他介质)上的汉字。汉字识别技术是计算机智能接口的一个重要组成部分。从学科上划分,汉字识别属于模式识别和人工智能的范畴。它涉及到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科,是一门综合性的技术。该系统由输入设备、汉字识别模块和计算机
19、硬、软件三部分组成。核心部分是汉字识别模块部分,印刷体汉字识别的过程主要过程包括预处理、特征提取、特征匹配、识别后处理。预处理是在所有识别处理之前进行的,它将从各种不同输入方式获得的汉字图像中的干扰因素降到最低。随着汉字识别技术的深入研究,汉字的特征提取的算法越来越多,如何选择特征和如何组合优化特征已经成了研究的重要领域。汉字识别的基本思想是匹配识别,匹配识别技术涉及到分类器的设计等重要问题,这也是非常重要的一个环节。汉字的后处理是出于获得最大化识别率考虑,它在前期已有识别水平上,通过调整参数或反馈处理获得更高的识别率。在本文中,将二值化,平滑去噪,文本行字切分都归为预处理。汉字图像通过光电扫
20、描仪,CCD器件等工具扫描成为二维图像信号(数码图像),该种信号在文本中以图片(jpg,bmp等格式)形式显现,而后通过本文所介绍的预处理,特征提取与匹配及相关后处理等实现汉字识别的过程。2.2印刷体汉字识别的流程简介 印刷体汉字识别的过程主要过程包括预处理、版面分析理解、文本行字切分、特征提取、汉字识别、识别后处理,在本文中,将版面分析理解、文本行字切分都归为预处理。系统框图如2.2.1所示。输入材料扫描输入图像图像预处理文本的行列切割文字的特征提取文字的识别处理识别结果识别结果的改编图2.2.1 印刷体汉字识别流程图 版面分析主要是对文本图像的总体进行分析,区分出文本段落及排版顺序,图像、
21、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、规范化(Normalization)等。提取特征的稳定性及有效性,直接决定了识别的性能。文字识别,即从学习得到的特征库中找到与待识别字符相似度最高的字符类的过程。后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。由此可见,印刷汉字识别技术主要包括图像处理模块,图
22、像版面的分析与理解模块,图像的行切分与字切分模块,单字图像的特征提取与匹配模块,特征库,识别结果的后处理模块。其中单字图像的特征提取与匹配模块是印刷汉字识别中最为核心的技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过98%,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术,也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。3 印刷体汉字识别技术的研究3.1 预处理由于用数码相机或扫描仪作为输入设备得到的数据不可避免地存在着各种外在的干扰,图像质量也有偏差,对识别效果有一定影响。因此,在对原始图像进行识别处理之前,尽可能将干
23、扰因素影响降低,是非常有必要的,也就是要先对原始采样信号进行预处理。预处理通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等34。 (1)版面分析印刷体文字识别常遇到的识别主体不是一个文字段,而是整个版面,所以版面分析是印刷体文字识别系统中的重要组成部分。它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在一起。这一过程的自动完成算法还不是很完善,有些部分常由手工完成,最终的系统能够自动完成所有的版面分析。 (2)二值化将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理5,二值化的主要目的是将汉字
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 印刷体 汉字 识别 技术 研究 毕业设计 42
限制150内