光学字符识别技术优秀PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《光学字符识别技术优秀PPT.ppt》由会员分享,可在线阅读,更多相关《光学字符识别技术优秀PPT.ppt(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、光学字符识别技术第1页,本讲稿共10页一文字识别系统的构成。p 印刷体识别的原始图像是通过扫描仪、CCD器件或传真机等获得的二维灰度或二值图像,其识别过程如下图:第2页,本讲稿共10页第3页,本讲稿共10页预处理包括对原始图像的去噪声、倾斜校正等。图像二值化等版式分析:对文本图像进行总结分析,标示文本的段落,图表,表格区域;对文本区域进行识别处理,对表格区域进行专用的表格分析及识别处理,对图像区域进行简单的压缩或存储。字符切割:先将文本图像切割为行(列),再从字符图像中分离出单个字符。当图像质量很差时,不易进行简单的分割,常与识别过程相结合。随着单字识别率的增高,切割错误在所有错误中所占的比重
2、不断上升,增样实现字符的正确分割成了一个需认真解决的问题。特征提取:从单个字符中提取统计特征或结构特征,是整个识别中最重要的步骤,特征提取的好坏,直接决定识别的性能在特征提取前,常进行归一化,细化化处理。单字识别:从学习得到的特征库中找到与待识别字符相似度高的字符。为了提高识别速度,常采用树分类器。后处理:对单字识别的结果,利用语义、词频、语义等先验知识进行识别结果的确认或纠错。第4页,本讲稿共10页二文字识别技术pOCR识别技术可分为印刷体识别技术和手写体识别技术,而后者由分为联机手写识别和脱机手写识别技术。从识别难度上讲,多印刷体识别技术难于单印刷体识别,手写字体识别难于印刷体识别,而脱机
3、识别难于联机识别。第5页,本讲稿共10页识别器是系统的核心:用于文字识别的方法有统计模式识别,结构模式识别和人工神经网络等方法。第6页,本讲稿共10页p在OCR系统中,是一个典型的图像处理系统,从图像的获取,预处理,到文本的切割,看将其视为一个输入图像输出图像的一般意义上的图像处理,二特征的提取到输出文本可认为是一个图像分析的过程,是一种更广义上的图像处理。第7页,本讲稿共10页p在进行印刷体汉字识别时,首先将印在纸上的汉字,经过电扫描产生模拟信号,再经过模电转换将其转变为灰度图像输入计算机。纸张的薄厚、洁白度、光洁度、油墨深浅、印刷质量,产生的污点、飞白、断笔,交连等干扰。输入设备光学畸变、量化等过程也要引入的噪声。所以在当个汉字识别之前要对这副图像进行预处理。第8页,本讲稿共10页p 在图像版面校正中,需将有倾斜的输入校正,主要使用图像的旋转,几何操作。p 汉字图像的预处理一般包括:二值化、行、字切分、平滑、去噪声、细化或提取轮廓等。第9页,本讲稿共10页p纵上所述,OCR系统中使用的基本图像处理原理和方法如下:p图像获取的基本原理,图像的表示存储;图像的旋转;p图像去噪声、平滑,即图像的增强和复原;p图像分割;p图像的模式识别分析等。第10页,本讲稿共10页
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 光学 字符 识别 技术 优秀 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内