脱机手写体字符识别 (2)幻灯片.ppt
《脱机手写体字符识别 (2)幻灯片.ppt》由会员分享,可在线阅读,更多相关《脱机手写体字符识别 (2)幻灯片.ppt(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、脱机手写体字符识别第1页,共17页,编辑于2022年,星期二概述 由于有些场合,不能采用书写板等专用的输入设备输入文字,或文字信息已经是以手写体的形式存在,如果要利用计算机进行文字识别,就只能进行脱机手写体字符识别。第2页,共17页,编辑于2022年,星期二OCR概念 OCR技术是光学字符识别(Optical Character Recognition)的缩写,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。第3页,共17页,编辑于2022年,星期二图像的输入 原始文稿通过光电扫描仪或数码相机等输
2、入设备转换成原始的二维图像信号,可以是彩色图像、灰度图像(grayscale image)或二值图像(binary image)。这个模块仅仅需要的是在获取图像过程中,尽可能的保证原始文稿的二维图像有比较好的质量,从而有利于后面识别模块的识别。第4页,共17页,编辑于2022年,星期二预处理 预处理是脱机手写识别系统中需要解决问题最多的一个模块。预处理通常包括以下几个过程:1、二值化2、消除干扰3、细化第5页,共17页,编辑于2022年,星期二原图像二值化细化第6页,共17页,编辑于2022年,星期二版面分析 版面分析与理解是文字识别的前处理技术之一。它是利用图像处理、人工智能等技术完成文档图
3、像文件中的文字域的分拣工作。其难度取决于版面的复杂程度,是文字识别系统提高实用化水平的主要技术指标之一。1、图像定位2、倾斜校正第7页,共17页,编辑于2022年,星期二原图像校正后第8页,共17页,编辑于2022年,星期二字符的分割1、行切割 对于输入的二值化文字图像,首先要逐行地把各文字行图像切割出来,行切割的方法是:对二值化图像从上到下逐行扫描并同时计算每个扫描行的像素,以获取图像的水平投影,根据水平投影值确定文字行的位置,利用文字行间空白间隔造成的水平投影空白间隙,即可将各行文字分割出来2、字切割 子切割是从行切割后得到的文字图像中将单个汉字的图像分割出来。基本方法是利用字与字之间的空
4、白间隙在图像行垂直投影上形成的空白间隙将单个汉字的图像切割开来。汉字的构造决定了字切割是更为困难的第9页,共17页,编辑于2022年,星期二文字归一化1.位置归一化 为了消除汉字点阵位置上的偏差,需要把整个汉字点阵图形移动到规定的位置上,这个过程被称作为位置归一化两种方法:1、基于质心的位置归一化 2、基于文字外边框的位置归一化2.大小归一化 对不同大小的文字做变换,使之成为同一尺寸大小的文字,这个过程被称做大小归一化。通过大小归一化,许多特征就能够用于识别不同字号混排的文字。两种方法:1、将文字的外边框按比例线性放大或缩小成为规定尺寸的文字 2、根据水平和垂直两个方向文字黑像素的分布进行大小
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 脱机手写体字符识别 2幻灯片 脱机 手写体 字符 识别 幻灯片
限制150内