印刷体汉字的分类和识别精.ppt





《印刷体汉字的分类和识别精.ppt》由会员分享,可在线阅读,更多相关《印刷体汉字的分类和识别精.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、印刷体汉字的分类和识别第1页,本讲稿共47页要点:印刷体汉字的印刷体汉字的分类分类印刷体汉字的印刷体汉字的识别识别课堂课堂练习练习课后课后练习练习第2页,本讲稿共47页印刷体汉字的分类印刷体汉字的分类印刷体汉字分类的必要性印刷体汉字分类的基本要求印刷体汉字分类举例印刷体汉字分类的方法返回第3页,本讲稿共47页印刷体汉字分类的必要性由于汉字数量大,如果不对汉字分类而直接识别,一方面识别效果不会好,另一方面计算量往往会很大。汉字识别通常都要对汉字做一级或多级分类,然后再细分判别,从而大大提高识别效率。返回第4页,本讲稿共47页印刷体汉字分类的基本要求粗分类的正确分类率和分类稳定性要高。文字识别是先
2、粗分类,然后再细分。粗分类的正确与否会影响到后面的识别。粗分类的速度要快。这要求分类的算法简单,同时要求分在各个类别中的汉字的数目比较平均,从而提高分类的效率。返回第5页,本讲稿共47页印刷体汉字分类举例在下图中,“3”所代表的文字不仅在类别A中,也可能同时在类别C中。在细分判别A和C类中的文字时应同时考虑“3”所代表的文字。返回第6页,本讲稿共47页印刷体汉字分类的方法采用复合特征的分类多级分类返回第7页,本讲稿共47页采用复合特征的分类选用N种具有互补特征作为类特征在学习阶段,对训练样本进行N次互不相关的分类,然后组合N次分类结果,完成特征空间的划分。分类时,根据待分字的特征进行N次分类,
3、组合分类结果求得子类。返回第8页,本讲稿共47页多级分类学习阶段,对训练样本进行多级分类,每一级分类是在上级分类基础上进行的;分类时重复上述多级分类过程。树分类是一种典型的多级分类,具有效率高的特点,但是汉字字数多会造成分类树结构庞大,使得分类不够稳定。返回第9页,本讲稿共47页印刷体汉字的识别印刷体汉字的识别在选取特征之后,需要选择或寻找适当的判别准则来判断待识字的特征与哪一个类别的特征最近。常用准则有两类:(1)基于距离的识别准则(2)基于相似度的识别准则返回第10页,本讲稿共47页基于距离的识别准则距离的数学定义常用距离距离计算举例:例1,例2 返回第11页,本讲稿共47页距离的数学定义
4、距离是满足如下三条公理的二元函数:(1)非负性:d(x,y)0,当且仅当y=x时,等号成立;(2)对称性:d(x,y)=d(y,x);(3)三角不等式:d(x,y)d(x,z)+d(z,y)返回第12页,本讲稿共47页常用距离曼哈顿街区距离,欧氏距离切比雪夫(Chebychev)距离s阶闵可夫斯基(Minkowski)距离马氏(Mahalanobis)距离,Camberra距离编辑距离和演化距离返回第13页,本讲稿共47页曼哈顿街区距离又称为分量绝对值求和距离。返回第14页,本讲稿共47页欧氏距离返回第15页,本讲稿共47页切比雪夫(Chebychev)距离又称为分量绝对值最大距离。返回第16
5、页,本讲稿共47页s阶闵可夫斯基距离(Minkowski)距离。返回第17页,本讲稿共47页马氏(Mahalanobis)距离是一个正定矩阵。返回第18页,本讲稿共47页Camberra距离返回第19页,本讲稿共47页编辑距离和演化距离通过“替换”、“删除”和“插入”三种操作,把字符串a=a1a2am变成b=b1b2bn所需的最小操作次数,称为a和b的编辑距离。由于“替换”、“删除”和“插入”可以解释为基因序列的三种演化操作,因此编辑距离又称为演化距离。返回第20页,本讲稿共47页编辑距离Ed的计算方法a=a1a2am,b=b1b2bn 返回xi=a1a2ai,yj=b1b2bj“-”表示删除
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 印刷体 汉字 分类 识别

限制150内