中文信息处理技术原理与应用(3).ppt
《中文信息处理技术原理与应用(3).ppt》由会员分享,可在线阅读,更多相关《中文信息处理技术原理与应用(3).ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 中文信息处理技术原理与应用(三)北京信息工程学院计算机系李宝安1中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 第三章 汉字字形存储与压缩技术 汉字字形存储与字形码汉字字形存储与字形码 点阵存储与压缩存储点阵存储与压缩存储 汉字压缩存储常见方法分类汉字压缩存储常见方法分类 压缩与还原技术及其重要指标压缩与还原技术及其重要指标 汉字笔画矢量存储方法汉字笔画矢量存储方法 部件组字压缩部件组字压缩 汉字子信息块哈夫曼树存储方法汉字子信息块哈夫曼树存储方法 汉字字形轮廓存储方法汉字字形轮廓存
2、储方法 黑白段与线性增量存储方法黑白段与线性增量存储方法 笔画轮廓压缩存储方法笔画轮廓压缩存储方法 2中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 汉字字形存储与字形码 产生汉字字形的方法有产生汉字字形的方法有模拟式模拟式和和数字式数字式两种:两种:模拟式:模拟式:如字模板、字模摄像、飞点扫描字模、全如字模板、字模摄像、飞点扫描字模、全息照相等,特点是文字质量高,价格较便宜,缺息照相等,特点是文字质量高,价格较便宜,缺点是文字读出机构复杂,读取速度低、维护要求点是文字读出机构复杂,读取速度低、维护要求高,文字变动困难。高,文字变动困难。数字式:数字式:输出文字
3、一致性好,稳定不变,速度快,输出文字一致性好,稳定不变,速度快,文字尺寸变更比较灵活,但存储量大、成本较高。文字尺寸变更比较灵活,但存储量大、成本较高。随着中文信息处理技术的发展,模拟式产生文字随着中文信息处理技术的发展,模拟式产生文字字形的方法已逐渐淘汰,这里只介绍数字式汉字字形的方法已逐渐淘汰,这里只介绍数字式汉字字形产生和存储的方法。字形产生和存储的方法。3中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 汉字字形的数字化 由于计算机内部只认由于计算机内部只认0 0和和1 1这些二进制代码,汉这些二进制代码,汉字字形信息要想保存下来,也必须象汉字的键字字形信
4、息要想保存下来,也必须象汉字的键盘码和交换码一样,实现计算机内部的盘码和交换码一样,实现计算机内部的“数字数字化化”。将汉字写在划分有将汉字写在划分有m m行行n n列小方格的网格方块列小方格的网格方块中,该方块称为中,该方块称为mnmn点阵,每个小方格是一个点阵,每个小方格是一个点,有笔画部分是黑点,文字的背景部分是白点,有笔画部分是黑点,文字的背景部分是白点,点阵中的黑点就描绘出汉字字形,称为汉点,点阵中的黑点就描绘出汉字字形,称为汉字点阵字形。字点阵字形。4中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 不同使用领域对汉字质量的要求 使 用 领 域分辨率(
5、线/毫米)密度品质点阵规格要求(以3.7mm2的五号字为例)监视器显示462.02.5低1616 2424通用型字形简易印刷(一般打印、文稿输出)6162.22.5中2424 32324848 6464制版印刷20250.1高100100精密型字形5中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 整字存储与压缩存储 汉字字形存储按存储方法分为整字存储和压缩汉字字形存储按存储方法分为整字存储和压缩存储两大类。存储两大类。整字存储整字存储:把汉字字形点阵信息按字节全部存放把汉字字形点阵信息按字节全部存放在存储器中,需要使用时直接读出,这种存储在存储器中,需要使用时直
6、接读出,这种存储方式就是整字存储,它原理简单、使用方便,方式就是整字存储,它原理简单、使用方便,响应时间快,可以保证字形质量。响应时间快,可以保证字形质量。压缩存储压缩存储:不是直接将字形信息存储起来,而是不是直接将字形信息存储起来,而是先用压缩技术对点阵文字信息进行压缩,压缩先用压缩技术对点阵文字信息进行压缩,压缩后的信息存入存储器,使用时,再把压缩信息后的信息存入存储器,使用时,再把压缩信息还原成点阵字形。这样做的目的主要是为了减还原成点阵字形。这样做的目的主要是为了减少存储量。少存储量。6中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 问题:随着近年来存储
7、器价格大幅度下降,并且由于压缩字库在使用时有一个字形还原的过程,出字速度有影响,字形可能存在失真现象等缺点,请问压缩字形存储器在当前是不是毫无竞争力而被淘汰呢?7中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 回答:NO!8中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 原因压缩存储在价格上存在优势,这不仅因为存储容量本身小、价格低,而压缩存储在价格上存在优势,这不仅因为存储容量本身小、价格低,而且还要考虑到维持电路(如电源、存储器辅助电路等)的开销比整字存且还要考虑到维持电路(如电源、存储器辅助电路等)的开销比整字存储低;储低;
8、汉字字数或字号增加,整字存储的存储量会线性增加,而压缩存储能够汉字字数或字号增加,整字存储的存储量会线性增加,而压缩存储能够方便地应付,存储量增加不多;方便地应付,存储量增加不多;制版印刷用的精密型汉字字形,目前都采用压缩方法存储;制版印刷用的精密型汉字字形,目前都采用压缩方法存储;压缩字形便于制成小型卡式压缩存储的专用字库,体积很小,便于在单压缩字形便于制成小型卡式压缩存储的专用字库,体积很小,便于在单板机和通用微机中使用,所占用的空间较少,在板卡的制造工艺上具有板机和通用微机中使用,所占用的空间较少,在板卡的制造工艺上具有优势;优势;设计压缩字形存储指导思想的改变,不是一味追求压缩率,而是
9、针对克设计压缩字形存储指导思想的改变,不是一味追求压缩率,而是针对克服压缩存储的主要缺点,把提高复原后的汉字质量和出字速度作为主要服压缩存储的主要缺点,把提高复原后的汉字质量和出字速度作为主要解决的问题,把压缩率降到次要地位。这种从实用出发,适当控制压缩解决的问题,把压缩率降到次要地位。这种从实用出发,适当控制压缩率的做法是推广压缩存储的有效措施;率的做法是推广压缩存储的有效措施;某些压缩方法和技术对中文处理系统的设计有启发;某些压缩方法和技术对中文处理系统的设计有启发;计算机计算机CPUCPU的运算速度越来越快,压缩字库的字形还原也越来越快;的运算速度越来越快,压缩字库的字形还原也越来越快;
10、对于计算机辅助设计(如在建筑对于计算机辅助设计(如在建筑CADCAD软件中)等应用领域,经常要求的字软件中)等应用领域,经常要求的字形的变倍处理,采用压缩存储方法更容易实现。形的变倍处理,采用压缩存储方法更容易实现。9中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 汉字压缩存储常见方法分类 字形压缩方法很多,约有数十种,各有优缺点字形压缩方法很多,约有数十种,各有优缺点和应用对象,将它们归纳一下,可分为两大类:和应用对象,将它们归纳一下,可分为两大类:图形压缩和汉字结构压缩。图形压缩和汉字结构压缩。图形压缩图形压缩采用了一般二维图形的信息压缩方法;采用了一般二维
11、图形的信息压缩方法;结构压缩结构压缩是针对汉字结构特点而提出的压缩方是针对汉字结构特点而提出的压缩方法。法。笔画矢量、哈夫曼树、部件组合适合于低、中笔画矢量、哈夫曼树、部件组合适合于低、中质量的通用型汉字宇形压缩;质量的通用型汉字宇形压缩;字形轮廓适用于高质量通用型汉字字型压缩字形轮廓适用于高质量通用型汉字字型压缩 ;黑白段、线性增量、笔画轮廓适用于精密型汉黑白段、线性增量、笔画轮廓适用于精密型汉字字型压缩。字字型压缩。10中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 压缩与还原技术及其重要指标 1 1压缩率压缩率,用来衡量压缩后字形存储容量减少的程度。用来衡
12、量压缩后字形存储容量减少的程度。其中其中L L为压缩前字形所占存储字节数,为压缩前字形所占存储字节数,C C为压缩后字形所占存储字节数。为压缩后字形所占存储字节数。2 2 失真率失真率,用来衡量压缩后字形相对于原来字形失真的程度用来衡量压缩后字形相对于原来字形失真的程度 。其中其中Q Q为压缩前字形的信息量,为压缩前字形的信息量,E E为经压缩还原后失真的信息总量。为经压缩还原后失真的信息总量。3 3字形复原速率字形复原速率R R,用来衡量压缩后复原到原点阵字形的速度。用来衡量压缩后复原到原点阵字形的速度。R=1R=1秒内产生的汉字字形数目秒内产生的汉字字形数目4 4压缩字形的自动生成能力,利
13、用压缩存储方法生成压缩字库的能力。压缩字形的自动生成能力,利用压缩存储方法生成压缩字库的能力。5 5压缩后字形变换能力,包括还原成原点阵字形,生成各种大小字形的变倍性能。压缩后字形变换能力,包括还原成原点阵字形,生成各种大小字形的变倍性能。L=(L C)100%Q=E 100%11中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 汉字笔画矢量存储方法基本原理汉字是直线性文字,一个汉字是许多直线段所组成的二维几何图形。如果能够对汉字是直线性文字,一个汉字是许多直线段所组成的二维几何图形。如果能够对这些直线段实现压缩,则整个汉字的字形信息也可得到压缩。这些直线段实现压
14、缩,则整个汉字的字形信息也可得到压缩。笔画矢量笔画矢量压缩压缩中的中的“笔画笔画”指的就是指的就是这这些直些直线线段,段,给给二二维汉维汉字字图图形加上笛卡儿坐形加上笛卡儿坐标标X-YX-Y,汉汉字笔画(注意,即上述的直字笔画(注意,即上述的直线线段)段)。输输出出汉汉字字时时,用表示字形的各笔画信息,得出笔画形状,一般,用表示字形的各笔画信息,得出笔画形状,一般为为1 1bitbit宽宽的直的直线线段,段,形成形成该该字点字点阵阵字形数据。存字形数据。存储汉储汉字的字的实质实质就是把字形就是把字形转转化化为为坐坐标标,输输出出汉汉字就是字就是根据坐根据坐标转换为标转换为字形。字形。具体具体有
15、三种表达方法:有三种表达方法:笔画的两个端点坐笔画的两个端点坐标标(xi1xi1、yi1yi1)和(和(xi2xi2、yi2yi2),),其中其中i i是是汉汉字字图图形中某一笔画,形中某一笔画,1 1是起点坐是起点坐标标,2 2是是终终点坐点坐标标。这这种表示法叫笔画坐种表示法叫笔画坐标标法法;用矢量表示笔画,即用矢量的起点(用矢量表示笔画,即用矢量的起点(x i1x i1,y i1y i1)和矢量的和矢量的长长度、方向。常用度、方向。常用矢量在矢量在x x、y y轴轴上的投影上的投影长长度度LxiLxi和和LyiLyi表示向量的表示向量的长长度、方向度、方向;用一系列尾首相用一系列尾首相接
16、的矢量来表示笔画。矢量有虚接的矢量来表示笔画。矢量有虚实实之分,之分,实实矢量表示矢量表示实实有笔画,虚矢量表示没有有笔画,虚矢量表示没有的空笔画,一个矢量的起点(的空笔画,一个矢量的起点(xi1xi1,yi1 yi1)是上一矢量的是上一矢量的终终点(点(x x(i-1i-1)2 2,y y(i-i-1 1)2 2)。)。这这种表示法叫做矢量存种表示法叫做矢量存储储法法。12中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 笔画坐标法 笔画坐标法用存储汉字笔画两个端点坐标来压缩字形信息。若取点阵左上角为坐标原点,对于图3-3(a)的“汉”字,8个笔画端点ABCDB
17、FGHIJKL的坐标(xi,yi),其中 i=l,2,12就确定了“汉”字的字形。若用1616点阵,则x和y值可用4位二进制数来表示,用8位存储器存放“汉”字各端点坐标值,前4位存x值,后4位存y值。13中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 xy7 4 3 0笔画坐标法端点坐标数据结构:“汉”字端点的存储数据:14中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 从上面从上面“汉汉”字字的笔画坐标法存储数据看,的笔画坐标法存储数据看,存存储储“汉汉”字的笔画端点字的笔画端点一共用了一共用了1212个字个字节节,而直接存,而
18、直接存储储16161616点点阵阵字形需要字形需要28=3228=32个字个字节节。采用笔画坐。采用笔画坐标标法存法存储储“汉汉”字,信息是直接存字,信息是直接存储储的的1 12.72.7,即,即压缩压缩率率为为62.5%62.5%。据据统计统计,常用六千多汉字的平均笔画根数约为常用六千多汉字的平均笔画根数约为1414,由此可算出对,由此可算出对应不同点阵字形笔画坐标压缩法所需要的存储量,见表应不同点阵字形笔画坐标压缩法所需要的存储量,见表3 34 4。比。比较表较表3 34 4与对应点阵在整字存储方式下的字节数可知,笔画坐标与对应点阵在整字存储方式下的字节数可知,笔画坐标法可以压缩字形信息,
19、而且,随着字形点阵规格的增加,压缩率法可以压缩字形信息,而且,随着字形点阵规格的增加,压缩率也随之提高,当然,字形的美观也受到更多的损失。也随之提高,当然,字形的美观也受到更多的损失。如采用如采用16161616点阵时,压缩率为点阵时,压缩率为12.512.5,即所需的存储量下降到,即所需的存储量下降到原来的原来的87.587.5。而采用。而采用32323232点阵,压缩率为点阵,压缩率为72.772.7,存储量下,存储量下降到原来的降到原来的1/31/3以下。实际采用笔画坐标法压缩时,还可使用一些以下。实际采用笔画坐标法压缩时,还可使用一些别的措施进一步提高压缩率。别的措施进一步提高压缩率。
20、15中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 表表3 34 4 笔画坐标法压缩汉字字形的存储量笔画坐标法压缩汉字字形的存储量 16中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 笔画坐标法实例 字形采用字形采用15161516点阵,取坐标原点在字的左上点阵,取坐标原点在字的左上角,角,x x是列数,是列数,y y是行数。因此,每个汉字是是行数。因此,每个汉字是x x方向方向1515个单位、个单位、y y方向方向1616个单位的平面图形。个单位的平面图形。笔画端点坐标范围笔画端点坐标范围x x方向是方向是00E E,y y方向
21、是方向是00F F。根据存储的汉字每个笔画的端点坐标,生成汉根据存储的汉字每个笔画的端点坐标,生成汉字时,按照一定规律从起点到终点画出每条直字时,按照一定规律从起点到终点画出每条直线,也就形成了汉字线,也就形成了汉字15161516点阵字形。点阵字形。17中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用(l)存储用的压缩信息 1)1)直接笔画信息直接笔画信息笔画两个端点的坐标值,分为以下两种。笔画两个端点的坐标值,分为以下两种。基本笔画信息基本笔画信息 有九种。每个基本笔画都用两个字节表示起、终点坐标。有九种。每个基本笔画都用两个字节表示起、终点坐标。复合笔画信息
22、。复合笔画信息。包括汉字中常出现的一些基本笔画的组合,如图包括汉字中常出现的一些基本笔画的组合,如图3535(1 1)所示。若)所示。若将该图复合笔画的端点和折点给出如图将该图复合笔画的端点和折点给出如图3535(2 2)所示的编号,则)所示的编号,则这些复合笔画的坐标信息列出如表这些复合笔画的坐标信息列出如表3535。因为。因为x x方向坐标范围是方向坐标范围是0 0到到E E,所以,第一字节的第一位所以,第一字节的第一位F F可以作为复合笔画的标志。由表可以作为复合笔画的标志。由表335 5可知,对于复合笔画,没有必要将所有端、折点的坐标值都存可知,对于复合笔画,没有必要将所有端、折点的坐
23、标值都存入,因为未存入的其他点阵坐标可以根据已知信息产生。入,因为未存入的其他点阵坐标可以根据已知信息产生。横竖撇捺点挑折捺勾双笔竖一丨丿、乛丨18中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 图3-5 复合笔画及端、折点编号 12312312431234143212341234 A B C D E F G19中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 A AB BC CD DE EF FGG第一字节第一字节 FXFX2 2FXFX2 2FFFFFFFFFFFFFFFFFFFF第二字节第二字节 x x1 1y y1 1x x
24、3 3y y3 3 x x1 1y y1 1 x x2 2y y4 4 x x1 1y y2 2 x x1 1y y1 1 x x1 1y y1 1 第三字节第三字节 x x3 3y y3 3 x x1 1y y1 1 x x3 3y y3 3 x x1 1y y1 1 x x3 3y y4 4 x x3 3y y4 4 x x3 3y y3 3 第四字节第四字节 x x3 3y y3 3 表3-5 复合笔画坐标信息 20中文信息处理技术中文信息处理技术中文信息处理技术原理与应用原理与应用原理与应用 2)部件信息 在笔画坐标法中引入部件信息,其含意和部件在笔画坐标法中引入部件信息,其含意和部件
25、组字压缩法不同。这里是把存储器内多个汉字组字压缩法不同。这里是把存储器内多个汉字公用的笔画信息提出来做为部件,并用直接笔公用的笔画信息提出来做为部件,并用直接笔画信息来表示,而且也不组成部件库。画信息来表示,而且也不组成部件库。在其它汉字用到某个部件时,以两个字节作为在其它汉字用到某个部件时,以两个字节作为指针指向这个部件,即可根据部件的直接笔画指针指向这个部件,即可根据部件的直接笔画信息画出相应的点阵。在笔画坐标法中引出部信息画出相应的点阵。在笔画坐标法中引出部件概念,显然能进一步压缩存储信息量。件概念,显然能进一步压缩存储信息量。21中文信息处理技术中文信息处理技术中文信息处理技术原理与应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理 技术 原理 应用
限制150内