《《文字信息处理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《文字信息处理》PPT课件.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章图像数字化原理引言第一节图像的数字化第二节数字图像数据与其像素、色彩的关系第三节图像分辨率第四节图像存储格式第五节文字信息处理第五节文字信息处理第五章图像数字化原理文字信息处理(文字排版):文字信息处理(文字排版):依据文字原稿及对印刷品的要求,确定适当的字依据文字原稿及对印刷品的要求,确定适当的字体、字号、行距、字距、版式等,并利用文字信息处体、字号、行距、字距、版式等,并利用文字信息处理系统对文字原稿进行版面设计和排版过程。理系统对文字原稿进行版面设计和排版过程。第五节文字信息处理第五章图像数字化原理一、汉字代码体系计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字
2、代码汉字代码。在汉字信息处理系统中,对于不同部位,存在着多种不同的编码方式,形成汉字代码体系汉字代码体系。输入码输入码机内码机内码字形码字形码地址码地址码第五节文字信息处理第五章图像数字化原理一、汉字代码体系1、汉字输入码、汉字输入码汉字输入码是为用户由计算机外部输入汉字而编制的汉字编码,又称为汉字外部码,简称外码外码。使用较多的有以下4类:(1)顺序码:如区位码区位码、电报码等。(2)音码:如拼音码拼音码、自然码等。(3)形码:如五笔字型五笔字型、大众码等。(4)音形码:如双拼码等。第五节文字信息处理第五章图像数字化原理一、汉字代码体系2、汉字机内码、汉字机内码汉字机内码是汉字处理系统内部存
3、储、处理汉字而使用的编码,简称内码内码。汉字机内码由汉字国际标准交换码(国标码)国际标准交换码(国标码)变换而来汉字交换码是汉字信息处理系统之间或通信系统之间传输信息时,对每个汉字所规定的统一编码。西文字符:西文字符:7位二进制码,位二进制码,128个字符,用一个字节表示一个西文个字符,用一个字节表示一个西文字符。字符。ASC码:美国标准信息交换码(码:美国标准信息交换码(AmericanStandardCodeforInformationInterchange)第五节文字信息处理第五章图像数字化原理一、汉字代码体系国际标准交换码国际标准交换码b7b6b50000010100111001011
4、10111b4b3b2b10123456700000NULDLESP0PP00011SOHDC1!1AQAQ00102STXDC2”2BRBR00113ETXDC3#3CSCS01004EOTDC4$4DTDT01015ENONAK%5EUEU01106ACKSYN&6FVFV01117BELETB7GWGW10008BSCAN(8HXHX10019HTEM)9IYIY1010ALFSUB*:JZJZ1011BVTESC+;KK1100CFFFS,NN1111FSIUS/?OoDELA AS SC C码码表表从表中可知:从表中可知:大写英文字母的代码是大写英文字母的代码是41(十六进制十六进制
5、)或或1000001(二进制二进制);小写英文字母的代码是小写英文字母的代码是61或或1100001;分号分号“;”的代码是的代码是3或或0111011;删除删除(DEL)的代码是的代码是7F或或1111111;空格空格(SP,即即Space)的代码是的代码是20或或0100000。国际标准交换码国际标准交换码西文字符:西文字符:第五节文字信息处理第五章图像数字化原理一、汉字代码体系国际标准交换码国际标准交换码中文:中文:(1)国标码)国标码:1981年,我国颁布了中华人民共和国国家标准信息年,我国颁布了中华人民共和国国家标准信息交换用汉字编码字符集(基本集)交换用汉字编码字符集(基本集)(G
6、B2312-80),6763个汉字和个汉字和682个非汉字字符,共计个非汉字字符,共计7445个。个。到到2000年,年,GB18030-2000,都是在基本集上的扩充。,都是在基本集上的扩充。都向上兼容。都向上兼容。国际码:区位码的区号和位号各加国际码:区位码的区号和位号各加32。每个汉字的区位码和国标码是唯一的。每个汉字的区位码和国标码是唯一的。计算机中,中、西文是混合处理的,为了识别中、西文,计算机中,中、西文是混合处理的,为了识别中、西文,把把汉字用双字节表示,高位置汉字用双字节表示,高位置“”,成为,成为汉字汉字16位的机位的机内码内码,西文用单字节表示,高位置,西文用单字节表示,高
7、位置“0”,成为,成为西文西文8位的机位的机内码。内码。(2)区位码)区位码将将GB2312-80全部字符集组成一个全部字符集组成一个9494的方阵,每一的方阵,每一行称为一个行称为一个“区区”,编号从,编号从0194;每一列称为一个;每一列称为一个“位位”,编号也是从,编号也是从0194。这样,每一个字符便具有一个区码和。这样,每一个字符便具有一个区码和一个位码,将一个位码,将区码置前,位码置后,组合在一起就成为区位区码置前,位码置后,组合在一起就成为区位码。码。国际标准交换码国际标准交换码中文:中文:例:例:汉字汉字“大大”,区位码区位码“2083”,二进制码为:,二进制码为:001010
8、01010011各加各加32变为变为国标码国标码:“52115”,即为:,即为:01101001110011高位置高位置“1”,成,成机内码机内码:1011010011110011第五节文字信息处理第五章图像数字化原理一、汉字代码体系2、汉字机内码、汉字机内码汉字字形码是表示汉字字形信息的编码。汉字字形码是表示汉字字形信息的编码。第五节文字信息处理第五章图像数字化原理一、汉字代码体系3、汉字字形码、汉字字形码文字字形技术文字字形技术点阵字形点阵字形轮廓字形轮廓字形矢量字形矢量字形曲线字形曲线字形第五章图像数字化原理一、汉字代码体系3、汉字字形码、汉字字形码第五节文字信息处理(1)、点阵字形)、
9、点阵字形应用于显示、低分辨率打印输出(针式)应用于显示、低分辨率打印输出(针式)1616,2424,3232,6464,4848,128128等等。等等。缺点:数据量大,文字放大有锯齿边,变形困难。缺点:数据量大,文字放大有锯齿边,变形困难。1616点阵需多少字节存储一个字形?点阵需多少字节存储一个字形?1616点阵点阵第五章图像数字化原理一、汉字代码体系3、汉字字形码、汉字字形码第五节文字信息处理(2)矢量字形)矢量字形矢量轮廓描述法矢量轮廓描述法用矢量线段来描述字形的外部轮廓,记录的是矢量坐标对,数据压缩量大。优点:数据量小,字形较美观,字形存在各种变形缺点:大字输出时,直线段与直线段过渡
10、不平滑,“刀割”现象。xDACByKJIHGFE矢量字形矢量字形第五章图像数字化原理一、汉字代码体系3、汉字字形码、汉字字形码第五节文字信息处理(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法采用数学上二次、三次曲线来描述字形的外采用数学上二次、三次曲线来描述字形的外部轮廓。部轮廓。三次三次Bezier曲线,二次曲线,二次B样条曲线等。样条曲线等。平面曲线的一般表示:平面曲线的一般表示:平面曲线的一般表示:平面曲线的一般表示:(1 1)y=f(x)y=f(x)(2 2)参数方程:)参数方程:P(t)=x(t)y(t)P(t)=x(t)y(t)3、汉字字形码、汉字字形码(3)曲线字形)曲线字
11、形曲线轮廓描述法曲线轮廓描述法t t aa,bb例:圆方程:例:圆方程:3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法0t20t10t13、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法通常,多项式表示的函数曲线易于计算和处理,通常,多项式表示的函数曲线易于计算和处理,表示表示表示表示最简单,理论和应用最成熟,最简单,理论和应用最成熟,最简单,理论和应用最成熟,最简单,理论和应用最成熟,也是计算机图形学的基础,。也是计算机图形学的基础,。0t1函数描述曲线有两种类型:函数描述曲线有两种类型:(1)要求函数描述的曲线经过已知点,获得拟合
12、函数后,通过插值计算后得到未知点上的数值。(2)已知函数形式,由一些控制点调整曲线形状,适合于图形、字形设计。3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线空间给定n+1个点P0、P1、P2Pn,对这些点的平滑逼近曲线,即Bezier曲线。(1962年,法国雷诺汽车公司,年,法国雷诺汽车公司,工程师工程师)1、Bezier曲线的函数表达式:曲线的函数表达式:伯恩斯坦(:伯恩斯坦(Bernstein)基函数)基函数Pi:P(xi,yi),为各点的位置矢量为各点的位置矢量n:Bezier曲线的阶数,也是逼近线的数量。3
13、、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线2、Bernstein多项式多项式的定义3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线3、二次Bezier曲线n=2,抛物线pop2p1po,p1,p2,是构成二次Bezier曲线的折线顶点,也称Bezier曲线的控制点.3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线4、三次Bezier曲线P0P1P2P3n=33
14、、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线5、三次Bezier曲线的特点u端点性质端点性质P0P1P2P3Po,Pn是曲线的两个端点是曲线的两个端点3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线5、三次Bezier曲线的特点u端点的切线性质端点的切线性质P0P1P2P3P0的切线经过P1,Pn的切线过Pn-13、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线5
15、、三次Bezier曲线的特点u凸包性凸包性点集的凸包:包含这些点的最小凸集点集的凸包:包含这些点的最小凸集Bezier曲线位于其控制顶点的凸包曲线位于其控制顶点的凸包之内之内3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线5、三次Bezier曲线的特点u交互性交互性只需通过改变控制点的位置,就可对曲线形状进行精确的控制,在计算机图形处理软件中可方便地来实现交互性。u全局性全局性改变任何一个控制点的位置,就可改变整个曲线形状,不具备局部控制能力。3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描
16、述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线5、三次Bezier曲线的特点u曲线连接的连续性曲线连接的连续性一段三次Bezier曲线终点和另一段三次Bezier曲线的起点重合,可达到零阶几何连续。零阶几何连续。3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线5、三次Bezier曲线的特点u曲线连接的连续性曲线连接的连续性两段三次Bezier曲线在某点相连,保证过渡平滑,是一阶几何连续一阶几何连续。3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier
17、)曲线)曲线5、三次Bezier曲线的特点u曲线连接的连续性曲线连接的连续性即:即:P3-P2=k(Q1-Q0)要保证过渡平滑,两曲线过P3,Q0点的一阶导数相等。3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法一、贝塞尔(一、贝塞尔(Bezier)曲线)曲线6、Bezier曲线的缺点缺点:所生成的曲线与特征多边形的外形相距较远局部控制能力弱,改变任何一个控制点的位置,就可改变整个曲线形状控制顶点数增多时,生成曲线的阶数也增高控制顶点数较多时,多边形对曲线的控制能力减弱曲线拼接需要附加条件,不太灵活用三次用三次Bezier曲线描述的文字曲线轮廓曲线描述的文字曲线轮
18、廓3、汉字字形码、汉字字形码(3)曲线字形)曲线字形曲线轮廓描述法曲线轮廓描述法二、二、B样条样条曲线曲线B样条样条曲线采用了不同于曲线采用了不同于Bezier曲线的基函数,具有Bezier曲线的优点,克服了Bezier曲线的缺点。优于优于Bezier曲线之处:曲线之处:u与控制多边形的外形更接近u局部修改能力,局部修改不会改变整体形状u控制点数不再与曲线的次数相关,计算简便。3、汉字字形码、汉字字形码()数字式字库技术()数字式字库技术基本要素:基本要素:u字形轮廓描述u字符编码映射(地址码)u提示信息(Hint)u其他信息:名称、版权、版本等。Postscript字库:字库:三次三次Bez
19、ier曲线曲线TrueType字库:二次字库:二次B样条曲线样条曲线第五章图像数字化原理一、汉字代码体系4、汉字地址码、汉字地址码第五节文字信息处理汉字地址码汉字地址码汉字字形码汉字字形码汉字字库汉字字库第五章图像数字化原理一、汉字代码体系5、汉字代码的转换、汉字代码的转换第五节文字信息处理在文字信息处理过程中,在不同的阶段有在文字信息处理过程中,在不同的阶段有不同的编码,需要汉字代码转换。不同的编码,需要汉字代码转换。用户用户键盘管理模块键盘管理模块汉字处理模块汉字处理模块显示管理模块显示管理模块打印管理模块打印管理模块显示器显示器打印机打印机字库管理模块字库管理模块字库字库机内码机内码输入
20、码输入码机内码机内码机内码机内码字形码字形码字形码字形码字形码字形码机内码机内码字形码字形码地址码地址码字形码字形码汉字代码的转换汉字代码的转换第五章图像数字化原理二、五笔字形汉字编码方案人们对汉字编码输入方案的要求:人们对汉字编码输入方案的要求:n易学性易学性n易于盲打易于盲打n平均码长短平均码长短第五节文字信息处理五笔字形的平均码长:五笔字形的平均码长:2.6码码1、五笔字形笔画代号、五笔字形笔画代号第五节文字信息处理二、五笔字形汉字编码方案笔画:笔画:书写汉字时,一次不间断地连续写成的一个线段,叫做书写汉字时,一次不间断地连续写成的一个线段,叫做汉字的笔画。汉字的笔画。汉字的笔画,可分为
21、以下五种,命以代号汉字的笔画,可分为以下五种,命以代号1、2、3、4、5。1、横:、横:一(一(“现现”字的字的“王王”字旁最下一笔是字旁最下一笔是“提提”笔,笔,所以提笔属于横)。所以提笔属于横)。2、竖:、竖:丨(旧体的丨(旧体的“木木”字竖笔带钩,所以竖左钩属于竖)字竖笔带钩,所以竖左钩属于竖)。3、撇:、撇:丿丿4、捺:、捺:丶(由丶(由“村村”字的字的“木木”字旁可知,点笔就属于捺)字旁可知,点笔就属于捺)。5、折:、折:乙(包括一切带拐弯的笔划,都归为折类)乙(包括一切带拐弯的笔划,都归为折类)第五节文字信息处理二、五笔字形汉字编码方案2、五笔字形字根、五笔字形字根字根字根:由若干
22、笔画交叉连接而形成相对不变的结构。由若干笔画交叉连接而形成相对不变的结构。汉字由字根组成,字根由笔画构成。笔画、字根、整字汉字由字根组成,字根由笔画构成。笔画、字根、整字是汉字结构的三个层次。是汉字结构的三个层次。五笔字形的字根没有公认的标准和数量,汉字中的边旁五笔字形的字根没有公认的标准和数量,汉字中的边旁部首,有的是字根,有的可组成多个字根,有的是单字作部首,有的是字根,有的可组成多个字根,有的是单字作为字根(羽,竹),五笔字形方案中,把组字能力强,在为字根(羽,竹),五笔字形方案中,把组字能力强,在日常汉语文字中出现频率高的结构,作为基本字根。共计日常汉语文字中出现频率高的结构,作为基本
23、字根。共计130多个字根。多个字根。第五节文字信息处理二、五笔字形汉字编码方案、五笔字形字根表、五笔字形字根表五笔字型的字根键盘五笔字型的字根键盘五笔字型根据字根的笔画(横、竖、撇、捺、折五种)、五笔字型根据字根的笔画(横、竖、撇、捺、折五种)、字根组字的频率,以及英文字母键的排列位置,将字根组字的频率,以及英文字母键的排列位置,将130个基本个基本字根分为五类,分别对应键盘上的五个区(区号),每个区字根分为五类,分别对应键盘上的五个区(区号),每个区又分为五个位又分为五个位(位号位号),区号(十位)加上位号(个位)即为,区号(十位)加上位号(个位)即为键盘的区位码,分别对应于字母键键盘的区位
24、码,分别对应于字母键AY。这样共得到:。这样共得到:1115、2125、3135、4145、5155共共25个键位。个键位。第五节文字信息处理二、五笔字形汉字编码方案、五笔字形字根表、五笔字形字根表第五节文字信息处理二、五笔字形汉字编码方案、五笔字形字根表、五笔字形字根表第五节文字信息处理二、五笔字形汉字编码方案、五笔字形字根表、五笔字形字根表成字字根成字字根:基本字根中有些字根本身就是一个完整的汉字,例如:基本字根中有些字根本身就是一个完整的汉字,例如:日月人火手等,这种字根在五笔字型里叫做日月人火手等,这种字根在五笔字型里叫做成字字根成字字根。第五节文字信息处理二、五笔字形汉字编码方案、五
25、笔字形字根表、五笔字形字根表键名字根键名字根:在同一个键位上的几个基本字根中,选择一个具有代在同一个键位上的几个基本字根中,选择一个具有代表性的字根,称为键名字根。五笔编码键盘图中各个键位表性的字根,称为键名字根。五笔编码键盘图中各个键位左上角的字根就是键名字根。左上角的字根就是键名字根。第五节文字信息处理二、五笔字形汉字编码方案4、五笔字形字根表分布规律、五笔字形字根表分布规律(1)首笔决定区号,次笔决定位号。)首笔决定区号,次笔决定位号。如:如:王:在王:在1区区1位(位(G键),第一笔是横(键),第一笔是横(1区),第二笔是横(区),第二笔是横(1位)。位)。白:在白:在3区区2位(位(
26、R键),第一笔是撇(键),第一笔是撇(3区),第二笔是竖(区),第二笔是竖(2位)。位)。石:在石:在1区区3位(位(D键),第一笔是横(键),第一笔是横(1区),第二笔是撇(区),第二笔是撇(3位)。位)。文:在文:在4区区1位(位(Y键),第一笔是点(捺)(键),第一笔是点(捺)(4区),第二笔是横(区),第二笔是横(1位)。位)。之:在之:在4区区5位(位(P键),第一笔是点(捺)(键),第一笔是点(捺)(4区),第二笔是折(区),第二笔是折(5位)位)(2)首笔符合区号,且笔画数目及外形与位号相符。)首笔符合区号,且笔画数目及外形与位号相符。如:三:在如:三:在1区区3位(位(D键),
27、第一笔是横(键),第一笔是横(1区),笔区),笔画是画是3横,所以在横,所以在3位。位。水:在水:在4区区3位(位(I键),三键),三“点点”水,所以在点(捺)水,所以在点(捺)区(区(4区),区),3位。位。(3)与主要字根形态相近或渊源一致。)与主要字根形态相近或渊源一致。如:耳:在如:耳:在“阝阝”键上。键上。扌:在扌:在“手手”键上。键上。第五节文字信息处理4、五笔字形字根表分布规律、五笔字形字根表分布规律二、五笔字形汉字编码方案第五节文字信息处理4、五笔字形字根表分布规律、五笔字形字根表分布规律二、五笔字形汉字编码方案(4)个别例外字根:)个别例外字根:笔划特征与所在区、位号不相符合
28、,同时与其它字根笔划特征与所在区、位号不相符合,同时与其它字根缺乏联想性的字根,如:缺乏联想性的字根,如:车、力:在车、力:在“L”键,繁体键,繁体“车车”字与字与“甲甲”相似,相似,“力力”的声母为的声母为“L”。心:在心:在“N”键,键,“心心”字最长的笔划为折笔。字最长的笔划为折笔。怎样找到字根:怎样找到字根:1、王:首笔横,故在1区,次笔横,故在1位(11G)。2、又:首笔折,故在5区,次笔捺,故在4位(54C)。3、雨:首笔横,故在1区,次笔竖,故在2位(12F)。4、冖:首笔点,故在4区,次笔折,故在5位(45P)。5、三:首笔横,故在1区,三个横,故在3位(13D)。6、灬:首笔
29、点,故在4区,四个点,故在4位(44O)。7、口:首笔竖,故在2区,音Kou,故在K键(23K)。8、耳:从“阝、卩”,首笔折,次笔竖,故在(52B)。9、力:属例外,“力”声母为“L”,即“24”键。10、立六辛冫丬疒等字根中均有两点,都在4区2位(42U)。11、田囗四皿等“四方”形字根,首笔竖,“四方”在2区4位,(24L)。第五节文字信息处理4、五笔字形字根表分布规律、五笔字形字根表分布规律二、五笔字形汉字编码方案第五节文字信息处理4、五笔字形字根表分布规律、五笔字形字根表分布规律二、五笔字形汉字编码方案A、金字塔建成之后,工人们饿的不行了,为了寻找食物,用戈把草筐挑翻了。B、带眼镜的
30、舞伴找不到他的人了,因为他的耳朵长到一边去了(被人打的),还用筐拉来了一个孩子。C、青年节结束了,头盔也跑丢了,累的不能用手把着马了,勇气和劲头都没有了,又是空手而归。D、大肚犬怀了三只没有角的羊,直喊腰酸背痛的,太放肆了,把它扔到古石厂了。E、嫦娥偷吃了仙丹,冲掉房盖,飞上月球,蝙蝠衫的衣领都刮没了,我做着不是用木头做的彩色小舟拼命的追,帆(风刮的)都没了,仍没看见人。F、站在雨中的燕儿看着二十寸远的革命战士翻着跟头除草。字串3字根助记词字根助记词第五节文字信息处理4、五笔字形字根表分布规律、五笔字形字根表分布规律二、五笔字形汉字编码方案字根助记词字根助记词G、愣头青王老五,家很穷没有钱,光
31、棍一个,天天睡在轨道上。H、二姨做在椅子上,二目圆睁(吓的)因为远处飞来一没腿的家具她急忙用一个棍子支住它,又飞来一张虎皮,那也要坚持住。I、唉III水流很小,下边也有棚,可还是把瓷砖砸坏了。J、鸡起的很早,日出一条虫,日落一条虫,就是为了做耳环儿。K、枪从嘴里飞出,射向大川(鞍山)。字串7L、扶着四根拐棍的种田人,住着暗室,穿着黑色马甲,背着大相框,还得拉着人力车。M、山倒了变成了一个筐,把由贝壳变成的几根骨头给扣住了,这是二五子干的。第五节文字信息处理4、五笔字形字根表分布规律、五笔字形字根表分布规律二、五笔字形汉字编码方案字根助记词字根助记词N、爱说NO的孔乙已,拿着尾巴练武艺,尾巴毛练
32、没了,吓的他心都坚起来了,因为只剩下一小点羽毛了。字O、一口锅,放入一个柿子,再加上四滴水,生上火若能煮出米饭,就能干出大事业。P、走吧,皮衣的袖子没有了,家也只剩盖了,还在这死谷呆着干嘛啊?Q、阿Q的两个儿子在夕阳落山前后,经常用四个钩子在山谷里钓无尾金鱼。R、小丫头靠有两下子,白手起家不用眼睛看没有骨的牛就知有多少斤,因为她有一个神奇的毡垫儿。S、蛇钻进西瓜里,我用木条一钉它就要死了。字串2第五节文字信息处理4、五笔字形字根表分布规律、五笔字形字根表分布规律二、五笔字形汉字编码方案字根助记词字根助记词T、用图钉钉住山妖后,一个人把右腿抬得老高,看着它,还有两个用一条稻子在竹子背面写文章。U
33、、杯子里两滴水立不住,灯光死暗,我在门外看着辛苦的都有病了。V、一女侠吃完午餐,拿起三把飞刀就要为她的舅舅的头儿报仇,却找不到人了,气的她把西山推倒了。W、拿着扇子的人迈着八字步,头顶着向日癸,结果观察不到天了X、慈母无心无骨,要坐在架子上,把匕首放在弓上。Y、歪脖子老高头是个司仪,说上方言了,象蚊子似的,把有头的大雁驮的两人气走了。第五节文字信息处理5、五笔字形取码规则、五笔字形取码规则输入码,以大写英文字母表示输入码,以大写英文字母表示二、五笔字形汉字编码方案n按书写顺序,从左到右,从上到下,从外到内取码按书写顺序,从左到右,从上到下,从外到内取码n以基本字根为单位取码以基本字根为单位取码
34、n按第一、二、三、末字根,最多只取四码原则。按第一、二、三、末字根,最多只取四码原则。n单体结构拆分取大优先,兼顾直观,能连不分,能散不连。单体结构拆分取大优先,兼顾直观,能连不分,能散不连。n未笔字型未笔字型交叉识别码交叉识别码原则。原则。第五节文字信息处理6、交叉识别码、交叉识别码二、五笔字形汉字编码方案(1)字型)字型:也就是构成汉字的字根之间的关系,在五笔字型编码方也就是构成汉字的字根之间的关系,在五笔字型编码方案里把字型分为三种结构,即案里把字型分为三种结构,即上下型,左右型,杂合型上下型,左右型,杂合型。(2)编码:)编码:n1左右型(如:汉、湘、结、封)n2上下型(如:字、莫、花
35、、华)n3杂合型(如:困、凶、这、司、乘、本、重、天、且)。(3)末笔字型交叉识别:)末笔字型交叉识别:只适用于不足四个字根组成的字。识别码由末笔画代号与字型代号组合而成。如:汉汉:435441(ICY,最后一笔是捺,在第4区,字型为左右型,代号为1,因此识别码为41Y)字字:455212(PBF,末笔为横,在第1区,字型为上下型,代号为2,因此识别码为12F)本本:141113(SGD,末笔为横,在第1区,字型为杂合型,代号为3,因此识别码为13D)第五节文字信息处理6、交叉识别码、交叉识别码二、五笔字形汉字编码方案(4)注意事项:)注意事项:n“键名”及一切成字字根都不再用识别码,不足四笔
36、也不用识别。如:厂:厂、一、丿(131131DGT)n如果一个字加了识别码后仍不足四码,则必须打空格键。n为了有足够的区分能力。对于“进”、“连”这样带“走之”的字,它的“末笔”规定为被包围部分的末笔,如:连:车之(244523LPK)n对于习惯笔顺不一致的“刀”、“力”、“九”、“匕”四个字根,当它们参加“识别”时,一律规定用“折笔”作末笔。如:花:艹亻匕(15345552AWXB)第五节文字信息处理6、交叉识别码、交叉识别码二、五笔字形汉字编码方案第五节文字信息处理7、五笔字形取码规则详解、五笔字形取码规则详解二、五笔字形汉字编码方案(1)键名汉字输入:)键名汉字输入:各键位左上角的黑体字
37、根,叫“键名”。如:王、日、口等,共计25个,它们的输入方法是把所在键连击四下。如:王:11111111(GGGG)大:13131313(DDDD)之:45454545(PPPP)言:41414141(YYYY)第五节文字信息处理二、五笔字形汉字编码方案(2)成字字根输入:)成字字根输入:先打该字根所在的键一下,再打该字根的第一、第二及最末一个单笔画。如:方:方(报户口:41Y)、丶(首笔:41Y)、一(次笔:11G)、乙(末笔:51N)用:用、丿、乙、丨(33315121ETNH)干:干、一、一、丨(12111121FGGH)十:十、一、丨、空格键(121121FGH)7、五笔字形取码规则详
38、解、五笔字形取码规则详解第五节文字信息处理二、五笔字形汉字编码方案(3)其它字根及单笔画字根输入:)其它字根及单笔画字根输入:多笔画字根多笔画字根:先打该字根所在的键一下,再打该字根的第一、第二及最末一个单笔画。如:氵:IYYG镸:DGHY两笔画字根两笔画字根:先打该字根所在的键一下,再打该字根的第一、第二单笔画加空格键。如:TTG亻:WTH单笔画字根单笔画字根:先打该字根所在的键一下,再打该字根的笔画,再加LL。如:丶:YYLL乙:NNLL丿:TTLL7、五笔字形取码规则详解、五笔字形取码规则详解第五节文字信息处理二、五笔字形汉字编码方案(4)单字编码规则:)单字编码规则:键名及成字字根以外
39、的任何汉字,均可视为由基本字根组成的单字单字。单字的取码规则是:依书写顺序,取第一、十、三、末字根编码。不足四码者,打空格键表示结束。例如:汉:氵、又(4354IC)同:冂、一、口(251123MGK)给:纟、人、一、口(55341123XWGK)7、五笔字形取码规则详解、五笔字形取码规则详解第五节文字信息处理二、五笔字形汉字编码方案7、五笔字形取码规则详解、五笔字形取码规则详解(5)重码与容错)重码与容错重码字:重码字:如果一个编码对应着几个汉字,这几个字称为重码字;容错码:容错码:几个编码对应一个汉字,这几个编码称为汉字的容错例:去支云:例:去支云:FCU。哀衣:。哀衣:YEU在汉字中有些
40、字的书写顺序往往因人而异,为了能适应这种情况,允许一个字有多种输入码,这些字就称为容错字。在五笔字型编码输入方案中,容错字有500多种。例:长:丿七丶,例:长:丿七丶,TAY。七丿丶,。七丿丶,ATY。丿一乙丶,。丿一乙丶,TGNY。第五节文字信息处理二、五笔字形汉字编码方案7、五笔字形取码规则详解、五笔字形取码规则详解(6)汉字的拆分原则:)汉字的拆分原则:1)取大优先:)取大优先:夷:一弓人(115534GXW)无:二儿(123553FQV)重:丿一日土(31112212FGJF)2)兼顾直观:)兼顾直观:自:丿目(3121TH)生:丿生(3111TG)第五节文字信息处理二、五笔字形汉字编
41、码方案7、五笔字形取码规则详解、五笔字形取码规则详解3)能连不交:)能连不交:天:一大(1113GD),不能拆作“二人”,因二者相交于:一十(1112GF),不能拆作“二丨”,因二者相交4)能散不连:)能散不连:非:三刂三(132213DJD),都不是单笔画,应视为左右关系占:卜口(1123HK),都不是单笔画,应视为上下关系(6)汉字的拆分原则:)汉字的拆分原则:(7)简码)简码:为了减少击键次数,提高输入速度而设置的。它将常用汉字只取其前边的一个、两个或三个字根构成,因为识别码总是在全码的最后位置,所以简码的设计不但减少了击键次数,而且省去了部分汉字的识别码的判别和编码,给击键带来了很大方
42、便。第五节文字信息处理二、五笔字形汉字编码方案7、五笔字形取码规则详解、五笔字形取码规则详解 1 1)一级简码)一级简码(即高频字,共25个,分别对应25个键,按一个相应键,再按一空格即可):一区:一(G)地(F)在(D)要(S)工(A)二区:上(H)是(J)中(K)国(L)同(M)三区:和(T)的(R)有(E)人(W)我(Q)四区:主(Y)产(U)不(I)为(O)这(P)五区:民(N)了(B)发(V)以(C)经(X)(7)简码)简码2)二级简码:)二级简码:化(WX)李(SB)张(XT)3)三组简码:)三组简码:华(WXF)想(SHN)陈(BAI)得(TJG)有时,同一个汉字可有几种简码,例
43、如:“经”就有一(X)、二(XC)、三级简码(XCA)及全码(XCAG)四个输入码。(7)简码)简码二级简码表二级简码表二级简码表二级简码表4)词语输入:)词语输入:1)两字词:每字取其全码的前两码组成,共四码。经济:XCIY经(XC)济(IY)2)三字词:前两字各取一码,最后一字取两码,共四码。计算机:YTSM计(Y)算(T)机(SM)3)四字词:每字各取全码的第一码。中华民族:KWNY中(K)华(W)民(N)族(Y)4)多字词:取第一、二、三及末一个汉字的第一码,共四中华人民共和国:KWWL中(K)华(W)人(W)国(L)(7)简码)简码五笔字型汉字输入简明流程:五笔字型汉字输入简明流程:
44、汉字汉字键面键面上有上有键键名名把所在键打四下。例如:言:言言言言(YYYY)成成字字根根报户口,打第一、二、末单笔画(不足四码,补空格键)。例如:西:西一丨一(SGHG)键面键面没有没有依依照照书写书写顺序顺序拆字拆字超过四码:超过四码:取1、2、3、末笔字根编码。例如:输:车人一刂(LWGJ)取大取大优先优先刚好四码:刚好四码:依次键入即可。例如:照:日刀口灬(JVKO)兼顾兼顾直观直观不足四码:不足四码:字根键入完后,补打“末笔字根识别码”(仍不足四码,补空格键)。例如;汉:氵又丶(ICY)五五笔笔字字型型部部分分难难拆拆字字编编码码表表第五节文字信息处理三、字号与字体1、字号、字号点制
45、:点制:1P(point)=1/72 inch=0.35mm号制:号制:4号字系统、号字系统、5号字系统、号字系统、6号字系统号字系统初号初号2号号571号号4号号3号号68宋体宋体山重水复疑无路仿宋仿宋 柳暗花明又一村楷书楷书 疏影横斜水清浅隶书隶书 暗香浮动月黄昏黑体黑体 孤帆远影碧空尽另外:另外:魏碑魏碑、姚体姚体、美术体等、美术体等第五节文字信息处理三、字号与字体2、字体、字体排版效率高,版面规范。排版效率高,版面规范。但可读性差。但可读性差。较适用于书刊排版。较适用于书刊排版。如:北大方正书版系统如:北大方正书版系统版式注解版式注解文字原稿文字原稿排版语言排版语言源文件源文件软软件件排版排版结果结果第五节文字信息处理四、文字信息处理系统1、批处理排版系统批处理排版系统无需注解,通过菜单等方式实现交互控制,排版结果即无需注解,通过菜单等方式实现交互控制,排版结果即时显示在计算机屏幕。时显示在计算机屏幕。所见即所得,可读性好,可及时发现并修改错误。所见即所得,可读性好,可及时发现并修改错误。适用于图表和图文的排版。适用于图表和图文的排版。第五节文字信息处理四、文字信息处理系统2、交互式、交互式排版系统排版系统如:如:WORD,WPS,北大飞腾,北大飞腾融这里http:/翦彭越溗
限制150内