自然语言理解-语义知识的形式化表示.ppt
语义知识的形式化表示什么是意义?关于意义的许多说法 n指称论n意念论n行为论n情境论n实证论n真值论n用法论n境况论n从计算机的角度看意义n计算机只能在符号世界里转圈圈;n意义就是符号变换的游戏;n纯粹从符号世界的角度看,“A的意义是B”意味着什么?n所谓知道一个符号串的意义,包含两层意思:n1 你可以把一个符号串A变换为符号串B;n2 原则上,关于这个符号串A的变换游戏没有止尽;意义:符号之间的变换关系 na.在一种语言内进行的符号变换n“张三打了李四”“李四被张三打了”nb.在不同语言之间进行的符号变换n“张三用手打了李四”n“Zhang San hit Li Si with his hand”nc.在不同性质的符号系统之间进行的符号变换n “这是残疾人通道”意义:符号之间无止尽的变换关系n“我买了辆车”n意思1:我付钱从某处购买了一辆车n意思2:我拥有了一辆车n意思3:我可以使用这辆车n意思4:我的钱都花完了n如何确定符号之间的变换关系 n问题1:如何让计算机知道“A的意思是B”?n问题2:如何让计算机把符号A变换为符号B?n问题1 问题2困难:形式与意义的非一一对应性n一个形式多个意义n自然语言理解必须面对的问题n一个意义多个形式n“意义”怎么能论“个”呢?n自然语言生成必须面对的问题n把上述问题换种表述法:n符号A对应着多个可能的变换结果B1,B2,B3,,在特定场合下,到底选哪一个?一个形式多个意义(多义词)n这个编辑很不错n他每年要编辑一百万字的书兼名、动两个词性的多义词n这小伙子是干警察的好材料n把这个小伙子的材料送人事部n这是一种新型材料只有名词一个词性的多义情形n这是我刚买的字典n我刚查的字典,难道还有错虚词的多义情形一个形式多个意义(多义词?多义句式?)n许多读者给编辑部打来了电话nX1+有+Y1:空间关系n这本书有许多读者nX2+有+Y2:领有关系n编辑部有许多读者n张老大有很多手下n许多人给编辑部打来了电话读者1:0价n*这本书有许多人读者2:1价n编辑部有许多人手下:0/1价?n张老大有很多人一个形式多个意义(指代消解)n张三i把他j出卖了n张三i把他i,j的朋友出卖了n老张i有个漂亮的女儿j,i,j 很骄傲n老张i买了辆新车j,j 很贵n老张i中了头奖j,i 很高兴一个形式多个意义(泛指与特指)n人是会死的n苏格拉底是人n苏格拉底是会死的n鲁迅的作品不可能在一天之内全部读完n祝福是鲁迅的作品n祝福不可能在一天之内全部读完一个形式多个意义(量化词组)n驴子句(donkey sentence)nIf John owns a donkey,he beats it.nEvery farmer who owns a donkey beats it.nJohn owns a donkey.一个形式多个意义(结构、关系)n发现了敌人的哨兵n牛奶饼干n反对的是他n他正在上课n开刀的是张大夫n在火车上写标语n小明的信一个形式多个意义(隐喻)n董永这回算是背上口大黒锅了n这家伙真是个狐狸n白天不懂夜的黒n送温暖n办教育n董永终于抹平了七仙女心头的创伤n教堂的钟又敲响了n卧室的钟慢了整整一个小时一个意义多个形式(同义词)n不没(有)n我不去西藏我没去西藏n我不知道结果*我没知道结果n*我不病我没病n这锅肉还不烂这锅肉还没烂一个意义多个形式(同义结构)A 马文才害死了梁山伯B1 梁山伯被马文才害死了B2 马文才把梁山伯害死了n1)A B2*B1,又抢走了祝英台。n2)*A*B2 B1 之后,一家人整日以泪洗面。语义知识的性质和作用 n语义知识跟句法知识的性质差别主要在于知识颗粒度的粗细不同语义知识就是细化了的句法知识;句法知识就是非常概括的语义知识;n宏观而言,语义知识跟句法知识的作用是相同的都是为了正确地进行符号串的变换操作依赖语义知识进行结构分析 n例1发现宝藏的人v+n1+的+n2n例2知道敌军的意图v+n1+的+n2 依赖语义知识进行词义消歧 多义 词义项 释义 英语译词例1 想主意 想1 思索,思考 think例2 想女儿 想2想念,怀念 miss依赖语义知识进行推理 n例1 乡长买了一瓶茅台 乡长拥有了一瓶茅台n例2 乡长给了村长一瓶茅台 村长得到了一瓶茅台 乡长失去了一瓶茅台n例3 乡长正在打鼾 乡长正在睡觉n例4 Every farmer who owns a donkey beats it.John is a farmer.Pandora is a donkey.Does John beat Pandora?-Yes.-I dont know语义理解语义知识理解符号串A的意思将A变换为符号串Bn对A进行句法结构分析在机器看来,只不过是在做符号串变换的操作n对A进行词义排歧分析n对A进行推理nn要进行上述符号变换操作,除了需要n句法知识外,还需要语义知识语义知识的类型及其形式化表示 n关于词义聚类关系的知识(纵向)n关于词义组合关系的知识(横向)n属性名:属性值 型语义知识(静态)词典n条件-动作 型语义知识(动态)规则n句法知识与语义知识的一体化(同样的形式化表示)关于词义聚类关系的知识 n同义(近义)关系n反义关系n同位关系n上、下位关系语义特征表示 语义场描述 n语义场是对语义特征的系统化表述顺序,循环,层级,n语义场为结构化的语义特征值提供了描述手段n一月,二月,十二月n星期一,星期二,星期日n钱,两,斤,公斤,吨n学士,硕士,博士n国,省,市,县,镇,乡,村语义场描述颜色语义场 Xvp np:$.内部结构=述宾,IF%vp.受事=%np TRUE,IF%vp.结果=%np TRUE,nR2np-vp u np:,IF%vp.内部结构=述宾 THEN%vp.施事=%np ENDIF,n发现宝藏的人 发现宝藏 的人 n知道敌军的意图知道敌军的意图 n发现敌人的哨兵发现敌人的哨兵 发现敌人 的哨兵 广义配价模式 n纵向拓展n从词到短语在两个方向上对标准配价模式进行扩展n横向拓展n从“动名”关系拓展到“动形”关系,n“形名”关系,“名名”关系,n“副形”关系,短语结构的组配性质 n买买衣服n买贵了这件衣服你买贵了 *你买贵了这件衣服n晾晾衣服晾阳台上n晾干晾干衣服*晾干阳台上“动形”语义组配描述 n买便宜的布*买便宜染红 洗干净了洗胖了洗聪明了*洗僻静了*洗适宜了*洗远了?洗浓了动词形容词动词形容词名词其他词类之间的组配约束 n名名组配(n+n)n整体部分关系“没有盖儿的杯子”“没有杯子盖儿”n集合成员关系“北大的学生”*“学生的北大”n实体材料关系“塑料凉鞋”*“凉鞋塑料”n个体亲属关系“老张的女儿”*“老张的”n副词/形容词动词(短语)n*正在知道n*马上买贵了n*认真地懂得了n格语法nCase GrammarnCharles J.Fillmore,1966nTowards a modern Theory of casenThe case for case 格辨nSome Problems for Case Grammar格的含义n传统语言学中的格是表层格n词尾变化n词干音变n格语法中的格是“深层格”n体词与谓词的及物性关系n句法语义关系例子nThe door opened.nThe key opened the door.nThe boy opened the door.nThe door was opened by the boy.nThe boy opened the door with a key.nThe boy:施事格nThe door:客体格nThe key:工具格格语法n基本规则n词汇部分n转换部分基本规则nS-M+PnP-V+C1+C2+CnnC-K+NP基本规则nS-M+Pn一个句子S可以改写成情态和命题两大部分n情态部分包括否定、时、式、体、以及其他被理解为全局情态成分的状语n命题牵涉到动词和名词短语、动词和内嵌小句之间的关系基本规则nP-V+C1+C2+Cnn任何命题P都可改写成一个动词V和若干个格C。n动词是广义上的动词,包括:动词、形容词、甚至包括名词、副词和连词基本规则nC-K+NPnK为格标,是各格范畴在底层结构中的标志。格表n施事格Agentiven工具格Instrumentaln承受格Dativen使成格Factitiven方位格Locativen客体格Objectiven收益格Benefactiven源点格Sourcen终点格Goaln伴随格Comitative词汇部分n在词库中标明词汇的底层格的特征nStreet+LocativenIdea-Locativen标出动词的框架特征nCry+Anrun+AnCry 和 run 可以带有一个表示施事的NPn区分必选格和可选格转换部分n和转换语法类似n移动n删除n插入n复写格语法与汉语n有局限性n汉语不是动词中心n流水句、无动局、连动、紧缩等结构,无法用一个动词统率一个句子的模式来描述。义素分析法n丹麦语言学家叶姆斯列夫 L.Hjelmslevn美国语言学家卡茨J.Katz和福多尔J.A.Fodor提出解释语义学义素分析法n义素是意义的基本要素n义素是词的理性意义的区别特征n词的理性意义是一系列语义特征的总和例1n男人:+人、+成年、+男性n女人:+人、+成年、-男性n男孩:+人、-成年、+男性n女孩:+人、-成年、-男性例2n陆军:军队在陆地作战f通常由组成步兵炮兵装甲兵工程兵各专业部队n海军:军队在海上作战f通常由组成水面舰艇潜艇海军航空兵海军陆战队各专业部队n同一类型的义素写在同一花括弧nf:适用范围n“各”是一个标志,它表示被标志的义素可以分解为若干同类的义素。义素分析法n了解词与词搭配是在语义上受到什么样的限制n用于判断同义词、近义词之间的差别蒙太古语法nMontague Grammarn语义研究的形式化问题n蒙太古认为自然语言研究必须是数学的一个分支n组成部分n句法n翻译n语义MG理论模式词库有意义的词语义类内涵逻辑表达式语义规则特定模型中的外延或内涵所指对应函数f翻译规则基本词语语类句法规则树形图MG句法部分n语类 categoryne和t以及它们之间关系的一组集合ne:表示个体词语(individual expression)或实体词语(entity expression)n不同于名词或者名词短语ne.g.chair不属于e语类,只有具体的某把椅子的词语才属于e语类nt:表示具有真值的语言单位,真值词语(truth value expression)或陈述语句(declarative sentence)语类n如果A和B位语类标记,则A/B、A/B均为语类标记n所有语类都是从e和t中推出nA/B表示一个可以与B语类词语结合而产生A语类标记的语类nA/B和A/B表示属于不同句法范畴而具有相同语义范畴的语类语类一览表语类定义基本词语t(基本语类)无e(基本词语)无IVt/eRun,walk,talk,rise,changeTt/IVJohn,Mary,he0,he1,he2,TVIV/TFind,lose,eat,love,be,seek,conceiveIAVIV/IVRapidly,slowly,voluntarilyCNt/eMan,fish,friend,price,temperaturet/tNecessarilyIAV/TIn,aboutIV/tBelieve that,assert thatIV/IVTry to,wish to句法规则n句子依照费雷格原理,通过短语有小到大的结合而逐渐产生n短语之间的结合通过句法规则来实现n典型的句法规则nSn如果PA,PB,那么 Fm(,)PC,且Fm(,)=基本规则nS1n对于任何A语类来说,BA(即A类基本词语)PA(即A类短语)S3n如果PCN,Pt,那么F3,n(,)PCN,且F3,n(,)=s.t.,其中来自,并根据中第一个BCN的阳、阴、中性,用he、she、it或him、her、it来提换中的每一个hen或himn。nS2n如果PCN,那么F0(),F1(),F2()PT,且F0()=every,F1()=the,F2()=不是a 就是an,具体情况依中第一词和或搭配形式而定。合取和析取规则nS11和S13处理有and或or连接的合取或析取短语nS11n如果,Pt,那么F8(,),F9(,)Pt,且F8(,)=and ,F9(,)=or 量化规则nS14至S16为量化规则nS14n PT,PT,那么F10(,)PT,且:n如果不是hek形式短语(即不是传统意义上的人称代词),那么F10(,)就等于将中第一个hen或himn用代替,其后出现的hen或himn则根据中第一个BCN或BT的性用he,she,it或him,her,it替换n如果=hek,则F10(,)等于将中所有的hen或himn用hek或himk来替换时态及记号规则nS17为时态及记号规则MG翻译部分nMG为表示句法和语义的同态性,通常将句子翻译成内涵逻辑表达式n每一条句法规则都有相对应的一条翻译规则MG翻译部分n表示的内涵,表示的外延nPa=P(a)叫做括号等式n =n谓词变项P表示个体集合的属性n人名和代词在MG中的依法分别为:PP,PPhen变换n变换指的是把主目代入含有算子指定的那个变项的表达式中,并消掉及变项。nxx(a)=a函数应用规则nS4至S10将A/B语类的短语与B语类的短语结合而产生A语类的短语nS4n如果Pt/IV,PIV,那么F4(,)Pt,且F4(,)=,其中是将中的第一个动词替换成第三人称单数形式的结果。MG语义部分nMG内涵逻辑有句法和语义两部分组成n句法部分主要确定内涵逻辑表达式义类问题n语义部分主要有语义规则组成,这些规则根据模型来确定内涵逻辑表达式中的所指问题。MG内涵逻辑句法部分n内涵逻辑的句法主要确定内涵逻辑表达式的逻辑义类(logical type)问题n基本义类有两个:e和tne表示个体nt表示真值义类和语类是不同的概念义类的递归性的定义1.t 是一个义类;2.e是一个义类;3.如果a和b是义类,那么是一个义类;4.如果a是义类,则是一个义类其中表示一个由a向b映射的函数,表示a的内涵。义类与语类的对应关系n义类与语类一一对应,有一个函数关系,用f表示1.f(t)=t2.f(e)=e3.对于任何A、B语类来说,f(A/B)=f(A/B)=,f(A)MG内涵逻辑句法n基本成分n常项n变项n内涵逻辑句法部分的作用主要是确定内涵逻辑表达式的义类,其规则表述如下:1.义类中的每一个变项都属于ME(即义类的有意义词语);2.义类中的每一个常项都属于ME;3.如果ME,u为b义类变项,则uME;4.如果ME,ME,则()MEb;等等MG内涵逻辑语义部分n内涵逻辑模型n语义规则,主要确定内涵逻辑表达式的所指问题内涵逻辑模型nA,W,T,n具体表述如下nDa=AnDt=0,1nD=nD=n其中Da表示a的所指(denotation)。E的所指为模型中的个体集合,t的所指为一个真值集合,的所指是一个由a所指向b所指映射的函数。是a的内涵内涵逻辑的语义规则n如果是一个非逻辑常项,则n如果是一个变项内涵逻辑的语义规则n如果ME,是一个b义类变项,则 是一个函数h,其定义域为Db。对于Db中任何一个x来说,其中g表示对变项y的一次赋值。内涵逻辑的语义规则n如果ME,MEb,则小结:句法与语义的分界与重叠 小结:语言知识的筛子模型 小结:意义的组合原则(principle of compositionality)语言中有多少成分的意义可以被“组合”出来,有多少不能被“组合”呢?组合函数,Meaning(s)=F(Meaning(s1),Meaning(s2),),s=s1s2