自然语言幻灯片.ppt
自然语言1第1页,共87页,编辑于2022年,星期二4.1 4.1 自然语言是一种发展趋势自然语言是一种发展趋势4.2 4.2 自然语言的应用方式自然语言的应用方式4.3 4.3 汉语自然语言的特殊问题及分词技术汉语自然语言的特殊问题及分词技术4.4 4.4 单汉字检索单汉字检索4.5 4.5 后控词表后控词表4.6 4.6 自然语言检索的效率问题自然语言检索的效率问题4.7 4.7 自然语言与分类主题语言的比较自然语言与分类主题语言的比较4.8 4.8 大众分类法大众分类法TAGTAG2第2页,共87页,编辑于2022年,星期二4.1 4.1 概述概述自然语言在信息组织与检索方面的应用是以自然语言在信息组织与检索方面的应用是以计算机检索为前提的;计算机检索为前提的;自然语言本身有突出的优点;自然语言本身有突出的优点;研究广泛;研究广泛;汉语分词技术的发展;汉语分词技术的发展;节省时间,建检索系统速度快;节省时间,建检索系统速度快;多数数据库都具有自然语言检索功能。多数数据库都具有自然语言检索功能。3第3页,共87页,编辑于2022年,星期二4.2 4.2 自然语言的应用方式自然语言的应用方式自然语言在信息组织与检索中大致有三种应自然语言在信息组织与检索中大致有三种应用方式:用方式:1.不标引(无标引)方式不标引(无标引)方式2.自动抽词标引方式自动抽词标引方式3.人工标引方式人工标引方式4第4页,共87页,编辑于2022年,星期二4.2 4.2 自然语言的应用方式自然语言的应用方式1.不标引(无标引)方式不标引(无标引)方式文本关键词匹配检索文本关键词匹配检索单汉字检索单汉字检索文本检索作为辅助检索途径文本检索作为辅助检索途径标引对信息单元的内容进行调查,形成其相应概念概念标引,主题分析;将概念转换为检索语言标识符号标引5第5页,共87页,编辑于2022年,星期二文本关键词匹配文本关键词匹配数据库中存储的是文本(全文、摘要、标题)数据库中存储的是文本(全文、摘要、标题),不进行任何标引,检索时用关键词进行,不进行任何标引,检索时用关键词进行匹配,多称为匹配,多称为文本检索文本检索;如果是针对全文数据库,则称为如果是针对全文数据库,则称为全文检索全文检索;检索表达式可以是词、词的组配;检索表达式可以是词、词的组配;最普通的应用方式。最普通的应用方式。6第6页,共87页,编辑于2022年,星期二字符串匹配检索算法精确匹配检索精确匹配检索假设两个串假设两个串t t和和p p:t=tt=t0 0t t1 1t t2 2ttn-1 n-1 目标目标p=pp=p0 0p p1 1ppm-1 m-1 模式模式其中,其中,1m1m n n(通常(通常mnm=0;x与y关系弱时,MI(x,y)0;而当MI(x,y)0时,x与y称为“互补分布”。最大熵模型最大熵模型(ME,Max Entropy)(ME,Max Entropy)在已知条件下选择一个合适的概率分布来预测事件。3737第37页,共87页,编辑于2022年,星期二规则和统计结合的方法通常利用词典进行初切分,然后用其它的概率统计方法和简单规则消歧和进行未登录词识别。比如:利用词典匹配进行初切分得到一个切分词图,然后利用词频信息求词图N条最短路径的N-最短路径法。最大匹配算法、state-of-the-art分类器和支持向量机的结合。通过词典匹配找出所有交叉歧义,利用Bigram语言模型或其变形来消除歧义。3838第38页,共87页,编辑于2022年,星期二基于字的切分方法N N元切分法元切分法(N-gram)(N-gram):对一个字符串序列以N为一个切分单位进行切分。如二元切分法:“ABCDEFG”“ABCDEFG”交叉二元切分法(Overlapping Bigram):“ABCDEFG”“ABBCCDDEEFFG”简单快速,但会产生大量无意义的标引词,导致标引产生的索引文件的空间,以及检索和进行标引的时间都大大增加。同时,因为它的切分单位并非语言学意义上的词语,所以也会导致检索的查准率下降。3939第39页,共87页,编辑于2022年,星期二中文自然语言处理开放平台(中文自然语言处理开放平台(CNLPCNLP)http:/ 4.1 自然语言是一种发展趋势自然语言是一种发展趋势4.2 4.2 自然语言的应用方式自然语言的应用方式4.3 4.3 汉语自然语言的特殊问题及分词技术汉语自然语言的特殊问题及分词技术4.4 4.4 单汉字检索单汉字检索4.5 4.5 后控词表后控词表4.6 4.6 自然语言检索的效率问题自然语言检索的效率问题4.7 4.7 自然语言与分类主题语言的比较自然语言与分类主题语言的比较4.8 4.8 大众分类法大众分类法folksonomy&TAGfolksonomy&TAG46第46页,共87页,编辑于2022年,星期二4.4 4.4 单汉字检索单汉字检索1.适应汉语的特点适应汉语的特点字面成族字面成族专指度极其高的汉字专指度极其高的汉字2.单汉字检索的优缺点单汉字检索的优缺点速度快,查全率高,如速度快,查全率高,如“西电科大西电科大”和和“西西安电子科技大学安电子科技大学”;回避分词问题,模糊检索性好;回避分词问题,模糊检索性好;长长跑跑,短,短跑跑,慢,慢跑跑,变速,变速跑跑铊铊47第47页,共87页,编辑于2022年,星期二与文本字词匹配检索相比,占用存储空间大与文本字词匹配检索相比,占用存储空间大无标引用词,因此在构造检索式时,不能提无标引用词,因此在构造检索式时,不能提供浏览词汇的条件供浏览词汇的条件3.关于单汉字检索系统配备后控制词表的问关于单汉字检索系统配备后控制词表的问题题48第48页,共87页,编辑于2022年,星期二4.5 4.5 后控制词表后控制词表1.“后控制后控制”与与“后控制词表后控制词表”控制:对语词规范化;显示概念之间关系。控制:对语词规范化;显示概念之间关系。组织阶段控制与检索阶段控制组织阶段控制与检索阶段控制标引控制检索控制标引控制检索控制(检索语言检索语言)(检索语言检索语言)标引控制检索不控制标引控制检索不控制(检索语言检索(检索语言检索/自然语言)自然语言)标引不控制检索控制标引不控制检索控制(自然语言自然语言(自然语言自然语言/词表词表)标引不控制检索不控制标引不控制检索不控制(自然语言自然语言)(自然语言自然语言)后控制词表后控制词表49第49页,共87页,编辑于2022年,星期二2.后控制词表是提供自然语言检索效率的有后控制词表是提供自然语言检索效率的有效措施效措施自然语言检索存在构造检索策略困难,检全自然语言检索存在构造检索策略困难,检全率低的问题;率低的问题;自然语言表达概念的自由度大,同义词、近自然语言表达概念的自由度大,同义词、近义词;无概念关系显示义词;无概念关系显示对检准率的影响对检准率的影响选词与真实内容之间的差异选词与真实内容之间的差异后控制方法:后控制方法:截词检索,后控制词表截词检索,后控制词表50第50页,共87页,编辑于2022年,星期二3.控制机理控制机理类似于入口词(非规范词到规范词);类似于入口词(非规范词到规范词);一种转换工具;一种转换工具;一种扩检工具;一种扩检工具;一种罗列自然语言检索标识供选择的工具。一种罗列自然语言检索标识供选择的工具。检索词检索词新检索词新检索词匹配匹配后控制后控制词表词表51第51页,共87页,编辑于2022年,星期二4.控制程度控制程度对检索系统中自然语言标识的覆盖率对检索系统中自然语言标识的覆盖率因此后控制词表的通用性不大因此后控制词表的通用性不大显示自然语言标识间概念关系的深入程度和显示自然语言标识间概念关系的深入程度和显示的系统性显示的系统性显示等同关系显示等同关系/等级关系、字顺显示等级关系、字顺显示/分类显示分类显示52第52页,共87页,编辑于2022年,星期二5.编制特点编制特点词表不断增长;词表不断增长;分类体系是逐步细化的;分类体系是逐步细化的;分类体系变化灵活;分类体系变化灵活;显示方式多样,可以逐步增加;显示方式多样,可以逐步增加;可以同时配备入口词表;可以同时配备入口词表;可以区分控制词与自然语词;可以区分控制词与自然语词;词间关系应该由人工判定。词间关系应该由人工判定。53第53页,共87页,编辑于2022年,星期二6.后控制词表的编制后控制词表的编制在被抽出的词的基础上编制,在被抽出的词的基础上编制,将自然语言检索标识与某种词表或分类表对将自然语言检索标识与某种词表或分类表对应应利用计算机自动收集检索表达式中的用词加利用计算机自动收集检索表达式中的用词加以积累以积累,然后由人工判别整理成词表然后由人工判别整理成词表方式方式与方式与方式的结合的结合,或方式或方式与方式与方式的的结合结合利用现成的、词量较多的一般词表作为后控利用现成的、词量较多的一般词表作为后控制词表的代用品制词表的代用品54第54页,共87页,编辑于2022年,星期二AA大类大类AAaa小类小类AAaa01控制词控制词AAaa01.01Y自然语言自然语言1AAaa01.02F自然语言自然语言2AAaa01.03C自然语言自然语言3AAaa03控制词控制词AAaa03.01Y自然语言自然语言AAaa03.02F自然语言自然语言AAaa03.03Y自然语言自然语言AAac小类小类55第55页,共87页,编辑于2022年,星期二7.后控制词表的应用后控制词表的应用数据库检索数据库检索例如,在例如,在Dialog系统中,通过系统中,通过“Expand”命令,命令,可以实现词表辅助功能。可以实现词表辅助功能。后控制技术在网络检索中的应用后控制技术在网络检索中的应用Excite的的ZoomIn概念检索助手;概念检索助手;AltaVista检索检索系统系统56第56页,共87页,编辑于2022年,星期二57第57页,共87页,编辑于2022年,星期二Dialog:expandEXPAND UsetheEXPANDcommandtodisplaytheindexesofsearchabletermsassociatedwithaparticulardatabase.Thisisoneofthemostvaluablecommandsavailable,particularlywhenyouareunsureabouthowaparticulartermmightbelisted.EXPANDworkslikeawindowintoadatabase:itallowsyoutoseeexactlyhowaterm(word,phrase,author,journal,etc.)isindexed,andletsyouSELECTyourtermdirectlyoutoftheindex.58第58页,共87页,编辑于2022年,星期二ToviewtheBasicIndex:?expandexponential Ref Items Index-term E15EXPONENTIABILITYE220EXPONENTIABLEE319414*EXPONENTIALE41EXPONENTIALACCURACYEnterPorPAGEformore59第59页,共87页,编辑于2022年,星期二ToviewanAdditionalIndex:?expandau=einstein,a Ref Items Index-term E17AU=EINSPRUCH,NORMANG.E21AU=EINSTEINKRAHN,DOROTHEEE30*AU=EINSTEIN,AE433AU=EINSTEIN,A60第60页,共87页,编辑于2022年,星期二4.6 4.6 自然语言检索中的效率问题自然语言检索中的效率问题1.作为检索依据的文本类型作为检索依据的文本类型标题、小标题、章节名、摘要、正文标题、小标题、章节名、摘要、正文检准检准检全检全61第61页,共87页,编辑于2022年,星期二2.检索用语的专指度检索用语的专指度无标引系统无标引系统单汉字检索单汉字检索,检全率高,单检准率有时极其低;,检全率高,单检准率有时极其低;汉字词检索汉字词检索,检准率提高,但检索结果可能极少,检准率提高,但检索结果可能极少自然语言词标引自然语言词标引词标引,单个词检索,则高检全,低检准;词标引,单个词检索,则高检全,低检准;词标引,多词组配检索,则高检准,低检全;词标引,多词组配检索,则高检准,低检全;若标引词非常专指,则保证检准,影响检全若标引词非常专指,则保证检准,影响检全62第62页,共87页,编辑于2022年,星期二3.在不同范围内进行组配检索在不同范围内进行组配检索句、段、节、篇句、段、节、篇随着范围扩大,误组配率增加随着范围扩大,误组配率增加4.文本用词的不规范性文本用词的不规范性5.不同标引方式不同标引方式不标引、自动抽词标引、人机结合抽词、自动赋词、不标引、自动抽词标引、人机结合抽词、自动赋词、自由标引自由标引6.对自然语言进行词表控制对自然语言进行词表控制63第63页,共87页,编辑于2022年,星期二4.7 4.7 自然语言自然语言 VS VS 人工语言人工语言评价指标评价指标自然语言自然语言人工语言人工语言适应性适应性计算机检索;全计算机检索;全文检索;文检索;计算机计算机/手工检手工检索;书目索;书目编制分类表编制分类表/词词表表不用或者后控制不用或者后控制词表词表困难、成本高困难、成本高标引难度标引难度低低高高标引速度标引速度快快慢慢处理成本处理成本低低高高64第64页,共87页,编辑于2022年,星期二评价指标评价指标自然语言自然语言人工语言人工语言标引一致性标引一致性高?高?低?低?标引失真程度标引失真程度低?低?高?高?标识专指度标识专指度高,影响检全高,影响检全保证检全,概念保证检全,概念粗化粗化新概念的及时性新概念的及时性快快慢慢检索速度检索速度不一定不一定较快较快方便性方便性好好不好不好检准与检全检准与检全检准性好检准性好检全性好检全性好65第65页,共87页,编辑于2022年,星期二总之,应用自然语言进行信息内容的组织与检总之,应用自然语言进行信息内容的组织与检索,应该注意:索,应该注意:1.对文本的不同部分(标题、小标题、章节、摘要、正文),对文本的不同部分(标题、小标题、章节、摘要、正文),应该予以标注;应该予以标注;2.对文本抽词,尽量选择专指词;对文本抽词,尽量选择专指词;3.检索时,优先使用专指词;一般不用单汉字检索;检索时,优先使用专指词;一般不用单汉字检索;4.组配尽量在一定范围内;组配尽量在一定范围内;5.构造检索式,尽量罗列同义词、近义词、反义词;构造检索式,尽量罗列同义词、近义词、反义词;6.后控制词表注意与特定系统相结合;后控制词表注意与特定系统相结合;7.如果要求较高的质量,采用自由标引文本字词匹配如果要求较高的质量,采用自由标引文本字词匹配检索。检索。66第66页,共87页,编辑于2022年,星期二4.8folksonomy20052005年初,自由分类法,大众分类法,民年初,自由分类法,大众分类法,民俗分类法(俗分类法(folksonomyfolksonomy)作为一种由用户)作为一种由用户参与和主导的信息组织方式,在参与和主导的信息组织方式,在YahooYahoo等门等门户网站迅速流行,与长尾(户网站迅速流行,与长尾(The Long TailThe Long Tail)、)、简单信息同步(简单信息同步(RSSRSS)、博客、)、博客、AjaxAjax和播客和播客共同构成下一代因特网共同构成下一代因特网Web2.0Web2.0的核心要素。的核心要素。67第67页,共87页,编辑于2022年,星期二长尾理论长尾理论VSVS二八定律二八定律(帕雷托法则帕雷托法则)只要存储和流通的渠道足够大,需求不旺或销量不佳的只要存储和流通的渠道足够大,需求不旺或销量不佳的产品共同占据的市场份额就可以和那些数量不多的热卖产品共同占据的市场份额就可以和那些数量不多的热卖品所占据的市场份额相匹敌甚至更大。品所占据的市场份额相匹敌甚至更大。Google AdSense Google AdSense 68第68页,共87页,编辑于2022年,星期二RSSRSSRSS是基于是基于XMLXML标准,用以实现站点之间共标准,用以实现站点之间共享内容的数据交换规范。这一技术起源于享内容的数据交换规范。这一技术起源于网景通讯公司。目前对这一技术有三种解网景通讯公司。目前对这一技术有三种解释:(释:(1 1)Really Simple Syndication Really Simple Syndication(真正(真正简单聚合);简单聚合);(2)RDF(2)RDF(Resource Resource Description FrameworkDescription Framework)Site Summary Site Summary(资源描述架构站点摘要);(资源描述架构站点摘要);Rich Site Rich Site SummarySummary(丰富站点摘要)(丰富站点摘要)69第69页,共87页,编辑于2022年,星期二blogBlogBlog是目前最受关注、使用人数最多的一种是目前最受关注、使用人数最多的一种Web2.0Web2.0应用。应用。BlogBlog是个人或群体以时间顺是个人或群体以时间顺序所作的一种不断更新的记录。序所作的一种不断更新的记录。BlogBlog之间的之间的交流主要是通过回溯引用(交流主要是通过回溯引用(TrackBackTrackBack)和)和广播广播/留言留言/评论的方式来进行的。评论的方式来进行的。70第70页,共87页,编辑于2022年,星期二Podcast发布声音和图像的发布声音和图像的“博客博客”,在,在Web2.0Web2.0家族中被称为家族中被称为播客播客(Podcast)(Podcast)。是收音机、是收音机、iPodiPod、博客和宽带互联网的集体产物。用、博客和宽带互联网的集体产物。用最简单的方式描述,播客就是用嘴写,用耳朵看的博最简单的方式描述,播客就是用嘴写,用耳朵看的博客。播客与网络电台最大的不同在于,它采用客。播客与网络电台最大的不同在于,它采用rss2.0rss2.0可可以订阅模式,不再是单纯地音频文件,任何以订阅模式,不再是单纯地音频文件,任何p2pp2p文件都可文件都可以成为播客,任何个人都可以制作节目发布广播,任以成为播客,任何个人都可以制作节目发布广播,任何拥有何拥有mp3mp3、智能手机的人都可以自由的收听播客节目。、智能手机的人都可以自由的收听播客节目。71第71页,共87页,编辑于2022年,星期二AJAXAsynchronous JavaScript and XMLAsynchronous JavaScript and XML(异步(异步JavaScriptJavaScript和和XMLXML),是指一种创建交互式网页应用的网页开发技术。),是指一种创建交互式网页应用的网页开发技术。主要主要包含了以下几种技术:包含了以下几种技术:AjaxAjax(Asynchronous JavaScript+XMLAsynchronous JavaScript+XML)的定义)的定义 基于基于webweb标准(标准(standards-based presentationstandards-based presentation)XHTML+CSSXHTML+CSS表示表示 使用使用 DOMDOM(Document Object ModelDocument Object Model)进行动态显示及交互;)进行动态显示及交互;使用使用 XML XML 和和 XSLT XSLT 进行数据交换及相关操作;进行数据交换及相关操作;使用使用 XMLHttpRequest XMLHttpRequest 进行异步数据查询、检索;进行异步数据查询、检索;使用使用 JavaScript JavaScript 将所有的东西绑定在一起。将所有的东西绑定在一起。GoogleGoogle在其一系列著名的交互应用程序中使用了该技术,如在其一系列著名的交互应用程序中使用了该技术,如GoogleGoogle讨论组、讨论组、GoogleGoogle地图、地图、GoogleGoogle搜索建议、搜索建议、GmailGmail等等 72第72页,共87页,编辑于2022年,星期二1.自由分类法的概念、特点及研究进展自由分类法的概念、特点及研究进展用户自发的用标签(用户自发的用标签(tagtag)对感兴趣的资料进)对感兴趣的资料进行分类,并与他人共享标签的过程和结果。行分类,并与他人共享标签的过程和结果。自由分类法的特点是自由分类法的特点是自由自由、共享共享和和动态动态更新更新73第73页,共87页,编辑于2022年,星期二2.自由分类法与元数据自由分类法与元数据两者的出发点都是组织信息以便利用户的两者的出发点都是组织信息以便利用户的使用,但前者是通过专业人士和标准化进使用,但前者是通过专业人士和标准化进行,后者则更多依赖大众的参与和行,后者则更多依赖大众的参与和“重量重量级应用级应用”从导航到共享从导航到共享从复杂到简单从复杂到简单从生产到消费从生产到消费74第74页,共87页,编辑于2022年,星期二3.自由分类法与语义网自由分类法与语义网TimBerners-Lee提出一种对目前互联网提出一种对目前互联网组织方式彻底变革的方案,即建立一种组织方式彻底变革的方案,即建立一种能让计算机理解网页内容的互联网,称能让计算机理解网页内容的互联网,称之为语义网之为语义网语义网是在理论的基础上,努力把构想语义网是在理论的基础上,努力把构想变为现实,从理论走向实践。而自由分变为现实,从理论走向实践。而自由分类法先有应用,再有类法先有应用,再有“自由分类法自由分类法”这这个名词个名词75第75页,共87页,编辑于2022年,星期二76第76页,共87页,编辑于2022年,星期二77第77页,共87页,编辑于2022年,星期二78第78页,共87页,编辑于2022年,星期二79第79页,共87页,编辑于2022年,星期二80第80页,共87页,编辑于2022年,星期二81第81页,共87页,编辑于2022年,星期二82第82页,共87页,编辑于2022年,星期二83第83页,共87页,编辑于2022年,星期二4.自由分类法存在的问题自由分类法存在的问题模糊性模糊性平面结构平面结构存在一些低使用量的数据存在一些低使用量的数据Tagspam 84第84页,共87页,编辑于2022年,星期二5.自由分类法展望自由分类法展望自由分类法正处在发展初期,在理论和实自由分类法正处在发展初期,在理论和实践上都有广泛的发展空间。越来越多的互践上都有广泛的发展空间。越来越多的互联网用户了解自由分类法,学会用标签对联网用户了解自由分类法,学会用标签对自己感兴趣的资源进行描述和检索。它推自己感兴趣的资源进行描述和检索。它推陈出新的速度要远远快于目前的元数据和陈出新的速度要远远快于目前的元数据和语义网。尽管自由分类法存在着自己的缺语义网。尽管自由分类法存在着自己的缺点,如不够精确,平面结构,垃圾标签等,点,如不够精确,平面结构,垃圾标签等,但是在如今崇尚个性化的互联网大环境下,但是在如今崇尚个性化的互联网大环境下,自由分类法可提高信息组织效率,满足用自由分类法可提高信息组织效率,满足用户个性化需求。户个性化需求。85第85页,共87页,编辑于2022年,星期二从某种角度看,信息集合的构成模式可以有从某种角度看,信息集合的构成模式可以有三种形式:三种形式:经典的信息构成模式经典的信息构成模式分类分类 散秩的信息构成模式散秩的信息构成模式语词语词以自由分类法为基础的个性化信息组织以自由分类法为基础的个性化信息组织86第86页,共87页,编辑于2022年,星期二面向网站的主题词表应用案例面向网站的主题词表应用案例119面向网站的信息主题组织系统构建面向网站的信息主题组织系统构建120自由分类法与信息自组织自由分类法与信息自组织121标准学术论文格式,(题目、作者、摘要、关标准学术论文格式,(题目、作者、摘要、关键词、正文、参考文献)键词、正文、参考文献)如果引用其他资料,需标明来源资料的出处。如果引用其他资料,需标明来源资料的出处。可以提交电子版或打印版可以提交电子版或打印版87第87页,共87页,编辑于2022年,星期二