《信息检索系统》PPT课件.ppt
《《信息检索系统》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索系统》PPT课件.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1信息检索系统的类型2信息检索系统的构成3标引处理4 数据库的文档结构5倒排文档的检索技术3.1信息检索系统及其类型信息检索系统的概念(1)定义:具有信息存储和信息查询功能的一类信息服务设施或者工具(2)构成要素:明确的目标 信息资源 技术装备 方法与措施 功能(1)按设备划分书本式检索系统卡片式检索系统穿孔卡片检索系统缩微胶卷检索系统计算机检索系统光盘检索系统多媒体检索系统.1.2信息检索系统的类型(2)按照功能划分 文献检索系统:狭义的信息检索系统 数据库管理系统:面向结构化数据 自动问答系统:自然语言处理、事实检索 管理信息系统:面向管理人员 决策支持系统:数据分析.1.2信息检索系统的
2、类型2023/1/1753.2 信息检索系统的构成3.2.1 3.2.1 计算机检索系统的物理结构计算机检索系统的物理结构计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。(1)硬件:是包括具有一定性能的主计算机、外围设备以及与数据处理或数据传送有关的其他设备。(2)软件:由系统维护软件与检索软件构成。检索效果。(3)数据库:在计算机存储设备上按一定方式存储的相互关联的数据集合。2023/1/1763.2 信息检索系统的构成检索系统的逻辑结构检索系统的逻辑结构信息检索系统的逻辑构成8信息检索系统的逻辑构成(5)用户接口子系统。它的全称为“系统-用户接口”(system-user inte
3、rface),简称用户接口。它的任务是承担用户与系统之间的通信功能,通常由用户模型、信息显示、命令语言和反馈机制等部分构成。(6)提问处理子系统。该功能模块的任务是负责处理用户输入的提问式,并将它们与数据库存储的数据进行比较运算,然后将运算结果输入给用户。该模块主要由检索程序构成,包括:接收提问、提问校验、提问加工和检索。信息检索系统的逻辑构成3.3标引处理基本概念标引:indexing,对信息资源的各种检索特征进行分析并使之显性化。标引深度:衡量标引详尽性,标引词对每条记录各方面内容表达和识别的详尽程度标引专指度:衡量标引词对记录特定内容描述的精细程度。标引方式:人工标引和自动标引 抽词标引
4、和赋词标引11Document indexingGoal=identify the important meanings and create an internal representationFactors to consider:lAccuracy to represent meanings(semantics)lExhaustiveness(cover all the contents)lFacility for computer to manipulateWhat is the best representation of contents?lChar.string(char big
5、rams):not precise enoughlWord:good coverage,not preciselPhrase:poor coverage,more preciselConcept:poor coverage,preciseCoverage(Recall)Accuracy(Precision)String Word Phrase Concept自动标引处理流程自动标引处理流程图见教材60页。3.3标引处理自动标引中的词语加权方案(1)绝对词频法根据每个词在特定文档(集合)中的出现频次来确定该词重要程度的一种方法,最早有卢恩提出。基本原理给定一个由N篇文档组成的文档集合,计算出每篇
6、文档中每个不同的词的出现次数。把每个不同的词在N篇文档的出现次数相加,得到词K的集合频率。按集合频率递减顺序排列这些词,并确定高频词和低频词的阈值。挑选剩下的中频词作为标引词,并按照他们在相应文档的出现频次确定权重。缺点是什么?3.3标引处理14Keyword selection and weightingHow to select important keywords?lSimple method:using middle-frequency words(2)逆文档频率法英文Inverse Document Frequency,基于以下假设:某词的重要性与它在特定文档中的出现次数成正比,与含
7、有该词的文档数成反比。词频加逆文档词频确定权值的方法得到了广泛的应用。3.3标引处理自动标引中的词语加权方案16tf=term frequency lfrequency of a term/keyword in a documentThe higher the tf,the higher the importance(weight)for the doc.df=document frequencylno.of documents containing the termldistribution of the termidf=inverse document frequencylthe unev
8、enness of term distribution in the corpuslthe specificity of term to a documentThe more the term is distributed evenly,the less it is specific to a documentweight(t,D)=tf(t,D)*idf(t)tf*idf weighting schema自动标引中的词语加权方案3.3标引处理中文自动标引中文自动标引中文和西文(英文)的不同中文标引关注词语切分,对于词语加权关注较少。词语切分方法(1)词典切分法(2)单汉字法3.3标引处理19
9、Result of indexingEach document is represented by a set of weighted keywords(terms):D1 (t1,w1),(t2,w2),e.g.D1 (comput,0.2),(architect,0.3),D2 (comput,0.1),(network,0.5),Inverted file:comput (D1,0.2),(D2,0.1),Inverted file is used during retrieval for higher efficiency.3.4数据库的建立和维护数据库的类型参考数据库源数据库参考数据
10、库(Reference databases)是指引用户到另一信息源以获得原文或其他细节的一类数据库。它包括书目数据库(Bibliographic databases)指南数据库(Referral database或Directory database)两种参考数据库(1)书目数据库是指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库,如中国机械工程文摘数据库,属于此类型数据库。(2)指南数据库也称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户从其他有关信息源获取更详细的信息的一类数据库。如产品目录、机构名录、研发项目、基金项目等数
11、据库均属于此类型。源数据库(Source databases)是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。它可以分为:(1)数值数据库:这是一种专门提供以数值方式表示的数据的源数据库,如统计数据库、财务数据库等。(2)文本-数值数据库:这是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品数据库等。(3)全文数据库:这是一种存储文献全文或其中主要部分的源数据库,如法律法规全文库、期刊全文库等。(4)术语数据库:这是一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,如名词术语信息库、各种电子化辞书等。(5)图像数据库:这是一种用来
12、存储各种图像或图形信息及有关文字说明资料的源数据库,主要应用于建筑、设计、广告、产品、图片或照片等资料类型的计算机存储与检索。(1)记录与字段)记录与字段记录(record)是作为一个单位来处理的有关数据的集合,是对某一实体的属性进行描述的结果。在书目数据库中,被描述的实体是某一特定的文献,实体的属性就是该文献的特征,例如文献的题名、作者、发表时间、语种、分类号、主题词等。书目数据库的结构字段(field)是记录的下级数据单位,用来描述实体的某一属性。一个记录中通常含有文献号字段、题名字段、作者字段、出版字段、语种字段、文摘字段、主题词字段、分类号字段等各种必要的字段。每个字段的具体内容称为字
13、段值(field value)或属性值(attribute value)。、子字段(subfield)是字段的下一级数据单位。在有些字段中,它们的值往往由多个子项构成。例如,作者字段可能含有多个作者,出版字段含有出版者、出版地和出版年,主题词字段含有若干个主题词。(4)文档:)文档:若干个逻辑纪录构成的信息集合。(5)逻辑记录)逻辑记录:某些逻辑上相关联的数据组织在一起的数据集合称为逻辑记录。(6)物理记录)物理记录:硬件设备上一个基本存储单位,块,block。(2 2)文档的类型)文档的类型若干个逻辑记录构成的信息集合称为文档(file)。文档是书目数据库和文献检索系统中数据组织的基本形式。
14、(2 2)文档的类型)文档的类型顺序文档顺序文档(sequential file)是文档在计算机存储器中的一种存放形式,文档中的全部记录按顺序一个接一个地存放,记录的物理位置通常由记录的键值决定,记录之间的逻辑顺序与物理顺序一致。文档的修改和删除操作比较简单,但插入操作较为麻烦,存取时间与数据的物理位置有关。随机文档随机文档文档中的记录按随机方式存放在支持直接存取的磁盘、磁鼓或内存中。在记录的关键码与存放该记录的地址之间建立某种关系,根据这种关系来确定该记录在文档中的位置以及对文档进行存取的方式。对文档中的记录可以随机存取,不考虑记录在文档中的排列次序,数据的存取时间与数据的存储位置无关。实现
15、随机文档快速存取的关键是寻址技术。(2 2)文档的类型)文档的类型主文档(master file)书目数据库中描述每篇文献的完整记录通常以线性排列方式存放在磁带或磁盘上。检索时,只能按其物理顺序读取这些记录及其中的字段。由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(master file)。(2 2)文档的类型)文档的类型倒排文档所谓倒排档,就是把记录中一切可检字段或属性值(如著者名、主题词等)抽出,按某种顺序重新加以组织后所得到的一种文档。既可以按不同类型的字段组成不同的倒排档(如著者倒排档、主题词倒排档等),也可以把所有不同的字段组成一个混合倒排档。(2 2)文档的类型)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息检索系统 信息 检索系统 PPT 课件
限制150内