信息系统安全第6章.ppt
《信息系统安全第6章.ppt》由会员分享,可在线阅读,更多相关《信息系统安全第6章.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章 并行与分布式信息检索并行与分布式信息检索 本章目录本章目录第一节第一节 引言引言第二节第二节 并行信息检索并行信息检索第三节第三节 分布式信息检索方法分布式信息检索方法 第四节第四节 异构数据库检索异构数据库检索信息存储与检索第一节第一节 引言引言v在因特网大容量的信息检索中,传统的顺序技术会遇到检索速度下降的困难,而并行信息检索能够突破顺序检索的局限,大大加快检索的处理速度。因此,并行检索技术是提高信息检索系统的响应时间的一种有效途径。信息存储与检索第一节第一节 引言引言v集中式检索系统有着很多的局限性:其一,网络信息量呈指数增长,集中式的检索方法不能适应信息急剧增长的需要;其
2、二,虽然目前的搜索引擎都在努力的增加对网络信息的覆盖率,但要想覆盖整个网络上的信息在目前几乎是不可能的;最后,检索系统之间通常没有分工协作,各自独立搜索和处理信息,造成了大量的重复工作和严重的带宽浪费,有时甚至能造成网络阻塞。为了适应网络规模的日益扩大,有必要采用分布式处理技术解决网络中大量信息的检索问题。信息存储与检索6.2.1 并行信息检索原理并行信息检索原理(一)多个查询之间的并行处理v利用MIMD结构对多个查询的处理并行化,即每个处理器处理不同的查询,每个查询的处理之间相互独立,最多只对共享内存内的部分代码或者公有数据实行共享。这种方法也称为任务级的并行检索,它可以同时处理多个查询请求
3、,从而提高检索的吞吐量。信息存储与检索6.2.1 并行信息检索原理并行信息检索原理(二)单个查询内部的并行处理 v即对单个查询的计算量进行分割,分成多个子任务,并分配到多个处理器上的搜索进程上去执行。这种检索也称为进程级并行检索。v将单个查询分成多个子任务的方法通常有两种:一种称为数据集分割,它是事先将数据集分割成多个子集合,用同一查询式分别查询多个子集合数据,然后将每个子集合上的结果合并成最终结果;另一种称为查询项分割,它是将查询分解成多个子查询,对每个子查询分别查询数据集,得到部分结果,并将部分结果合并成最终结果。信息存储与检索6.2.2 并行检索的体系结构并行检索的体系结构v并行体系结构
4、利用指令流和数据流的多倍性将计算机系统分为四类:SISD(单指令流单数据流)、SIMD(单指令流多数据流)、MISD(多指令流单数据流)和MIMD(多指令流多数据流)。SISD对应于传统的顺序处理体系结构,MISD十分少见。并行机器实际上只有两类:SIMD和MIMD。v SIMD结构是用同一指令并行操作不同的数据,因而是一种并行数据计算。vMIMD结构比SIMD复杂,其中处理器之间是独立的,对不同的数据执行不同的指令。MIMD是目前并行引擎所使用的主要结构。信息存储与检索6.2.3 并行检索技术并行检索技术(一)并行检索策略v并行技术分为数据并行和功能并行(控制并行)。v数据级并行依赖于并行处
5、理机,特点是重复设置许多个同样的处理单元,按照一定的方式相互连接,在统一的控制部件作用下,各自对分配来的数据并行地完成同一指令所规定的操作。v功能并行主要表现于多个任务或多个程序段之间,执行时可能存在着数据交往或控制依赖,因而解决起来较为复杂。但是随着并行技术的进一步发展,程序的控制并行间题将得到逐步解决。信息存储与检索6.2.3 并行检索技术并行检索技术(二)并行检索软件技术v软件中的并行性主要是指程序的相关性和网络互连。v程序的相关性分为数据相关、控制相关和资源相关:数据相关说明的是语句之间的有序关系,控制相关指的是语句执行次序在运行前不能确定的情况,资源相关与并行事件利用整数部件、浮点部
6、件、寄存器和存储区等共享资源时发生的冲突有关。v网络互连使用静态或动态拓扑结构网络。静态网络由点点直接相连而成,这种方式在程序执行过程中不会改变;动态网络可动态地改变结构,使之与用户程序中的通信要求匹配。信息存储与检索6.2.3 并行检索技术并行检索技术(三)并行检索硬件技术 v硬件技术方面主要从处理机、存储器和流水线三个方面来实现并行。v处理机系列包括CISC、RISC、超标量、VLIW、超流水线、向量以及符号处理机。v存储设备按容量和存取时间从低到高可分为寄存器、高速缓存、主存储器、磁盘设备和磁带机五个层次v流水线技术主要有指令流水线技术和运算流水线技术两种。信息存储与检索6.2.4 并行
7、检索中的索引文档处理并行检索中的索引文档处理(一)倒排表索引结构 v检索系统通常采用倒排表(inverted file)索引结构,可直接从关键词映射到所在文档。信息存储与检索6.2.4 并行检索中的索引文档处理并行检索中的索引文档处理(二)基于倒排表的分割处理 v使用倒排表进行数据集分割有两种实现方法:物理倒排表分割方法和逻辑倒排表分割方法。这两者的数据集都在物理上分成多个子集合。v物理倒排表分割和逻辑倒排表分割的不同之处在于,前者不仅将数据集分割,而且将倒排索引表也同时进行分割,每个数据子集拥有自己独立的索引倒排结构。对于逻辑倒排表分割,倒排索引表物理上并不进行分割,而是增加一个处理机分配表
8、,整张倒排索引表则被多个处理器共享使用。信息存储与检索6.2.4 并行检索中的索引文档处理并行检索中的索引文档处理(三)SIMD机器上的倒排检索 vSIMD机器也称阵列处理机,是由大量相同的互连的PE(处理单元)对分配来的数据并行执行同一指令所规定的操作。由主文档建立倒排索引可利用CU(控制部件)执行建库程序而完成。v对提问编辑与变换后形成的检索指令表,因其中某些广义检索指令基本上属于向量类指令,故需“播送”给各个PE,由它们并行地执行该指令规定的操作,而对其中的标量指令则由CU自己执行。信息存储与检索6.2.4 并行检索中的索引文档处理并行检索中的索引文档处理(四)MIMD机器上的倒排检索
9、vMIMD机器也即多处理机系统,它既可以是P台处理机共享一个主存的紧耦合多处理机,也可以是不共享同一主存的松耦合多处理机,能够实现作业、任务、指令、数组各级全面并行。在此硬件环境下,倒排索引及主文档可以分割存放,如倒排索引分放在内存各部分,主文档分放在并行辅存中,以便在检索时由各台处理机同时查找数据。信息存储与检索6.2.4 并行检索中的索引文档处理并行检索中的索引文档处理(五)并行顺排检索 v假若由p台处理机构成多处理机系统,处理由n个提问构成的批量提问检索,则相应有两种处理方案。v一、先将p个提问依次读入p台处理机,各自变换为提问展开表,得到前p个提问的检索结果后,接着读入p+1 2p个提
10、问,直至所有提问处理完毕。v二、将n个提问同时读入每一台处理机中,p台处理机各自将每个提问展开,再将与其有逻辑联系的每篇文献编制成检索标识表,经重复变换和比较,每台处理机获得部分检索结果,最后将p组结果组合起来。信息存储与检索 6.3.1 分布式信息检索原理分布式信息检索原理1 6.3.2 分布式分布式检索处理技术检索处理技术2 6.3.3 分布式信息分布式信息检索模式检索模式 33 6.3.4 分布式分布式检索中的数据集选择检索中的数据集选择4第三节第三节 分布式信息检索方法分布式信息检索方法信息存储与检索6.3.1 分布式信息检索原理分布式信息检索原理 v分布式信息检索主要是指在分布式的环
11、境中,利用分布式计算和移动代理等技术从大量的、异构的信息资源中检索出对用户有用的信息的过程。这里的分布式环境指的是信息资源在物理上分布于各地。这些分布式的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统。但是,不同的信息资源具有不同的数据库结构,即分布式的信息资源具有异构性的特点。信息存储与检索6.3.2 分布式检索处理技术分布式检索处理技术 v由于不同的信息资源具有不同的数据库结构,因此在分布式环境下对于异构数据库的检索和访问并不简单。解决分布式信息检索的技术很多,如用于分布式数据库设计与实现的分布式对象组件模型(DCOM)和公共对象请求代理构架(CORBA),用于解决分布式环境中数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息系统安全
限制150内