《分布式操作技巧系统复习资料(汇总).doc》由会员分享,可在线阅读,更多相关《分布式操作技巧系统复习资料(汇总).doc(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、.-一、 名词解释1. 中间件:指一个软件层,放在应用程序和网络操作系统之间,它提供了一个编程抽象以及对底层网络、硬件、操作系统和编程语言异构性的屏蔽。2. RPC:RPC是remote procedure call(远程过程调用)的简称。RPC思想是使远程的过程调用就像在本地的过程一样,调用者不应该意识到此调用的过程是在其他机器上实行的。3. 名称解析:在名称空间中,根据节点的路径名,就可以寻找到这个节点所存储的任何信息,这个查找的过程就称为名称解析。 4. 严格一致性模型:所有共享访问事件都有绝对时间顺序。5. 容错(fault tolerance):避免系统失效。在故障发生时系统仍能正常
2、运行(提供服务) 。二、综合题1.什么是分布式系统?分布式系统发展的前提条件有哪些?试列举2个分布式系统的例子?比较分布式操作系统、网络操作系统、多处理机分时操作系统的特点和应用范围。答:分布式系统是由一组具有自治功能的独立计算机构成的系统,在用户看来好像是一个计算机系统一样。物理上分布,逻辑上是一个整体。l 硬件方面:每台计算机都是独立、自主的计算机l 软件方面:用户感觉在独占系统分布式系统发展的前提条件有:l 计算机性能价格比在迅速提高l 网络技术的发展与普及:有线网络、移动计算、无处不在的计算l 计算量增大l 任务本身需要分布式处理例:l 工作流处理系统:订单自动处理、办公自动化、电网调
3、度等系统l 银行“一卡通”系统、电信“神州行”系统、飞机订票系统等项目网络操作系统分布式操作系统多处理机分时操作系统表现是否象一台单机否是是各台机器是否运行同样的操作系统否是是操作系统有多少拷贝多多1通信如何完成共享文件消息共享存储器是否要求一致的网络协议是是否是否具有唯一的运行队列否否是文件共享是否具有统一的语义通常没有有有2.什么是RPC?试简述RPC的执行步骤。答:RPC是remote procedure call(远程过程调用)的简称。RPC思想是使远程的过程调用就像在本地的过程一样,调用者不应该意识到此调用的过程是在其他机器上实行的。RPC的执行步骤:(1) 客户过程以普通方式调用相
4、应的客户存根;(2) 客户存根建立消息,打包并激活内核陷阱;(3) 内核将消息发送到远程内核;(4) 远程内核将消息发送到服务器存根;(5) 服务器存根将消息解包,取出其中参数后调用服务器过程;(6) 服务器完成工作或将结果返回服务器存根;(7) 服务器存根将它打包并激活内核陷阱;(8) 远程内核将消息发送至客户内核;(9) 客户内核将消息交给客户存根;(10)客户存根将消息解包,从中取出结果返回给客户;3.常见的选举算法有哪几种?简述他们的算法实现过程。答:常见的选举算法有:欺负算法、环算法。欺负算法:当一个进程P发现协调者不响应请求时,它就发起选举;进程P向所有号码都比它大的进程发送选举消
5、息;若无人响应,P获胜成为协调者;若有大的进程响应,响应者接管选举,P的工作完成。环算法:假设所有进程是按物理或逻辑排序,形成没有令牌的环,每一个进程都知道谁是它的后继者;当任何一个进程发现协调者不再起作用时,它就构造一个包含它自身进程号的选举消息发送给它的后继者(直到找到一个进程)每次发送者都将自己的进程号加入到消息中,当消息回到始发者的手中,始发者接收到包括自己进程号的消息;转成协调者消息。该消息将再一次绕环运行,向所有的进程通知谁是协调者(在成员表中进程号码最大的那个)和新的环成员。4.简述三种分布式互斥算法(集中式算法、分布式算法、令牌环算法)的算法思想。答:集中式算法选一个进程为协调
6、者(比如在最大网络地址的进程);无论什么时候进程要进入临界区,它将向协调者发送请求信息,说明它想进入那个临界区并希望获得允许;如果当前该临界区内没有其它任何进程,协调者就发送允许进入信息,当应答到达时,请求者就可以进入临界区;分布式算法:当某进程想进入临界区时,它要建立一个消息,包括:a 它要进入的临界区的名字;b 它要进入的处理机号;c 当前时间;将消息发送给所有其它进程;发送的消息假设是可靠的,即每条消息都应该被确认;当一个进程接收另一个进程请求消息时,它取决于接收方的状态以及临界区的命名。有三种情况要加以区别:(1) 接收者不在临界区中,也不想进入临界区,它就向发送者发送OK消息(2)
7、接收者已在临界区中,它就不必回答,而是负责对请求队列排队(3) 接收者要进入临界区,消息时间戳对比,取小的那个a 如果来的消息的时间戳小,接收者发送OK消息b 如果接收者本身时间戳更小,接收者负责排列请求队列而不发送任何消息令牌环算法:构造一个逻辑环,设置一个令牌,令牌在环上依次传递。获得令牌后才可以决定是否进入临界区,如果离开了临界区或不打算进入临界区,则将令牌下传。不允许使用同一令牌进入第二个临界区6.试分别解释严格一致性、顺序一致性、因果一致性、PRAM一致性等几种以数据为中心的一致性模型的含义。下图中的事件序列对上述哪几种一致性模型是有效的?解答:严格一致性模型:所有共享访问事件都有绝
8、对时间顺序;顺序一致性模型:所有进程都以相同的顺序检测到所有的共享访问事件;因果一致性模型:所有进程都以相同的顺序检测到所有因果联系的事件;PRAM一致性模型:所有的进程按照预定的顺序检测到来自一个处理器的写操作,来自其他处理器的写操作不必以相同的顺序出现;图中的事件序列对因果一致性、PRAM一致性是有效的。7.一致性协议中,复制的写协议有哪几种?请简单解释。答:复制的写协议:写操作可以在多个副本上执行。包括两种类型:主动复制和基于法定数量的协议。主动复制:每个副本有一个关联的进程,该进程执行更新操作。操作被发送到每个副本。基于法定数量的协议,其基本思想是:在读或写一个复制的数据项之前要求申请
9、并获得多个服务器的允许。8.在RPC中,如果客户机在发送请求后在服务器应答消息到来之前崩溃了,将会发生什么问题?如何解决?解答:发生现象:客户机在发送请求后在服务器应答消息到来之前崩溃,其已经激活了服务器的相应计算,而客户没有等待它的结果,将遗留“计算孤儿”。清除“孤儿”方法:a) 根绝(extermination)法:客户存根发送RPC前在日志文件中记录将要执行的RPC,若客户重启则依据日志作准确清除远程计算。b) 再生(reincarnation) 法:划分时间为序号纪元(时间戳), 客户重起则广播新纪元开始,所有远程计算被终止。c) 温和再生(gentle reincarnation)法
10、:改进“再生”法,由服务器检查远程计算有无调用者,若无则远程计算被终止。d) 过期(expinration) 法:每个rpc执行前给定时间段T,rpc到期未完成的必须再申请新的T 。服务器将清除没有再申请新的T的rpc。9.分布式系统中,文件共享的语义有哪几种?阐述各自的工作原理。答:分布式系统中,文件共享的语义有Unix语义、对话语义、不可更改文件语义、事务处理语义等几种。Unix语义:当READ操作紧跟在WRITE操作后执行时,READ操作返回刚写入的值。当READ操作跟在两个紧连的WRITE操作后时,读出的值就是后一个写入的值。强调绝对时间顺序对话语义:对一个打开文件的修改仅对修改该文件
11、的进程(机器)是可见的;仅当文件关闭时,其修改才对其他进程(或机器)可见。不可更改文件语义:只有创建和读文件操作。事务处理语义:存取文件时,进程执行开始事务处理,以指示跟在其后的操作是不可分的;通过系统调用来读写文件。当此工作完成后,执行结束事务处理原语。10.一个文件在10个服务器上复制,试列举基于法定数量的协议所有允许的读团体与写团体。答:所有允许的(读团体, 写团体) 有:(1,10), (2, 9), (3, 8), (4, 7), (5, 6)11.某多计算机系统中的256个CPU组成了一个16X16的网格方阵。在最坏的情况下,消息的延迟时间有多长(以跳(hop)的形式给出,跳是结点
12、之间的逻辑距离)?答:假设路由是可选的,最长的可选路由是从网格中的一个角落到达与其相反的角落,这段路由的长度为30跳。12.举出一个例子,在这个例子中,为了真正访问实体E,需要把他的地址进一步解析成另一个地址。答:在因特网中,IP地址通常就是所谓主机地址,然而,要访问一台主机,就要将主机IP地址解析为以太网地址。14.文件更新有哪几种主要算法?简述其算法思想?答:文件更新有主拷贝复制和表决(Voting)算法两种主要算法。主拷贝复制算法: 指定一个服务器为主服务器,其它服务器为从服务器; 当要更新一个复制文件,将该更新文件送至主服务器; 在主服务器处完成修改,然后向各从服务器发命令,完成修改;
13、 容错方法:将日志写在稳定存储器。表决(Voting)算法:基本思想:在读或写一个复制文件之前要求申请并获得多个服务器的允许,并将新的版本号与文件联系起来,用以识别文件版本;读法定数(read quorum)Nr:读文件操作前必须达到的服务器数;写法定数(write quorum)Nw:更新文件前必须达到的服务器数;Nr与Nw遵循的规则:NwN/2(服务器总数的一半),NrNwN。15.说明分布式系统相对于集中式系统的优点和缺点。 从长远的角度看,推动分布式系统发展的主要动力是什么?答:相对于集中式系统,分布式系统的优点:1)从经济上,微处理机提供了比大型主机更好的性能价格比;2)从速度上,分
14、布式系统总的计算能力比单个大型主机更强;3)从分布上,具有固定的分布性,一些应用涉及到空间上分散的机器;4)从可靠性上,具有极强的可靠性,如果一个极强崩溃,整个系统还可以继续运行;5)从前景上,分布式操作系统的计算能力可以逐渐有所增加。分布式系统的缺点:1)软件问题,目前分布式操作系统开发的软件太少;2)通信网络问题,一旦一个系统依赖网络,那么网络的信息丢失或饱和将会抵消我们通过建立分布式系统所获得的大部分优势;3)安全问题,数据的易于共享也容易造成对保密数据的访问。推动分布式系统发展的主要动力:尽管分布式系统存在一些潜在的不足,但是从长远的角度看,推动分布式系统发展的主要动力是大量个人计算机
15、的存在和人们共同工作于信息共享的需要,这种信息共享必须是以一种方便的形式进行。而不受地理或人员,数据以及机器的物理分布的影响16.多处理机系统和多计算机系统有什么不同?答:共享存储器的计算机系统叫多处理机系统,不共享存储器的计算机系统为多计算机系统。它们之间的本质区别是在多处理机系统中,所有CPU共享统一的虚拟地址空间,在多计算机系统中,每个计算机有它自己的存储器。多处理机系统分为基于总线的和基于交换的。基于总线的多处理机系统包含多个连接到一条公共总线的CPU以及一个存储器模块。基于交换的多处理机系统是把存储器划分为若干个模块,通过纵横式交换器将这些存储器模块连接到CPU上。多计算机系统分为基
16、于总线的和基于交换的系统。在基于总线的多计算机系统中,每个CPU都与他自身的存储器直接相连,处理器通过快速以太网这样的共享多重访问网络彼此相连。在基于交换的多计算机系统中,处理器之间消息通过互联网进行路由,而不是想基于总线的系统中那样通过广播来发送。17.在分布式操作系统中,为什么采用微内核技术,通常微内核提供哪些服务?答:采用微内核技术的原因:1)高度模块化,每一个服务都有一个定义好的接口,每个用户都可以访问任何服务,服务与位置独立;2)高度灵活性,具有添加、删除和修改服务的功能;3)用户定制,用户可以自定义服务。微内核提供的服务有:1)进程间通信机制;2)某些内存管理功能;3)少量的底层进
17、程管理和调度;4)低层输入/输出服务18.解释透明性的含义,并举例说明不同类型的透明性。答:对于分布式系统而言,透明性是指它呈现给用户或应用程序时,就好像是一个单独是计算机系统。具体说来,就是隐藏了多个计算机的处理过程,资源的物理分布。具体类型:透明性描述存取透明性隐藏了数据表示和获取资源的具体实现位置透明性用户不必知道资源位于何处迁移透明性资源可以不改名随意移动重定位透明性用户不必知道资源是位置是否改变复制透明性用户不必知道有多少拷贝存在并发透明性多个用户可以自动的共享资源容错透明性用户不必知道系统出现错误19.应用哪些技术可以使得一个分布式系统具有可伸缩性?答:实现分布式可伸缩性,基本的三
18、种技术为:1、减少通信延迟,即使用异步通信方式,使得发送方发送请求后不必阻塞以等待答复,而是处理其他本地任务。2、分层,即将一个组件分解为几个小层。一个好的例子是DNS域名系统,它将域名分为三层,均衡了系统负载。3、 复制冗余,它能使得资源更容易就近获取,并且它能使资源分布于整个系统,均衡了负载。20.举例说明三层客户/服务器体系结构。答:此三层分为:用户接口层(接收用户请求),处理层(核心逻辑处理),数据层(返回用户所需数据)。以一个Internet搜索引擎为例,用户使用键盘,鼠标输入想要检索的信息,经过用户接口层传递给处理层,生成查询语句,然后到达数据层(即数据库)查询数据,再将查询结果返
19、回给处理层,让它对结果进行排序,生成HTML页面,最后返回给用户接口层(即浏览器)显示给用户。21.给出一个多线程客户端的例子,并给出一种构造多线程服务器的方法。答:多线程客户端例子,以网页浏览器为例:浏览器在从服务器获取HTML文件时,同时也在显示它。因为一个HTML文件可能包含文本,图像,音频,视频等文件,故当一个线程获得其中一个文件并显示它时,同时还有其它线程正从服务器读取其它文件。即一个浏览器拥有多个线程与服务器进行交互。构建多线程服务器:使用有限状态机模型,它使用非阻塞系统调用方法,可实现并行处理多个请求。对每一个接收或发送的消息都将其处理状态存储到一个表中,由多线程对其进行处理。2
20、2.什么是有状态服务器和无状态服务器,给出相应的例子,并说明有状态服务器存在的问题。答:无状态服务器,在请求之间,服务器不保存具体客户的信息,以及与客户端交互活动的有关信息。它要求每个请求必须是独立的,必须包含全文件名和文件中的偏移量,因此消息长度较长。有状态服务器,在请求之间,服务器保存客户信息以及与客户交互活动的有关信息,23.说明在移动IP 系统中,如何定位一个实体。a) 名称与地址的直接映射b) 使用标识符的两极映射24.客户-服务器模式的主要思想及优点。答:其主要思想是构造一种操作系统,它由一组协同进程组成,这组进程称为服务进程,为客户机提供服务的进程称为客户。客户和服务器都运行在相
21、同的微内核中,都以进程方式运行。一台机器可以运行多个客户、多个服务器或者两者的结合,客户-服务器模式常常以简单的请求/应答协议为基础,客户向服务器发送一个请求,请求一些服务,服务器完成后返回所要的数据或者给出一个错误代码,指出工作未完成。优点:1)简单,客户发出一个请求得到一个应答,在使用之前无需建立连接也不需要释放连接;2)有效性,协议栈比较短因而更有效。25.客户为了发送消息给服务器,它必须知道服务器的地址。试给出服务器进程编址的几种方法,并说明如何定位进程。答:方法一。机器号加进程号,内核使用机器号将消息正确地发送到适当的机器上,用进程号决定将消息发送给哪一个进程。方法二。进程选择随机地
22、址,通过广播方式定位进程,进程在大范围的地址空间中随机指定自己的标识号。在支持广播式的LAN中,发送者广播一个特殊的定位包,其中包含目的进程地址,所有的内核查看地址是不是他们的,如果是则返回消息给出网络地址,然后发送内核缓存地址。方法三。客户机运行时,使用ASCII码访问服务。客户机运行时,向名字服务器发送请求信息,名字服务器将ASCII服务器名映射成服务器地址,客户机收到给地址后,可以访问服务器。26.对于接收消息Receive原语,为什么需要缓存, 缓存的作用是什么?答:如果不适用缓存,服务器接收来的消息会被丢弃或者存在诸如服务器需要存储和管理早到来的消息这样的问题。缓存的作用就是用来统一
23、管理消息的:它定义了一种叫邮箱的数据结构,接收客户端请求的进程通知内核创建邮箱存储消息,并且指定了访问地址。当Receive原语调用是,系统内核就会提取消息并知道如何处理它。27.说明在C/S模式下解决消息可靠传输的三种方法? 答:1、重新定义非可靠的send语义。系统无法保证消息发送成功,完成可靠地通信依赖于用户。2、要求接收机器的内核给发送机器的内核发送一个确认消息。只有收到这个确认消息后发送内核释放用户进程。确认消息从一个内核传送到另一个内核,无论是客户还是服务器都看不到确认消息。3、客户在发送消息后阻塞,服务器内核不发送确认消息而是将应答作为确认消息。因此客户进程一直阻塞到应答消息到来
24、为止,如果时间太长,发送内核会重新发送请求以防止消息丢失。28.在RPC调用时,如果服务器或客户机崩溃了,各有哪些解决方法。答:如果是服务器崩溃了,用户无法区分服务器是在执行前还是执行后崩溃,解决方案如下:1)至少一次语义,指等待服务器重新启动,然后重发请求。这种方法要求不断重试直至客户收到应答消息。它保证RPC至少执行一次。2)之多一次语义,指立即放弃并报告失效。它确保RPC至多执行一次,但也可能根本没有执行;3)不作保证;4)精确一次语义;如果是客户机崩溃了,存在孤儿问题(客户已发送请求,在应答到来之前崩溃了,此时已经激活服务器中的过程并获得结果,但是没有客户在等待结果)解决方案如下:1)
25、根除,在客户存根发送RPC消息前先做日志(用来恢复崩溃),系统重新启动后,检查日志,发现孤儿存在并将其杀死;2)再生,把时间分成有序的纪元,当客户端重启时,向所有机器广播一个消息通知一个新纪元的到来,并结束所有的远程计算;3)温和再生,服务器接收到新纪元广播时,检查自己是否有远程计算,只有那些找不到所有者的远程计算终止。4)过期,每个RPC都分配一个标准时间T来完成任务,如果超时没有完成则显示分配一个数额。29.一个影响RPC执行时间的问题是消息的拷贝问题,试说明在那些环节需要拷贝,并说明减少拷贝次数的方法。答:需要消息拷贝的环节:在发送端,消息从客户存根拷贝到客户内核缓冲区,再从客户内核缓冲
26、区拷到客户接口芯片缓冲区(网卡),然后消息被拷贝到接收端的服务器接口芯片缓冲区,之后拷贝到服务器内核缓冲区,最后到达服务器存根(共5次)拷贝。此外,有时还需要拷贝参数数组。减少拷贝次数的方法:分散-集中方法(汇集发),具有分散-集中能力的网络芯片可以减少拷贝次数,他通过拼接2个或者多个内存缓冲区来组装报文。在发送端,由客户内核缓冲区生成报文消息头。由客户存根生成报文消息体,当发送时,由网络芯片组装报文。同样地,接收端将接收来的报文分解成消息体和消息头,并放入相应的缓冲区。30.在组通信中,给出组编址的的三种方式。答:1、每组分配地址,有三种方式:单播,多播,广播,发送进程将消息发送给组地址,消
27、息将会发布给所有成员2、要求发送端提供一份目的地址的显示列表;3、判定编址,消息将被发送给所有成员,每条消息包含了判定条件,如果判定条件评估为TRUE,则消息被接受,否则消息丢弃。31.用组通信方式时,举例说明消息顺序的重要性,并说明解决方法说明。答:要使组通信易于理解和使用,有两种性质是不可缺少的,首先是原子广播原语,它确保了一条消息要么被所有组内成员收到,要么没有一个成员能收到。其次是消息的顺序。例如:有四台机器每台机器有一个进程,进程1、2、3、4属于同一个进程组,进程0与进程4同时想给该组发送一条消息,当两个进程竞相访问LAN时,在网络中消息传送的顺序是无法确定的,可能是0-1, 4-
28、0,4-1,4-3,0-3,0-4。这样进程1先收到0再收到4,进程3先收到进程4在收到0,则1与3之间可能会出现不一致。解决方法:1)全局时间顺序,保证立即发送所有消息并让他们保持发送顺序,该方法能将消息精确的按照发送顺序传递到目的地。2)一致时间顺序,若有两条消息A和B,以很少的时间间隔发送,系统先取其中一个作为第一个发送给所有组内成员,然后再取下一个发送给组内成员,这种方法保证组内成员按照统一的顺序收到了消息,但是这个顺序可能并不是发送消息的顺序。32.实现分布式系统同步的复杂性表现在哪几个方面?说明先发生关系,并说明在LAMPORT算法中怎样给事件分配时间。答:分布式算法有如下性质:1
29、)相关信息分散在多台机器上;2)进程决策仅依赖于本地信息;3)系统中单点故障应避免;4)没有公用时钟和其他精确的全局时间资源存在。前三点说明在一处收集所有信息并对他们进程处理是不可接受的,左后一点说明在分布式系统获得时间上的一致并不是容易的。LAMPORT算法的解决方案是直接使用先发生关系,每条消息都携带发送者的时钟以指出其发送的时间,当消息到达时,接受者的时钟比消息发送者时钟小,就立即将自己的时钟调到比发送者的时间大1或更多的值,我们给出一种测量时间的方法,使得对每一事件a,在所有进程中都认可给它一个时间值C(a),在给事件分配时间时要遵循一下规则:1)在同一进程中a发生在b之前则C(a)C
30、(b);2)若a和b分别代表发送消息和接收消息,则C(a)C(b);3)对所有事件a和b,C(a)C(b)33.有三个进程分别运行在不同的机器上,每个机器都有自己的时钟并以不同且不变的速率工作(进程1的时钟嘀嗒了6下时,进程2的时钟嘀嗒了8下,而进程3的时钟嘀嗒了10下)。举例说明进程之间消息传递中违反先发生关系的情况,并说明如何用Lamport方法解决。答:如右图所示:三个进程进程2给进程1发送消息C和进程1给进程0发送消息D违反了先发生关系,消息到达的时间小于消息发送的时间。Lamport解决方案直接使用先发生关系,每条消息携带发送者的时钟以指出其发送的时刻,当消息到达时,接受者时钟若比发
31、送者时钟小,就立即将自己的时钟调到比发送者大1或者更多的值(这里使用值 “1”)。进程1在收到消息C后将56调整为61,发送消息D的时钟将是69,;进程0在收到消息D后将54调整为7034.说明RICART和AGRAWALE分布式互斥算法;假定A和B是相互独立的两个临界区,进程0要进入A,进程1要进入B,R-A分布式互斥算法会导致死锁吗?说明理由。答:RICART和AGRAWALE算法要求系统中所有事件都是全序的,也就是说,对任何事件组消息,哪个先发必须无歧义,算法如下:当一个进程想进入临界区时,他要建立一个包括他要进入的临界区的名字、处理机号、当前时间的消息,然后将消息发送给所有其他进程,也
32、包括发送给自身,当一个进程接收另一个进程消息时,它取决于接受方的状态以及临界区的名字有三种情况:1)接受者不在临界区,也不想进入临界区,他就向发送者发送OK消息;2)接受者已经在临界区,它不必回答,而是负责对请求队列排队;3)接收者要进入临界区,但是还没有进入,它要负责将发来的消息和它发送给其他进程的时间戳对比,取小的那个。如果来的消息时间戳小,接收者发送OK消息,否则接收者负责排列请求队列而不发送任何消息。在发送完允许进入临界区的请求后,进程将不再做任何事,仅等待所有的允许消息,一旦得到允许,它就进入临界区。它从临界区退出时,向队列中所有进程发送OK消息,并将它从队列中删除。该算法可能导致死
33、锁,例如:A和B是相互独立的两个临界区,进程0要进入A,进程1要进入B,而此时进程0在B中,进程1在A中就会进入死锁。35.举例说明用私有工作空间实现事务处理时的基本思想。答:在进程开始一个事务时给它分配一个包含了所有需要访问的文件的私有工作空间,在事务提交或终止前,所有的读写操作都在私有空间而不是真正的文件系统中进行,存在的问题是所有内容都拷贝到私有空间,代价难以承受。优化方法是:1)私有空间中只包含一个指向父辈工作区的指针,当事务处于最顶层时,它的工作区是真正的文件系统。2)使用索引节点,索引是一个与判断文件所在的磁盘块位置有关的数据库,给方法不将全部文件考入私有空间,而只是拷贝索引。36
34、.说明在分布式系统中实现原子性提交的两阶段提交协议的基本思想及其优点。答:两阶段提交协议的基本思想是有一个进程作为协调者,通常是执行事务的进程。在准备提交阶段,协调者向日志中写入Prepare,然后向所有服务器发送准备提交消息,服务器接收到消息后,检查自己是否准备提交,如果是就向日志中写入Ready,然后向协调者发送准备好消息。在提交阶段,协调者接收所有响应后决定提交还是撤销,如果所有服务器都准备提交,则提交事务;否则撤销事务。无论如何协调者都会写入日志,并发送决定消息,服务器接到消息后也将结果写入日志,并发送结束消息,完成整个过程37.举例说明为什么使用集中式的死锁检测算法会产生假死锁,并给
35、出一种解决办法。 答:集中式的死锁检测算法每台机器的资源图中只包含它自己的进程和资源,协调者节点保存整个系统(所有资源图的集合)的资源图。当机器资源图发生变化时相应的消息发送给协调者以提供更新,当协调者检测到环路时,它终止一个进程以解决死锁。如上图圆表示进程,方框表示资源,开始时如同a,b,c所示,过来一段时间,B释放R并请求T,这是一个合法的操作,机器0向协调者发送一条消息申明它释放资源R,机器1向协调者发送一条消息声明进程B正在等待它的资源T,不幸的是机器1的消息先到达协调者,导致生成资源图如图d所示。协调者得出错误的结论死锁存在,这种情况称为假死锁。解决办法是:使用Lamport算法以提
36、供全局统一的时间,对协调者收到的消息按照时间戳排序38.举例说明分布式死锁检测方法Chandy-Misra-Has算法的思想以及如何解除死锁。答:算法允许进程一次请求多个资源,例如下图所示的资源图。图中只给出进程,每条弧穿过一个资源,当某个进程等待资源时,生成一个探测消息(阻塞的进程,发送消息的进程,接收消息的进程)发送给占用资源的进程。消息到达后,如果接受者也在等待其他进程占用的资源,则跟新探测消息,第一个字段保持不变,第二个字段改为当前的进程号,第三个字段改为等待的进程号,跟新后的探测消息发送给等待的占有资源的进程。如果存在多个进程则要发送多个不同的消息。如果消息又回到最初的发送者说明存在
37、一个又死锁的环路系统解除死锁的方法:1)令最初发送探测消息的进程自杀。如果多个进程同时阻塞同时发送探测消息,那么每个进程都会发现死锁并因此自杀。2)将每个进程的标识符添加到探测消息的末尾,将编号最大的进程中止或者发送消息请求的进程自杀。多个进程发现同一环路会选择同一个牺牲者。39.说明wait-die和wound-wait分布式死锁预防方法。事务时间戳为50的进程申请事务时间戳为100的进程占用的资源。按以上两种策略,结果会如何? 答:(时间戳越小的进程越是年老)wait-die死锁预防算法:当较老的进程请求年轻进程所占有的资源时,老进程只能等待;如果年轻进程请求老进程占有的资源时,年轻进程会
38、被终止。Wound-wait死锁预防算法:当老进程请求年轻进程所拥有的资源时,老进程抢占年轻进程的资源,年轻进程被终止;当年轻进程请求老进程所拥有的资源时,年轻进程等待。40.说明发送者发起的分布式启发算法和接收者发起的分布式启发算法及各自的主要缺点。答:发送者发起的分布式启发算法:当创建进程时,创建进程的机器将对一个随机选取的机器发生询问,询问它的负载是否低于某个阈值,如果是,将发送进程否则将选择另一台机子发送询问。如果在N次询问内还没有找到合适的机器,算法停止新进程将在创建它的机器上运行。该算法的缺点是:在负载十分严重的情况下,所有机器都会不停的毫无意义的向其他机器发送询问,想找到一台愿意
39、接受更多工作的机器,在这种情况下,几乎没有进程会被减轻负载,但却会引起相当可观的额外开销。接收者发起的分布式启发算法:当一个进程结束时,系统将检查自己是否有足够的工作可做,如果没有,将随机向一台机器申请工作,如果那台机器没有要给予的工作,系统将继续询问第二,第三台机器,如果询问N台机器都没有申请到工作,系统将暂停申请开始处理系统队列中一个等待进程,当这个进程结束后,开始下一轮的申请;如果系统无事可做,则将进入空闲状态,一定时间后从新开始申请。给算法的缺点是:系统在无事可做时会造成相当大的询问负载。41.说明主机后备容错方法的主要思想,在主机崩溃后存在的问题及解决方法。答:主机后备容错方法的主要
40、思想是在任何时候,服务器都由主机完成所有工作,如果主机失效,则由后备机接管工作。在RPC过程中,主机崩溃后产生的情况如下:1)主机在执行任务前崩溃,则没有损失,客户端会超时重发直到连上后备机,任务至执行一次;2)主机在执行任务后,向后备机发送跟新消息前崩溃,此时后备机接管,消息再次到来,任务被执行2次;3)主机在后备机执行任务后自己发送相应消息前崩溃,则任务被执行3次,一次由主机完成,一次由后备机完成,一次由后备机接管时完成。如果请求消息带有序号,则可以减少任务执行次数。42.多处理机系统中,fail-silent类型和Byzantine类型处理机错误各需要至少多少个处理机才能满足要求?说明理
41、由。答:fail-silent类型处理机错误是指失效的处理机只是停止运行,对接下来的输入不做反应也不产生进一步的输出,即宣布它不在工作了。对于这样的错误,需要K+1个这样的处理机以满足K容错要求,因为若K个处理机停止工作,那么剩下的那个处理机继续工作。Byzantine类型的错误是指出错的处理机继续运行,产生问题的错误答案,并可能和其他出错的处理机一起“恶意”地工作。对于这类错误,那么至少需要2K+1个处理机才能满足K容错要求,因为出错的处理机仍然运行并发出错误或随机应答,最坏情况下,K个失效处理器偶然产生同样的应答,剩下K+1个未出错的处理机也将产生相同应答,因此客户或者表决器只要相信大多数
42、应答就可得到正确的结果。43.举例说明Lamport等人提出的算法是如何解决Byzantine将军问题的。答:Lamport等人设计了一种递归算法可在特定条件下解决这一问题。例如:N = 4(有四个将军),M = 1(其中有一个叛徒),对这样的参数,参数运行四步。第一步,每个将军发送可靠的消息给其他所有的将军,声明自己真实的军队人数,忠诚的将军声明的是真值,叛徒则可能对其他每个将军都撒一个不同的谎。如图a;第二步,把第一步声明的结果组成向量形式,如图b;第三步,每个将军把图b中各自的向量传递给其他每一个将军,这里叛徒再一次撒谎,使用了12个新值。AJ。如图c;第四步,每个将军检查所有新接收向量
43、的每一个元素,若某个值占多数则把该值放入结果向量中,44.在实时分布式系统中,动态调度和静态调度的含义是什么?比较动态调度和静态调度算法。答:动态调度是指在程序运行期间进行调度决定下面运行哪一个进程。静态调度是指在系统开始运行前就已经进行,算法的输入包含了所有任务的列表及它们各自的运行时间。两者比较如下:1)静态调度适合时间触发系统的设计,动态调度适合事件触发系统的设计;2)在资源利用方面动态调度比静态调度有更大潜力;3)若给定足够的处理能力,对静态系统一个最优或次优的调度可以事先获得,动态系统在运行期间无法承受复杂的调度计算花费。45.说明使用主动复制方法的容错的主要思想,并给出以下TMR系
44、统可应付多少个故障元件(设备和表决器),举例说明可屏蔽掉的最坏的情况。答:主动复制是使用物理冗余来提供容错的一种著名的技术,这种方法也适用于电子电路的容错。主动复制的一个主要问题是需要复制多少份才合适,这取决于要达到的容错量。如果系统在k个部件出错时仍能达到系统设计的要求而正常工作,那么这个系统称为是k级容错的。如fail-slient类型,有k+1个这样的部件可以满足k级容错,若k个处理机简单停止工作,那么可以使用剩下的那个处理机的结果;如byzantine类型,至少需要2k+1个部件才可以满足k级容错,最坏情况下k个失效的处理机偶然(甚至有意)地产生相同的应答,然而剩下的k+1个未出错的处
45、理机也将产生相同的应答,因此客户机可以根据大多数的应答得到正确结果。如上图中的TMR系统是每个设备复制三次,每级电路都设置三个表决器,每个表决器都有三个输出和一个输入,若两个或者三个输入相同,输出则等于输入,因此它可以处理6个失效的元件。Eg:第一行的元件全部失效的情况。46.简述三模冗余的基本思想,并举例说明三模冗余能否处理Byzabtine故障。答:三模冗余是使用物理冗余来提供容错的技术,是使用主动复制方法的容错。在电子电路中有设备A、B、C,然后每个设备复制三次,结果就是每级电路都设置了三个表决器,每个表决器有三个输入和一个输出,若两个或者三个输入相同,输出则等于输入,若三个输入各不相同
46、,输出就是不定值,这种设计就是TMR。若处理机是Byzabtine类型的,出错的处理机仍然工作并发出错误的随机的应答,那么至少需要2k+1个处理机才能达到k级容错。最坏情况下k个失效的处理机偶然(甚至有意)地产生相同的应答,然而剩下的k+1个未出错的处理机也将产生相同的应答,因此客户机可以根据大多数的应答得到正确结果。三模冗余在每组中有一个部件出现Byzabtine故障时可以处理,而一组中有两个甚至三个同时出现Byzabtine故障则不能处理。47.举例说明采用图论确定性算法进行处理机分配的实现方法。答:整个系统可以表示为一张带权图,每个节点表示一个进程,每条边表示两个进程之间的通信量。从数学
47、角度看,整个问题就变成了如何根据特定的限制将图划分成k(k为系统中cpu数量)个不相连的子图(如每个子图的总cpu和内存需求在一定限制内)。对于每种满足限制的解决方案,子图内部的边意味着机器内部的通信,可以忽略。从一个子图连向另一个子图的边表示网络通信。该算法的目标就是在满足限制下,找到一种划分方式使网络通信量最小。下图表示了图的两种划分:方案A:通信量=(3244)(2852)30方案B:通信量=(3244)(3552)2848.举例说明时间触发和事件触发的区别。答:事件触发是指,当一个重要的外部事件触发时,它被传感器察觉到,并导致与传感器相连的cpu得到一个中断请求。时间触发是指,在每隔固定的时间t后产生一次时钟中断,对选定的传感器进行采样,并且驱动(特定的)执行机构。举例,考虑一个100层楼的电梯控制器设计。假定电梯正在60层安静的等待顾客,有人在一层按下按钮。就在100毫秒后,另一人在100层按下按钮。在事件触发系统中,第一次按钮产生一个中断,将使电梯启动下行,就在他做出下行决定后,第二个按下按钮的事件到来,因此第二个事件被记录下来以作将来的参考,但电梯还是继续下行。若考虑时间触发系统,没500毫秒采样一次。若两次按下按钮都在一次采样周期中出现,控制器就不得不进行决定,例如按最近用户优先原则,此时电梯将上行。由以上
限制150内