并行体系结构(陈国良版)课后答案.pdf
《并行体系结构(陈国良版)课后答案.pdf》由会员分享,可在线阅读,更多相关《并行体系结构(陈国良版)课后答案.pdf(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 1指导思想指导思想要求学生理解高端并行计算机系统设计技术,高端MPP、DSM、CLUSTER 等大规模并行计算机的关键设计理论和实现技术,包括互连网络技术、存储架构和高可用技术等。为此,必须用适量的作业、习题,启发学生独立思考以及熟练掌握一些基础知识习题设计计划和基本技能。2 2作业安排作业安排本教材每一章都附有大量的习题,根据教学进度和学时,合理选择书上习题,以达到进一步加深理解课堂讲授的内容。每一章讲授结束,收一次作业,给出成绩,并作一次集体答疑,讲解作业中的共性问题。作业成绩记入总成绩内。第一章 绪论什么是并行计算机答:简单地讲,并行计算机就是由多个处理单元组成的计算机系统,这些处理
2、单元相互通信和协作,能快速高效求解大型的复杂的问题。简述 Flynn 分类法:答:根据指令流和数据流的多重性将计算机分为:】1)单指令单数据流 SISD2)单指令多数据流 SIMD3)多指令单数据流 MISD4)多指令多数据流 MIMD简述当代的并行机系统答:当代并行机系统主要有:1)并行向量机(PVP)2)3)对称多处理机(SMP)4)大规模并行处理机(MPP)5)6)分布式共享存储(DSM)处理机7)工作站机群(COW)为什么需要并行计算机答:1)加快计算速度2)提高计算精度;3)满足快速时效要求4)进行无法替代的模拟计算简述处理器并行度的发展趋势答:1)位级并行2)指令级并行3)线程级并
3、行简述 SIMD 阵列机的特点.答:1)它是使用资源重复的方法来开拓计算问题空间的并行性。2)所有的处理单元(PE)必须是同步的。3)阵列机的研究必须与并行算法紧密结合,这样才能提高效率。4)阵列机是一种专用的计算机,用于处理一些专门的问题。简述多计算机系统的演变答:分为三个阶段:1)1983-1987 年为第一代,代表机器有:Ipsc/1、Ameteks/14等。2)1988-1992 年为第二代,代表机器有:Paragon、Intel delta 等。3)1993-1997 年为第三代,代表机器有:MIT 的 J-machine。简述并行计算机的访存模型答:1)均匀存储访问模型(UMA)2
4、)非均匀存储访问模型(NUMA)3)全高速缓存存储访问模型(COMA)4)高速缓存一致性非均匀访问模型(CC-NUMA)简述均匀存储访问模型的特点答:1)物理存储器被所有处理器均匀共享。2)所有处理器访问任何存储字的时间相同。3)每台处理器可带私有高速缓存。4)外围设备也可以一定的形式共享。简述非均匀存储访问模型的特点答:1)被共享的存储器在物理上分布在所有的处理器中,其所有的本地存储器的集合构成了全局的地址空间。|2)处理器访问存储器的时间不一样。3)每台处理器可带私有高速缓存,外备也可以某种的形式共享。第二章 性能评测使用 40MHZ 主频的标量处理器执行一个典型测试程序,其所执行的指令数
5、及所需的周期数如表所示。试计算执行该程序的有效CPI、MIPS 速率及总的 CPU 执行时间。解:CPI=total cycles/total instructions=(45000*1+32000*2+15000*2+8000*2)/(45000+32000+15000+8000)=MIPS=时钟频率/(CPI*106)=(40*106)/*106)=CPU 执行时间=total cycles/时钟频率=欲在 40MHZ 主频的标量处理器上执行20 万条目标代码指令程序。假定该程序中含有4 种主要类型之指令,各指令所占的比例及CPI 数如表所示,试计算:在单处理机上执行该程序的平均CPI。由
6、所得结果,计算相应的MIPS 速率。解:(1)CPI=1*60%+2*18%+4*12%+8*10%=(2)MIPS=时钟频率/(CPI*106)=(40*106)/*106)=2.1 已知 SP2 并行计算机的通信开销表达式为:t(m)=46+()m,试计算:渐近带宽 r=m12半峰值信息长度=提示:to=46s解:(1)渐近带宽 r=1/=S(2)半峰值消息长度 m1/2=to*r=46us*S=并行机性能评测的意义。答:意义有:1)发挥并行机长处,提高并行机的使用效率。2)减少用户购机盲目性,降低投资风险。3)改进系统结构设计,提高机器的性能。4)促进软/硬件结合,合理功能划分。5)优化
7、“结构-算法-应用”的最佳组合。6)提供客观、公正的评价并行机的标准。如何进行并行机性能评测答:1)机器级性能评测:CPU 和存储器的某些基本性能指标;并行和通信开销分析;并行机的可用性与好用性以及机器成本、价格与性/价比。2)算法级性能评测:加速比、效率、扩展性。3)程序级性能评测:Benchmark。简述 Gustafson定律的出发点答:1)对于很多大型计算,精度要求很高,即在此类应用中精度是个关键因素,而计算时间是固定不变的。此时为了提高精度,必须加大计算量,相应地亦必须增多处理器数才能维持时间不变。2)除非学术研究,在实际应用中没有必要固定工作负载而计算程序运行在不同数目的处理器上,
8、增多处理器必须相应地增大问题规模才有实际意义。已知一程序可并行代码占比例为80%,将其在有 10 个处理器的系统中运行,求其加速比并求其极限加速比并分析其结构带来的影响解:加速比=1/(20%+80%/10)=1/+=。极限加速比,即处理器个数无穷大的时候呈现的加速比=1/20%=5。这个极限加速比,换个角度说是,Amdahl 定律在很长一段时间影响了人们对开发并行计算机的信心,对于本例,因为就算你把处理器做到无穷也只能得到5 倍的加速比,同时有一点更明显,就是处理器数目增加到一定程度后,加速比的增长非常缓慢。简述影响加速的因素答:1)求解问题中的串行分量。2)并行处理器所引起的额外开销。:3
9、)加大的处理器数超过的算法的并发程度。为什么增加问题规模可以在一定程度提高加速答:1)较大的问题规模可提高较大的并发度。2)额外开销的增加可能慢于有效计算的增加。3)算法中串行分量的比例不是固定不变的。进行可扩放行研究的主要意义答:1)确定解决某类问题用某类并行算法和某类并行体系结构结合,可以有效的利用大量的处理器。2)对于运行于某种体系结构的并行机的某种算法当移到大规模处理机上的性能。3)对于某类固定规模的问题,确定在某类并行机上的最优处理器数目和最大的加速比。4)用于指导改进并行算法和并行体系结构,以使并行算法能尽可能充分利用可扩充的。大量的处理器。第三章 互连网络对于一颗 K 级二叉树(
10、根为 0 级,叶为 k-1 级),共有 N=2k-1 个节点,当推广至 m-元树时(即每个非叶节点有 m 个子节点)时,试写出总节点数N 的表达式。答:!推广至 M 元树时,k 级 M 元树总结点数 N 的表达式为:N=1+m1+m2+.+m(k-1)=(1-mk)*1/(1-m);二元胖树如图所示,此时所有非根节点均有2 个父节点。如果将图中的每个椭圆均视为单个节点,并且成对节点间的多条边视为一条边,则他实际上就是一个二叉树。试问:如果不管椭圆,只把小方块视为节点,则他从叶到根形成什么样的多级互联网络答:8 输入的完全混洗三级互联网络。四元胖树如图所示,试问:每个内节点有几个子节点和几个父节
11、点你知道那个机器使用了此种形式的胖树答:每个内节点有 4 个子节点,2 个父节点。CM-5 使用了此类胖树结构。试构造一个 N=64 的立方环网络,并将其直径和节点度与N=64 的超立方比较之,你的结论是什么答:AN=64 的立方环网络,为 4 立方环(将4 维超立方每个顶点以4 面体替代得到),直径d=9,节点度 n=4BN=64 的超立方网络,为六维超立方(将一个立方体分为8 个小立方,以每个小立方作为简单立方体的节点,互联成6 维超立方),直径 d=6,节点度 n=6一个 N=2k 个节点的 de Bruijin 网络如图所示,令ak1ak2ak3。a1a0,是一个节点的二进制表示,则该
12、节点可达如下两个节点:ak2ak3。a1a00,ak2ak3。a1a01。试问:该网络的直径和对剖宽度是多少答:N=2k 个节点的 de Bruijin 网络 直径 d=k 对剖宽带 w=2(k-1)¥一个 N=2n 个节点的洗牌交换网络如图所示。试问:此网络节点度=网络直径=网络对剖宽度=答:N=2n 个节点的洗牌交换网络,网络节点度为=2,网络直径=n-1,网络对剖宽度=4一个 N=(k+1)2k 个节点的蝶形网络如图所示。试问:此网络节点度=网络直径=网络对剖宽度=答:N=(k+1)2k 个节点的蝶形网络,网络节点度=4,网络直径=2*k,网络对剖宽度=2k对于如下列举的网络技术,用体系
13、结构描述,速率范围,电缆长度等填充下表中的各项。(提示:根据讨论的时间年限,每项可能是一个范围)答:网络技术Myrinet网络结构.带宽200MB/秒800Mbps铜线距离光纤距离25m500m专用机群互联网络HiPPI用于异构计算机和其外设的组网SCI?300m10km25m250Mbps8Gbps50m可扩展一致性接口,通常独立于拓扑结构多处理器和其外围设备之间,100Mbps800直连结构主要应用于因特网主干线中Mbps?10km光纤通信ATM25Mbps10GbpsFDDI采用双向光纤令牌环,所有结点联接在该环中如图所示,信包的片0,1,2,3 要分别去向目的地 A,B,C,D。此时片
14、0 占据信道 CB,片 1 占据信道 DC,片 2 占据信道 AD,片 3 占据信道 BA。试问:1)这将会发生什么现象100-200Mbps100m;2KM2)如果采用 X-Y选路策略,可避免上述现象吗为什么答:1)通路中形成环,发生死锁2)如果采用 X-Y策略则不会发生死锁。因为采用X-Y策略时其实质是对资源(这里是通道)进行按序分配(永远是x 方向优先于 y 方向,反方向路由是y 方向优先于 x 方向),因此根据死锁避免的原则判断,此时不会发生死锁。在二维网孔中,试构造一个与X-Y选路等价的查表路由。答:所构造路由表描述如下:1)每个节点包括两张路由表x 表和 y 表2)每个节点包含其以
15、后节点信息,如节点【1,2】x 表内容为:【2,2】【3,2】y 表内容为:【1,3】选路方法:节点路由时进行查表:先查x 表即进行 x 方向路由,如果查表能指明下一跳方向则直接进入下一跳。如果不能则继续查y 表,直到到达目的地。)第四章 对称多处理机系统参照图,试解释为什么采用 WT 策略进程从P2迁移到P1时,或采用 WB 策略将包含共享变量 X 的进程从P1迁移到P2时,会造成高速缓存的不一致。处理器P1P2P1P2P1P2高速缓存XXXXX总线共享存储器XXX迁移之前写通过写回图 进程迁移所造成的不一致性答:采用 WT 策略进程从P2迁移到P1后,P2写共享变量 X 为 X,并且更新主
16、存数据为X,此时P1共享变量值仍然为 X,与P2和主存 X不一致。采用 WB 策略进程从P1迁移到P2后,P1写共享变量 X 为 X,但此时P2缓存与主存变量值仍然为X,造车不一致。n1,b1=b2,且替换策略用 FIFO 来代替 LRU,试问包含性是否还是自然满足如果替换策略是随机替换呢答:如果采用 FIFO 替换策略包含性自然满足,因为L1 和 L2 都是 2 路组相联,FIFO 保证了L1 与 L2 在发生替换时会换出相同的缓存块,维护了包含性。如果采取随机替换策略,存在L1 与 L2 替换不是相同块的情况,故不满足包含性。,4.7 针对以下高速缓存情况,试给出一个使得高速缓存的包含性不
17、满足的内存存取序列L1 高速缓存容量 32 字节,2-路组相联,每个高速缓存块 8 个字节,使用 LRU 替换算法;L2 高速缓存容量 128 字节,4-路组相联,每个高速缓存块 8 个字节,使用 LRU 替换算法。答:假设 m1、m2、m3 块映射到一级 Cache 和二级 Cache 的同一组中,考虑如下内存存取序列 Rm1,Rm2,Rm1,Rm3,由 LRU 替换算法知道,当 Rm3执行后,L1 中被替换出的是 m2,L2 中被替换出的是 m1,此时 m1 块在 L1 却不在 L2 中,不满足包含性。4.84.9在中关于分事务总线的讨论中,依赖于处理器与高速缓存的接口,下面情况有可能发生
18、:一个使无效请求紧跟在数据响应之后,使得处理器还没有真正存取这个高速缓存块之前,该高速缓存块就被使无效了。为什么会发生这种情况,如何解决答:考虑如下情景:SMP 目录一致性协议中,核1 读缺失请求数据块 A,主存响应请求传送数据块 A 给核 1,同时核 2 对数据块 A 进行写操作,到主存中查得核 1 拥有副本,向核 1发使无效请求。如此,一个使无效请求紧跟在数据响应之后。解决方法,可以使每个核真正存取高速缓存块后向主存发回应,然后再允许其它对此块操作的使无效或其它请求。4.10 利用 LL-SC 操作实现一个 Test&Set操作。答:Test&Set:ll reg1,location/*L
19、oad-locked the location to reg1*/bnz reg1,lock/*if locatin was locked,try again*/mov reg2,1/*set reg2 1*/sc location,reg2/*store reg2 conditional into location*/4.114.12在 4.7.4 部分描述具有感觉反转的路障算法中,如果将Unlock 语句不放在 if 条件语句的每个分支中,而是紧接放在计数器增1 语句后,会发生什么问题为什么会发生这个问题答:再进入下一个路障时可能会发生计数器重新清0 现象,导致无法越过路障。考虑如下情景:
20、第一次进入路障时,最后两个进入路障的进程分别为1、2。假设最后进入路障的进程为 2 进程,2 进程执行共享变量加一操作并解锁。然后2 进程执行一条 if 条件语句,此时由于某种原因换出或睡眠,而此时共享变量的值已经为p。如果 1 进程此时正执行 if 条件语句,则清零计数器,设置标志,其它进程越过路障。到目前为止没有出现问题,问题出现在下一次进入路障。进程再一次进入路障,此时会执行共享变量加一操作。如果此时2 进程被换入或被唤醒,会重新清零共享变量,使之前到达路障的进程的加一操作无效,导致无法越过路障。第五章 大规模并行处理机系统简述大规模并行处理机的定义,原理和优点答:并行处理机有时也称为阵
21、列处理机,它使用按地址访问的随机存储器,以单指令流多数据流方式工作,主要用于要求大量高速进行向量矩阵运算的应用领域。并行处理机的并行性来源于资源重复,它把大量相同的处理单元(PE)通过互联网络(ICN)连接起来,在统一的控制器(CU)控制下,对各自分配来的数据并行地完成同一条指令所规定的操作。PE 是不带指令控制部件的算术逻辑运算单元。并行处理机具有强大的向量运算能力,具有向量化功能的高级语言编译程序有助于提高并行处理机的通用性,减少编译时间。并行处理机有两种基本结构类型,请问是哪两种并作简单介绍。答:采用分布存储器的并行处理结构和采用集中式共享存储器的并行处理结构。分布式存储器的并行处理结构
22、中,每一个处理机都有自己的存储器,只要控制部件将并行处理的程序分配至各处理机,它们便能并行处理,各自从自己的存储器中取得信息。而共享存储多处理机结构中的存储器是集中共享的,由于多个处理机共享,在各处理机访问共享存储器时会发生竞争。因此,需采取措施尽可能避免竞争的发生。简单说明多计算机系统和多处理机系统的区别。答:他们虽然都属于多机系统但是他们区别在于:(1)多处理机是多台处理机组成的单机系统,多计算机是多台独立的计算机。(2)多处理机中各处理机逻辑上受同一的OS 控制,而多计算机的 OS 逻辑上独立.(3)多处理机间以单一数据,向量。数组和文件交互作用,多计算机经通道或者通信线路以数据传输的方
23、式进行。(4)多处理机作业,任务,指令,数据各级并行,多计算机多个作业并行。举例说明 MPP 的应用领域及其采用的关键技术。答:全球气候预报,基因工程,飞行动力学,海洋环流,流体动力学,超导建模,量子染色动力学,视觉。采用的关键技术有VLSI,可扩张技术,共享虚拟存储技术。$多处理机的主要特点包括答:(1)结构的灵活性。与SIMD 计算机相比,多处理机的结构具有较强的通用性,它可以同时对多个数组或多个标量数据进行不同的处理,这要求多处理机能够适应更为多样的算法,具有灵活多变的系统结构。2)程序并行性。并行处理机实现操作一级的并行,其并行性存在于指令内部,主要用来解决数组向量问题;而多处理机的并
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 体系结构 陈国良版 课后 答案
限制150内