计算机系统结构第二版张晨曦考前资料大题大全看完必过.doc
《计算机系统结构第二版张晨曦考前资料大题大全看完必过.doc》由会员分享,可在线阅读,更多相关《计算机系统结构第二版张晨曦考前资料大题大全看完必过.doc(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1. 将计算机系统中某一功能的处理速度加快15倍,但该功能的处理时间仅占整个系统运行时间的40%,则采用此方法改进后,能使整个系统的性能提高多少?注意:计算的是系统的加速比。用的是系统改进前的时间/系统改进后的时间。引入两个概念:可改进比例:Fe部件加速比:Se 公式是推倒出来的。解:由题意知:Se=15,Fe=40%=0.4根据Amdahl定律可知:Sn=采用此方法改进后,能使整个系统的性能提高原来的1.6倍2. 假设FP指令的比例为25%,其中,FPSQR占全部指令的比例为2%,FP操作的CPI为4,FPSQR操作的CPI为20,其他指令的平均CPI为1.33。现有两种改进方案,第一种是把
2、PFSQR操作的CPI减至2,第二种是把所有FP操作的CPI减至2,试比较两种方案对系统性能的提高程度。(求得是系统的平均时钟周期CPI)注意几个公式:执行程序所需的时钟周期数:平均时钟周期*指令条数这个公式改进任何一个参数都可以提高CPU性能,但是这些参数往往是互相关联的,很难做到能单独的改进某一个参数指标而不影响其他的两个指标。所以用到了CPU时钟周期数。解:没有改进之前,每条指令的平均时钟周期CPI为:(1) 采用第一种方案:所有FP操作的CPI由CPIfp=4减至CPIfp=2,则整个系统的平均时钟周期为:CPI1=CPI-(CPIfp-CPIfp)x25%=2-(4-2)x25%=1
3、.5(2) 采用第二种方案:将FPSQR操作的CPI由20减至2,则整个系统的指令的平均时钟周期数为:CPI2=CPI-(CPIfpsqr-CPIfpsqr)x2%=2-(20-2)x2%=1.64综上:从降低整个系统的指令平均时钟周期程度来看,第二种方案优于第一种方案。课后题:3.将计算机系统中某一功能的处理速度加快20倍,但该功能的处理时间仅占整个系统运行时间的40%,则采用该方法改进后,能使整个系统的性能提高多少?4.假设浮点数指令(FP)的比例为30%,其中浮点数平方根的指令(FPSQR)占全部指令的4%,FP操作的CPI为5,FPSQR操作的CPI 为,其他指令的平均CPI 为1.2
4、5。现在有两种改进方案。第一种是把FPSQR操作的CPU减至3。第二种改进方案是把所有FP操作的CPI减至3。试比较两种方案对系统性能的提高。第二章大题1. 流水线的性能指标吞吐率:TP(Through Put):是指单位时间内流水线所完成的任务数量或输出结果的数量以上是在各段执行时间都相等的情况下的吞吐率。各段时间不相等时,流水线的最大吞吐量与实际吞吐率都有时间最长的段决定,这个段就成了这个流水线的瓶颈。这是瓶颈段一直处于忙碌状态,而其他各段在许多时间内都是空闲的硬件使用率低消除瓶颈段的方法:(1) 细分瓶颈段把瓶颈段细分成三个子流水功能段,从而使流水线各段的处理时间都相等。串行执行。(2)
5、 重复设置瓶颈段根据前面段的多少设置一样多的瓶颈段,然后达到并行执行的效果,当然也要增加硬件设施。2. 流水线的加速比是指使用顺序处理一批任务所用的时间与流水线使用流水处理方式处理同一批任务所用的时间之比3. 流水线的效率即流水线设备的利用率。它是指流水线中设备实际使用时间与整个运行时间的比值每个段的效率:例3.1要在图3.3所示的静态流水线上计算,流水线的输出可以直接返回输入端或者暂存于相应的流水线寄存器中,试计算其吞吐率、加速比、与效率。解:首先选择合适的流水线工作算法。对于本题的算法如下:(1) 先计算加法a=A1+B1b=A2+B2c=A3+B3d=A4+B4(2) 再计算乘法e=ax
6、bf=cxd(3) 最后计算结果g=exf画出时空图(1) 由图可知:它在18个的时间中,给出了7个结果,所以吞吐率为:(2) 如果不用流水线,由于一次求与需6,一次求积需4,则产生上述7个结果共需要(4x6+3x4)=36所以加速比为(3) 该流水线的效率可以由阴影区的面积与8个段总时空区的面积的比值求得 例3.2有一条动态多功能流水线由5段组成,如图所示。加法用1.3.4.5段,乘法用1.2.5段。且第四段的时间为2t,其余各段时间为t,流水线的输出可以直接返回输入端或者暂存于相应的流水线寄存器中。若在该流水线计算,试计算其吞吐率、加速比、与效率。解:首先应该选择适合流水线工作的算法。对于
7、本题算法如下: 先计算:再计算:最后计算:画出时空图如下图所示: (1) 由图所示,它在16个t的时间中给出了7个结果,所以吞吐率为:(2) 如果不使用流水线,由于求一次积需3t,一次求与需5t,则产生上述7个结果共需要(4x3+3X5)t=27t。所以加速比为:(3) 该流水线的效率可由阴影区的面积与5个段总时空区的面积的比值求得:3.一指令流水线如下所示(1) 求连续输入10条指令,该流水线的实际吞吐率与效率;(2) 该流水线的“瓶颈”在哪一段?请采取两种不同的措施消除此“瓶颈”。对于你所给出的两种新的流水线,连续输入10条指令时,其实际吞吐率与效率各是多少?解:(1)(2)瓶颈在3、4段
8、。n 变成八级流水线(细分)123-13-24-14-24-34-4n 重复设置部件3.14 有一条静态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5段,第3段的时间为2t,其余各段的时间均为t,而且流水线的输出可以直接返回输入端或 暂存于相应的流水寄存器中。现要在该流水线上计算 ,画出其时空图,并计算其吞吐率、加速比与效率。解:首先,应选择适合于流水线工作的算法。对于本题,应先计算A1B1、A2B2、A3B3与A4B4;再计算(A1B1) (A2B2)与(A3B3) (A4B4);然后求总的结果。其次,画出完成该计算的时空图,如图所示,图中阴影部分表示该段在工作。由图可见,
9、它在18个t时间中,给出了7个结果。所以吞吐率为:如果不用流水线,由于一次求积需3t,一次求与需5t,则产生上述7个结果共需(45+33)t =29t。所以加速比为:该流水线的效率可由阴影区的面积与5个段总时空区的面积的比值求得:3.16 在MIPS流水线上运行如下代码序列:LOOP: LW R1,0(R2) DADDIU R1,R1,#1 SW R1, 0(R2) DADDIU R2,R2,#4 DSUB R4,R3,R2 BNEZ R4,LOOP其中:R3的初值是R2+396。假设:在整个代码序列的运行过程中,所有的存储器访问都是命中的,并且在一个时钟周期中对同一个寄存器的读操作与写操作可
10、以通过寄存器文件“定向”。问:(1) 在没有任何其它定向(或旁路)硬件的支持下,请画出该指令序列执行的流水线时空图。假设采用排空流水线的策略处理分支指令,且所有的存储器访问都命中Cache,那么执行上述循环需要多少个时钟周期?(2) 假设该流水线有正常的定向路径,请画出该指令序列执行的流水线时空图。假设采用预测分支失败的策略处理分支指令,且所有的存储器访问都命中Cache,那么执行上述循环需要多少个时钟周期?(3) 假设该流水线有正常的定向路径与一个单周期延迟分支,请对该循环中的指令进行调度,你可以重新组织指令的顺序,也可以修改指令的操作数,但是注意不能增加指令的条数。请画出该指令序列执行的流
11、水线时空图,并计算执行上述循环所需要的时钟周期数。解:寄存器读写可以定向,无其他旁路硬件支持。排空流水线。 第i次迭代(i0.98)开始周期:1(i17)总的时钟周期数:(9817)181684有正常定向路径,预测分支失败。 第i次迭代(i0.98)开始周期:1(i10) 总的时钟周期数:(9810)11991 有正常定向路径。单周期延迟分支。 LOOP: LW R1,0(R2)DADDIU R2,R2,#4DADDIU R1,R1,#1DSUB R4,R3,R2BNEZ R4,LOOPSW R1,-4(R2)第i次迭代(i 0.98)开始周期:1(i 6 )总的时钟周期数:(986)1059
12、8 2.13 在一台单流水线多操作部件的处理机上执行下面的程序,每条指令的取指令、指令译码需要一个时钟周期,MOVE、ADD与MUL操作分别需要2个、3个与4个时钟周期,每个操作都在第一个时钟周期从通用寄存器中读操作数,在最后一个时钟周期把运算结果写到通用寄存器中。 k: MOVE R1,R0 ;R1 (R0)k+1: MUL R0,R2,R1 ;R0 (R2)(R1)k+2: ADD R0,R2,R3 ;R0 (R2)+(R3)画出指令执行过程的流水线时空图,并计算完成这3条指令共需要多少个时钟周期? 解:由题意可认位该指令流水线由六个功能段取指、译码、取数、运一、运二与存数等组成,则程序指
13、令执行过程的流水线时空图如下图所示。若3条指令顺序流动,共需要9个时钟周期。链接技术:当前一条指令的结果寄存器是后一条指令的源寄存器、且不存在任何其他冲突时:(不存在功能部件冲突、不存在源寄存器冲突、不存在目的寄存器冲突如下:)就可以采用连接技术来提高性能。V3-V1+V2V5-V3xV4向量流水线链接:是指具有先写后读相关的两条指令,在不出现功能部件冲突与其他Vi冲突的情况下,可以把功能部件链接起来进行流水处理,以达到加快执行的目的。由于同步的要求,连接时Gray-1中把向量数据元素送往向量功能部件以及把结果存入向量寄存器都需要一拍时间。从存储器把数据送入访存功能部件也需要一拍时间。例4-1
14、考虑在Cray-1上利用链接技术执行以下4条执行;V0-存储器/访存取向量7拍V2-V0+V1/向量加 3拍V3-V2A3/A3左移 4拍V5-V3V4/与操作:2拍画出链接示意图,并求该链接流水线的通过时间,如果向量长度为64,则需要多少拍才能得到全部结果。解:对于这4条指令分析可知:它们即不存在部件冲突,也不存在寄存器冲突,相邻两条指令之间都存在先写后读相关,因而可以把访存流水线、向量加流水线、向量移位流水线以及向量逻辑运算流水线连接成一个较长的流水线。该链接流水线的通过时间为:通过时间=1+7+1+1+3+1+1+4+1+1+2=23 在向量长度为64的情况下,得到所有结果共需要:23+
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机系统 结构 第二 晨曦 考前 资料 大全 看完
限制150内