上海交通大学-计算机组成原理考研辅导讲稿.docx
《上海交通大学-计算机组成原理考研辅导讲稿.docx》由会员分享,可在线阅读,更多相关《上海交通大学-计算机组成原理考研辅导讲稿.docx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章流水技术第一节流水线工作原理流水工作方式:将一个计算任务细分成若干个子任务,每个子任务由专门的部件处理,多个计算任务依次进行并行处理。处理部件1锁存器处理 锁部件 存2器处理 锁部件 存n器一、流水线的分类操作部件级,指令级,处理器级单功能,多功能静态,动态线性,非线性 标量,向量二、流水线的性能1.吞吐率:单位时间内流水线能处理的任务数量。对于线性流水线:/=max九,力,册+时空图:最大吞吐率:流水线达到不间断流水的稳定状态后可获得的吞吐率。1 pmax-maxA,.,A,.,%+tiAz流水线瓶颈的解决:At At34At12345678123456781 23456781 2 3
2、4567812 3 45678时间段S554S3525ICLK(a)原流水线,第 3段为瓶颈(a)原流水线,第 3段为瓶颈At At At At At At(b)瓶颈段细分At34(c)瓶颈段重复设置部为新 PC值图 8-8分支目标缓存图中:目标缓存一一分支目标地址预测PC分支指令地址标记预测状态位一一预测状态的编码U!目标:在一个时钟周期内能够启动多条指令。方法:动态多重指令启动(超标量,超流水),静态多重指令启动(VLIW)。退耦结构:将数据装载操作和数据运算并行进行,并采用load/store缓存,使得访存操 作与运算操作之间存在一个弹性关系。表8-4(假设可同时启动一条浮点指令和一条整
3、型指令)迭代编号指令启动周期执行周期写回周期1LDF0,0(R1)1241ADDD F4zF0zF21581SD0(RI),F4291SUB工R1,R1,#83451BNEZ RI,LOOP452LDF0,0(RI)5682ADDD F4,F0,F259122SD0(RI),F4613一2SUB工RI,RI,#87892BNEZ RI,LOOP89时空图表示:超长指令字:指令中包含多个部件的操作执行时间为9个周期,平均每个迭代L28个周期。访存部件1访存部件2浮点部件1浮点部件2整型/转移LD F0,0(RI)LDF6,-8(RI)LD F10,-16(RI)LDF14,-24(RI)LD F
4、18z-32(RI)LDF22,-40(RI)ADDD F4,F0,F2ADDD F8,F6,F2LD F26,-48(RI)ADDD F12,F10,F2ADDD F16,F14,F2ADDD F20,F18,F2ADDD F24,F22,F2SD 0(RI),F4SD-8(RI),F8ADDD F28,F26,F2SD-16(RI),F12 SD-24(RI),F16SD-32(RI),F20 SD-40(RI),F24SUB工RI,RI,#56SD+8(RI),F28BNEZ RI,LOOP习题:15五、指令级并行性的进一步开发1.相关性的检测与消除采用编译技术消除相关性(见书上例子)2
5、.软件流水重新组织循环程序例:对于前面的循环例子3.路径调度技术将指令调度的范围扩展到跨越转移指令的更大的区域,开发非循环分支程序中的并行 性,用于VLIW。两种步骤:路径选择,路径压缩4.条件指令给指令增加一个条件,以消除转移指令,或使得指令能够跨越转移指令进行调度。例:语句 if(A=0)S=T;在一般的计算机中转换成 BNEZ R1,LMOV R2,R3L:可以用一条条件传输指令,在第三个操作数为零时进行数据传输操作:CMOVZ R2,R3,R1又如,对于下列双启动的超标量机指令序列:LW R1,40(R2)ADD R3,R4,R5ADD R6,R3,R7BEQZ R10,LLW R8,
6、20(RIO)LW R9,0(R8)L:程序浪费一个存储器操作节拍,转移不发生时将发生一个数据相关停顿,因为转移指 令后的第二条LW指令与上一条指令是相关的。LD FO,O(R1)ADDD F4,F0,F2SDO(R1),F4LD FO,O(R1)ADDD F4,F0,F2SDO(R1),F4LD FO,O(R1)ADDD F4,F0,F2SD O(R1),F4LDFO,O(R1)ADDD F4,F0,F2SDO(R1),F4-用条件访存指令LWC,程序改为:LW R1,40(R2)ADD R3,R4,R5LWC R8,20(RIO),RIO ADD R6,R3,R7BEQZ RIO,L LW
7、 R9,0(R8).推测执行一一将指令的执行与指令结果的写回退耦,允许指令预执行。指令的提交:结果写回提交方式:有序提交(可实现精确中断),无序提交(需进行相关性检测)重排序缓存:保存指令执行完成后但尚未提交的结果。第三节向量流水技术一、向量指令和数据的编码表示向量指令:以向量数据为操作数的指令。向量操作数:包含个数据元素的有序集合,称为向量的长度。在FORTRAN扩展语言中,向量元素子集的表示:初始下标:终止下标:下标增量el:e2:e3 el:e2|0川0|0|1回可丁1(b)有序向量|A0|A3I|(c)压缩向量图8-12稀疏向量、有序向量和压缩向量 自定义类型的数据标志符数据图 8-1
8、3带标志符数据表示格式优点:(1)简化指令系统,(2)数据类型检查和转换能够用硬件实现。(3)硬件能自动 转换数据转换。(4)方便了程序调试。主要问题:(1)使数据区域占用的存储空间增加。(2)指令执行速度将减慢。(3)数据 的初始化复杂。数据描述符:用于描述复合数据类型。格式:描述符标志位特征标记数据块长度数据块起始地址习题:9,el:e3例子:图8-15向量处理机的典型结构图 六种向量指令(1)向量-向量指令。例:ADDV VI,V2,V3(2)向量-标量指令。例:ADDV V1,F2,V3(3)向量-存储器指令。例:LVV1,R1(4)向量归约指令。例:MAXFO,VI(5)收集-扩展指
9、令。Gather-Scatter(6)屏蔽指令。例:SENSVFO,VI标量a装入FO装入向量X到VI,Rx为向量X的首址 向量X与标量a相乘,结果写入V2装入向量Y,Ry为向量Y的首址向量加,结果写入V4存结果向量,SV为向量存指令地址生成:向量跨步三、提高向量处理性能的方法.多功能部件的并行操作(Cray-1的结构)相关的检测数据相关:读读相关ADDV二、向量流水原理典型的向量机基本系统结构二、向量流水原理典型的向量机基本系统结构例如,计算Y=a*X+YLD FO,a;LV VI,Rx;MULTV V2ZFO,VI;LV V3,Ry;ADDV V4,V2,V3;SV Ry,V4;V4V1+
10、V2;V5-V2 AV3;V4-V1+V2;V4V1+V2;V5-V2 AV3;V4-V1+V2V4,VI,V2 ANDV V5,V2,V3又如:读写相关ADDV V4,VlfV2ANDV V5,V4,V3;V5-V4 AV3 资源冲突ADDV V3,VI,V2;V3-V1+V2ADDV V6,V4ZV5;V6T4+V51.链接技术。利用向量指令间存在的写后读(RAW)的数据相关性采用专用通道来加快 向量指令序列执行速度。例如:ADDV VI,V2,V3;VI-V2+V3MULTV V4,VI,V5;V4-V1+V5又如:LV V3,A;V3-AADDV V2,VO,VI;V2-V0+V1MU
11、LTV V4ZV2,V3;V4-V2XV32.条件语句的处理。采用屏蔽向量例如:do 100 i=l,64if(A(i).ne.0)thenA(i)=A(i)-B(i)endif100 continue的向量指令为:LV VI,Ra;将向量A装入VILV V2,Rb;将向量B装入V2LDFOZ#0SENSVF0,VISUBVVI,VI,V2CVMSVRa,VI 屏蔽向量不能减少执行时间;将浮点数0装入FO;V1(i)ZF0,则将 VMi 置为 1;在屏蔽向量控制下进行减法操作;将屏蔽向量寄存器置为全“1”;将结果存入A4.向量归约操作 递归折叠法:思考题:画出本例的流水线的时空图 习题:217
12、117p max/p=mAZ+(7?-1)AZAr(l+m1)1 Im-1nn2.加速比:流水方式的工作速度与等效的顺序工作方式时间的比值。Ti _ nm _ mTk m+n-1+1n工作时间的时空区与流水线中各段总的时空区之比。nmNtn SPE=TpAtm(m+m+n-1 m三、流水线的相关处理三种相关性:1.资源相关(结构相关)段 号(c)流水段重复的时空图对于线性流水线:3.使用效率:退耦流水线Sp 解决方法:增加资源.数据相关(RAW、WAR、WAW)解决方法:停顿、编译检测、旁路相关专用通路.控制相关。解决方法:提前判断、转移延迟槽等非线性流水线的调度方法预约表表8-1非线性流水线
13、预约表tht4ts(6tl18t9XXs2XXX3X兴XXS5XX禁止表冲突向量 C 二 10110001调度状态转换图图8-3非线性流水线状态图调度方案比较表8.2各种调度方案的平均间隔拍数调度策略平均间隔周期be:(3,4)3.50ad:(2,7)4.50ade:(2,2,7)3.67abeb:(3,4,2,7)4.25abc:(3,4,7)4.67acb:(4,3,7)4.67ab:(3,7)5.00ac:(4,7)5.50a:(7)7.00第二节标量流水技术一、基本概念指令流水线结构:U!流水线的调度F=1,5,6,8)loop:LDstallADDDSUBIBNEZSDFO,0(RI
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 上海交通大学 计算机 组成 原理 考研 辅导 讲稿
限制150内