2022年2022年计算机系统结构 2.pdf
《2022年2022年计算机系统结构 2.pdf》由会员分享,可在线阅读,更多相关《2022年2022年计算机系统结构 2.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、4.6 下面一段 DLX的汇编程序称为SAXPY ,用于完成下面公式的计算:Y = aX + Y其浮点指令延迟如表4.2 所示,整数指令均为1 个时钟周期完成, 浮点和整数部件均为流水。整数操作之间以及与其它所有浮点操作之间的延迟为0,转移指令的延迟为0。FOO:LD f2, 0(r1) ;MULTD f4, f2, f0 ;LD f6, 0(r2) ;ADDD f6, f4, f6 ;SD 0(r2), f6 ;ADDI r1, r1, #8 ;ADDI r2, r2, #8 ;SGTI r3, r1, done ;BEQZ r3, FOO ;(1) 对于标准的DLX 单流水线, SAXPY
2、 循环计算一个Y 值需要多少时间?其中有多少空转周期?解: 1 FOO: LD f2, 0(r1) ;Stall ; 从浮点取到浮点运算间的空转2 MULTD f4, f2, f0 ;3 LD f6, 0(r2) ;Stall ; 从浮点取到浮点运算间的空转Stall ; MULTD和 ADDD 两个浮点运算间共延迟3 个时钟4 ADDD f6, f4, f6 ;Stall ; 从浮点运算到浮点存0 间的空转Stall ;5 SD 0(r2), f6 ;6 ADDI r1, r1, #8 ;7 ADDI r2, r2, #8 ;8 SGTI r3, r1, done ;由题设,这之后没有空转9
3、 BEQZ r3, FOO ;由题设,这之后没有空转所以,共有14 个时钟周期,其中有5 个空转周期。(2) 对于标准的DLX 单流水线,将SAXPY 循环顺序展开4 次,不进行任何指令调度,计算一个 Y 值平均需要多少时间?加速比是多少?其加速是如何获得的?解: 1 FOO: LD f2, 0(r1) ;2Stall ; 从浮点取到浮点运算间的空转3MULTD f4, f2, f0 ;4 LD f6, 0(r2) ;5Stall ; 从浮点取到浮点运算间的空转6Stall ; MULTD和 ADDD 两个浮点运算间共延迟3 个时钟7ADDD f6, f4, f6 ;8Stall ; 从浮点运
4、算到浮点存之间的空转9Stall ;10SD 0(r2), f6 ;11 LD f8, 8 (r1) ;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 5 页 - - - - - - - - - 12Stall ;13MULTD f10, f8, f0 ;14LD f12, 8 (r2) ;15Stall ;16Stall ;17ADDD f12, f10, f12 ;18Stall ;19Stall ;20SD 8 (r2), f12;21 LD f14, 16 (r1
5、) ;22Stall ;23MULTD f16, f14, f0 ;24LD f18, 16 (r2) ;25Stall ;26Stall ;27ADDD f18, f16, f18 ;28Stall ;29Stall ;30SD 16 (r2), f18 ;31 LD f20, 24 (r1) ;32Stall ;33MULTD f22, f20, f0 ;34LD f24, 24 (r2) ;35Stall ;36Stall ;37ADDD f24, f22, f24 ;38Stall ;39Stall ;40SD 24 (r2), f24;41ADDI r1, r1, #8 ;42ADD
6、I r2, r2, #8 ;43SGTI r3, r1, done ;由题设,这之后没有空转44 BEQZ r3, FOO ;由题设,这之后没有空转循环顺序展开4 次,不进行任何指令调度,则指令15 及其间的stall都是必要的,只是指令69 只需执行一次, 因此共有 104444 个时钟周期, 计算出 4 个 Y值,所以计算一个Y值需要 11 个时钟周期,加速比为:14/11 = 1.27 。加速主要是来自减少控制开销,即减少对r1 、r2 的整数操作以及比较、分支指令而来的。(3) 对于标准的DLX 单流水线, 将 SAXPY 循环顺序展开4 次,优化和调度指令,使 SAXPY循环处理时间
7、达到最优,计算一个Y值平均需要多少时间?加速比是多少?解:循环顺序展开4 次,优化和调度指令,如下:FOO:1.LD f2, 0(r1) 2.LD f8, 8 (r1) 3.LD f14, 16 (r1) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 5 页 - - - - - - - - - 4.LD f20, 24 (r1) 5.MULTD f4, f2, f0 6.MULTD f10, f8, f0 7.MULTD f16, f14, f0 8.MULTD f22
8、, f20, f0 9.LD f6, 0(r2) 10.LD f12, 8 (r2) 11.LD f18, 16 (r2) 12.LD f24, 24 (r2) 13.ADDD f6, f4, f6 14.ADDD f12, f10, f12 15.ADDD f18, f16, f18 16.ADDD f24, f22, f24 17.SD 0(r2), f6 18.SD 8 (r2), f12 19.SD 16 (r2), f18 20.SD 24 (r2), f24 21.ADDI r1, r1, #32 22.ADDI r2, r2, #32 23.SGTI r3, r1, done 2
9、4.BEQZ r3, FOO 共用了 24 个时钟周期,则计算一个Y值平均需要24/4=6 个时钟周期,加速比:14/6=2.33 (4) 对于采用如图4.14 推断执行机制的DLX 处理器, 处理其中只有一个整数部件。当循环第二次执行到BEQZ r3, FOO 时,写出前面所有指令的状态,包括指令使用的保留站、指令起始节拍、执行节拍和写结果节拍,并写出处理器当前的状态。解:令再定序缓冲、浮点操作部件数量不限,只有一个整数部件。整数操作单周期完成,不进入再定序缓冲,无需确认。指令保留站流出执行写结果确认LD f2, 0(r1) 再定序缓冲 1# 1 2 3 4 MULTD f4, f2, f0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年计算机系统结构 2022 计算机系统 结构
限制150内