计算机系统结构》电子教案(2).ppt
《计算机系统结构》电子教案(2).ppt》由会员分享,可在线阅读,更多相关《计算机系统结构》电子教案(2).ppt(32页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第5 5章章 指令级并行硬件方法(指令级并行硬件方法(P111P111)(指令级,多发射或乱序执行,动态调度)指令级,多发射或乱序执行,动态调度)本章学习由硬件(即流水线控制器)实现的指令级并行方法,本章学习由硬件(即流水线控制器)实现的指令级并行方法,主要内容是流水线的多指令控制技术,目的是让处理机中同时流动主要内容是流水线的多指令控制技术,目的是让处理机中同时流动更多的指令,减少各种原因造成的停顿,以缩短程序执行时间。更多的指令,减少各种原因造成的停顿,以缩短程序执行时间。5.1 5.1 指令级并行的概念(重点)指令级并行的概念(重点)5.2 5.2 相关与指令级并行相关与指令级并行5.
2、3 5.3 指令的动态调度指令的动态调度5.4 5.4 动态分支预测技术(重点)动态分支预测技术(重点)5.5 5.5 多指令流出技术(重点)多指令流出技术(重点)2014.2.171计算机系统结构从执行程序的角度来看,并行性等级从低到高可分为:从执行程序的角度来看,并行性等级从低到高可分为:指令内部并行:单条指令中各微操作之间的并行。指令内部并行:单条指令中各微操作之间的并行。指令级并行:并行执行两条或两条以上的指令。指令级并行:并行执行两条或两条以上的指令。线程级并行:并行执行两个或两个以上的线程。通常是以一个进程线程级并行:并行执行两个或两个以上的线程。通常是以一个进程内派生的多个线程为
3、调度单位。内派生的多个线程为调度单位。任务级或过程级并行:并行执行两个或两个以上的过程或任务(程任务级或过程级并行:并行执行两个或两个以上的过程或任务(程序段)。以子程序或进程为调度单元。序段)。以子程序或进程为调度单元。作业或程序级并行:并行执行两个或两个以上的作业或程序。作业或程序级并行:并行执行两个或两个以上的作业或程序。并行性等级的划分(并行性等级的划分(P23P23,1.5.11.5.1节)节)2014.2.172计算机系统结构指令级并行的英文缩写是指令级并行的英文缩写是ILP(Instruction-Level Parallelism)开发开发ILP的途径有两种:的途径有两种:q
4、资源重复,重复设置多个处理部件,让它们同时执行相邻或相近的资源重复,重复设置多个处理部件,让它们同时执行相邻或相近的多条指令;多条指令;q 采用流水线技术,使指令重叠并行执行。采用流水线技术,使指令重叠并行执行。(1)狭义指令级并行狭义指令级并行 超标量超标量SuperScalar(设备重复)设备重复)超长指令字超长指令字Very Long Instruction Word(简称简称VLIW)(2)广义指令级并行广义指令级并行 流水线流水线Pipeline(设备细分)设备细分)超级流水线超级流水线Super Pipeline(3)线程级并行线程级并行 超线程超线程Hyper-Threading
5、(简称简称HT)(4)任务线程任务线程 多核处理机多核处理机Multicore5.1 5.1 指令级并行的概念指令级并行的概念2014.2.173计算机系统结构 静态调度(软件方法):在程序执行前,在编译过程中对目标指令静态调度(软件方法):在程序执行前,在编译过程中对目标指令序列进行优化,避免将来由于相关和冲突造成的停顿。主要手段是将序列进行优化,避免将来由于相关和冲突造成的停顿。主要手段是将冲突指令错开启动时间、变量换名等。冲突指令错开启动时间、变量换名等。动态调度(硬件方法):在程序执行中,由专门硬件预测将要发生动态调度(硬件方法):在程序执行中,由专门硬件预测将要发生的冲突、控制指令在
6、流水线中的流动,避免停顿。的冲突、控制指令在流水线中的流动,避免停顿。2.流水线处理机的实际流水线处理机的实际CPI=理想流水线的理想流水线的CPI加上各类停顿的时钟周期数:加上各类停顿的时钟周期数:CPI流水线流水线=CPI理想理想+停顿停顿结构冲突结构冲突+停顿停顿数据冲突数据冲突+停顿停顿控制冲突控制冲突 CPI理想理想是衡量流水线最高性能的一个指标。本式表明降低实际是衡量流水线最高性能的一个指标。本式表明降低实际CPI有许有许多途径。多途径。换一个角度,有时从换一个角度,有时从CPICPI的倒数看问题会有新思路,的倒数看问题会有新思路,IPCIPC(Instructions Per I
7、nstructions Per CycleCycle)是每个时钟周期完成的指令条数。是每个时钟周期完成的指令条数。在不能缩短单条指令周期数的情况下,在每个时钟周期里启动更多的指令(提在不能缩短单条指令周期数的情况下,在每个时钟周期里启动更多的指令(提高高IPCIPC),),同样可以提高处理机的性能。这就是同样可以提高处理机的性能。这就是ILPILP的基本思想。的基本思想。1.1.开发开发ILPILP的方法分类的方法分类2014.2.174计算机系统结构 基本程序块:一串连续的代码除了入口和出口以外,没有其他的分基本程序块:一串连续的代码除了入口和出口以外,没有其他的分支指令和转入点支指令和转入
8、点。程序平均每程序平均每47条指令就会有一个分支。条指令就会有一个分支。4.循环级并行:使一个循环中的不同循环体并行执行。循环级并行:使一个循环中的不同循环体并行执行。开发循环的不同叠代之间存在的并行性(最常见、最基本思路)开发循环的不同叠代之间存在的并行性(最常见、最基本思路)这是指令级并行研究的重点之一这是指令级并行研究的重点之一5.最基本的开发循环级并行的技术最基本的开发循环级并行的技术 循环展开(循环展开(loop unrolling)技术技术 采用向量指令和向量数据表示采用向量指令和向量数据表示3.3.基本程序块基本程序块2014.2.175计算机系统结构多发射技术(多发射技术(Mu
9、ltiple Issue):):同时启动多条指令。同时启动多条指令。为什么要多发射?在传统流水线上,要减少为什么要多发射?在传统流水线上,要减少CPU时间,可以减少时间,可以减少CPI或者或者Cycle。CPI的下限是的下限是1,减少,减少Cycle碰到了碰到了“4G墙墙”(指(指Intel公司开发公司开发4GHz P4计划失败,因为功耗正比于主频计划失败,因为功耗正比于主频3次方),工程师们无奈又回头来次方),工程师们无奈又回头来打打CPI的主意,想使的主意,想使CPI低于低于1,即在一个时钟周期内流出多条指令。,即在一个时钟周期内流出多条指令。狭义的多指令流出技术(同时启动)包括超标量狭义
10、的多指令流出技术(同时启动)包括超标量(Superscalar)和超长和超长指令字指令字(VLIW),广义的多指令流出技术(分时启动)还包括超流水线广义的多指令流出技术(分时启动)还包括超流水线(Superpipeline)等。等。超标量采用多条流水线的多发射技术,每个时钟周期流出的指令数不超标量采用多条流水线的多发射技术,每个时钟周期流出的指令数不定,既可以使用编译器静态调度,也可以使用硬件动态调度。定,既可以使用编译器静态调度,也可以使用硬件动态调度。由于管理乱由于管理乱序流动中指令相关问题的硬件复杂度非常大,所以目前超标量序流动中指令相关问题的硬件复杂度非常大,所以目前超标量CPU的的I
11、LP没有超过没有超过8的。的。采用单发射技术的传统处理机又被称为采用单发射技术的传统处理机又被称为“标量处理机标量处理机”。5.5 5.5 多指令流出技术(又称多发射技术,多指令流出技术(又称多发射技术,P141P141)2014.2.176计算机系统结构超长指令字超长指令字CPU采用长指令单发射,多个执行部件同时执行小指令的采用长指令单发射,多个执行部件同时执行小指令的方法,每个时钟周期流出的小指令数是限定的。在编译过程中,由编译程方法,每个时钟周期流出的小指令数是限定的。在编译过程中,由编译程序来判断实际指令之间的相关关系,进行静态调度,把抽取序来判断实际指令之间的相关关系,进行静态调度,
12、把抽取ILP的复杂工的复杂工作转移给编译器,而执行指令的硬件则大大简化,也比较规则,有利于低作转移给编译器,而执行指令的硬件则大大简化,也比较规则,有利于低功耗设计。功耗设计。超流水线则是将每个功能部件进一步流水化,使得一个功能部件在一超流水线则是将每个功能部件进一步流水化,使得一个功能部件在一拍中可以分时处理多条指令。拍中可以分时处理多条指令。5.5 5.5 多指令流出技术(续多指令流出技术(续)2014.2.177计算机系统结构5.5.0 超标量技术:一个时钟节拍内超标量技术:一个时钟节拍内同时同时发射多条指令(发射多条指令(P142第第1段)。段)。时空图时空图“超标量超标量”的前身是的
13、前身是“多操作部件技术多操作部件技术”。它是通过它是通过“设备并联设备并联”技术技术扩充的单流水线,被扩充的部件通常是运算部件、访存部件等扩充的单流水线,被扩充的部件通常是运算部件、访存部件等“瓶颈瓶颈”部件。部件。2014.2.178计算机系统结构5.5.3 超长指令字技术超长指令字技术VLIW(P147,P163)把多条无相关关系的常规指令打包在一个超长的指令字中,让它们同时被把多条无相关关系的常规指令打包在一个超长的指令字中,让它们同时被处理,分别控制多个功能部件并行工作的技术。处理,分别控制多个功能部件并行工作的技术。每个操作放在一个槽(每个操作放在一个槽(slot)内。内。这种技术的
14、实质,是把超标量技术中的相关性识别任务,由这种技术的实质,是把超标量技术中的相关性识别任务,由CPU硬件转移硬件转移给程序员或编译程序去实现。给程序员或编译程序去实现。2014.2.179计算机系统结构5.5.5 超流水技术:一个时钟节拍内超流水技术:一个时钟节拍内分时分时发射多条指令(发射多条指令(P149)时空图时空图2014.2.1710计算机系统结构附:超线程技术附:超线程技术HT通俗的理解就是将一颗具有超线程功能的通俗的理解就是将一颗具有超线程功能的“实体实体”处理器虚拟成两个处理器虚拟成两个“逻逻辑辑”处理器,让多个应用程序或单一应用程序的多个线程,能够同时在同一颗处理器,让多个应
15、用程序或单一应用程序的多个线程,能够同时在同一颗处理器上执行。处理器上执行。超线程运行模式下,超线程运行模式下,CPU中核心资源的利用率可提高中核心资源的利用率可提高3040%,也就是说,也就是说在同样时间里可多执行在同样时间里可多执行3040%的指令,其性能可以与含双处理器的系统相媲的指令,其性能可以与含双处理器的系统相媲美,但具有低得多的价格。美,但具有低得多的价格。为了同时执行多个线程,使用超线程技术的新一代为了同时执行多个线程,使用超线程技术的新一代P4 HT处理器需要增加处理器需要增加一个逻辑处理器单元。因此面积比以往的一个逻辑处理器单元。因此面积比以往的P4增大了增大了5%。而其余
16、部分如。而其余部分如ALU(整数运算单元)、整数运算单元)、FPU(浮点运算单元)、浮点运算单元)、L2 Cache(二级缓存)则保持不二级缓存)则保持不变,这些部分是被分享的。变,这些部分是被分享的。虽然采用超线程技术能同时执行两个线程,但是当两个线程争夺同一资源虽然采用超线程技术能同时执行两个线程,但是当两个线程争夺同一资源时,其中一个要被阻塞,这时性能就不如两个真正的时,其中一个要被阻塞,这时性能就不如两个真正的CPU。含有超线程技术的含有超线程技术的CPU需要主板(包括芯片组和需要主板(包括芯片组和BIOS)、)、软件(包括操软件(包括操作系统和应用软件,如作系统和应用软件,如XP)支
17、持,才能比较理想地发挥该项技术的优势。支持,才能比较理想地发挥该项技术的优势。超线程是一种过渡技术,不久就被多核心技术取代。超线程是一种过渡技术,不久就被多核心技术取代。2014.2.1711计算机系统结构对于多指令流出的处理机,分支等待造成的性能下降比单流出机器更对于多指令流出的处理机,分支等待造成的性能下降比单流出机器更为显著为显著每停一拍要减少几条指令,所以需要采取更复杂的解决办法。每停一拍要减少几条指令,所以需要采取更复杂的解决办法。第第3 3章介绍了避免在分支(包括无条件跳转)指令后面空等待的几种方章介绍了避免在分支(包括无条件跳转)指令后面空等待的几种方法。法。其中其中“在在IDI
18、D周期完成判断并计算目标地址周期完成判断并计算目标地址”的方法把分支等待周期由的方法把分支等待周期由3 3个减少到个减少到1 1个,但是再要消除这个,但是再要消除这1 1个等待周期就很难了。有的处理机做这两个等待周期就很难了。有的处理机做这两件事需要的周期数还不止件事需要的周期数还不止1 1个。个。从上文调换不相关指令到从上文调换不相关指令到“延迟槽延迟槽”执行的办法固然可以避免这段时执行的办法固然可以避免这段时间的空等待,但是找不到不相关指令就不能用。间的空等待,但是找不到不相关指令就不能用。为了利用这种等待周期,还有一个办法是为了利用这种等待周期,还有一个办法是“猜测猜测”,不等,不等“判
19、跳判跳”完完成就开始取下条指令,取完之后成就开始取下条指令,取完之后“判跳判跳”结果也出来了,如果证明结果也出来了,如果证明“猜对猜对”就继续执行这条指令,就继续执行这条指令,“猜错猜错”就报废它。就报废它。为了容易实现,一个为了容易实现,一个CPUCPU在设计时就把在设计时就把“猜猜”的方向设定了,即总是猜的方向设定了,即总是猜分支失败(或者总是猜分支成功),这种猜法的分支失败(或者总是猜分支成功),这种猜法的“猜对率猜对率”没有保障。没有保障。5.4 5.4 动态分支预测技术(动态分支预测技术(P133P133)2014.2.1712计算机系统结构现在讨论的现在讨论的“动态分支预测技术动态
20、分支预测技术”就是对每条分支指令完成之后的真就是对每条分支指令完成之后的真实方向进行记录,下次再回到这条指令时就往上次的同一方向猜,猜对的实方向进行记录,下次再回到这条指令时就往上次的同一方向猜,猜对的可能性就增大了。万一有的指令是一会儿总是分支失败,一会儿又总是分可能性就增大了。万一有的指令是一会儿总是分支失败,一会儿又总是分支成功(动态变化),那也可以在猜错后及时修改记录,以后就按新的方支成功(动态变化),那也可以在猜错后及时修改记录,以后就按新的方向猜。向猜。“分支开销分支开销”指指“猜对猜对”、“猜错猜错”两种情况下流水线分别等待的时两种情况下流水线分别等待的时间(周期数)。显然,间(
21、周期数)。显然,“猜错猜错”时的开销更大,否则时的开销更大,否则“猜猜”就没有意义了。就没有意义了。5.4 5.4 动态分支预测技术(续)动态分支预测技术(续)2014.2.1713计算机系统结构 分支历史表的英文缩写是分支历史表的英文缩写是BHT(Branch History Table)(1)1位位BHT方法方法表中给最近遇到的每条分支指令分配表中给最近遇到的每条分支指令分配1个个bit的记录单元,的记录单元,0表示上次分支表示上次分支不成功,不成功,1表示上次分支成功。表示上次分支成功。BHT表可以设在指令表可以设在指令Cache中,也可以用一个专门的中,也可以用一个专门的RAM来实现。
22、查表来实现。查表方法是相联比较。表的容量决定了能为多少个方法是相联比较。表的容量决定了能为多少个“最近用到最近用到”的分支指令记录的分支指令记录历史信息。装满之后可以按历史信息。装满之后可以按“先进先出先进先出”或或“最近最少使用最近最少使用”策略进行替换。策略进行替换。5.4.1 5.4.1 分支历史表分支历史表 BHT BHT 方法(方法(P134P134)2014.2.1714计算机系统结构(2)2位位BHT方法方法有的分支指令会有有的分支指令会有“临时性换向临时性换向”,比如一段循环程序末尾的,比如一段循环程序末尾的“返回返回指令指令”可能在可能在n-1次分支成功后跟次分支成功后跟1次
23、分支失败,但是下一次再执行这段循环次分支失败,但是下一次再执行这段循环程序,程序,“返回指令返回指令”又应该按分支成功猜测。为了避免又应该按分支成功猜测。为了避免“1位位BHT方法方法”被被这种偶然变化所这种偶然变化所“欺骗欺骗”,可以使用,可以使用2bit信息记录,只有连续信息记录,只有连续2次次“猜错猜错”才会才会“改口改口”猜另一方向。具体算法见下图。猜另一方向。具体算法见下图。5.4.1 5.4.1 分支历史表分支历史表 BHT BHT 方法(续)方法(续)2014.2.1715计算机系统结构分支目标缓冲器分支目标缓冲器的英文缩写是的英文缩写是BTB(Branch-Target Buf
24、fer),),也称分也称分支目标支目标Cache(ranch-Target Cache)。)。上面介绍的上面介绍的BHT表只保存了分支指令地址和成功转移的方向,没有保表只保存了分支指令地址和成功转移的方向,没有保存成功转移的目标地址,即只猜存成功转移的目标地址,即只猜“是否转移是否转移”,不猜,不猜“转到哪里转到哪里”,在转,在转移成功情况下即使移成功情况下即使“猜对了猜对了”也需要另花时间计算目标地址,这对于判断也需要另花时间计算目标地址,这对于判断分支方向和计算目标地址同时进行的机器来说起不到节省时间的作用。分支方向和计算目标地址同时进行的机器来说起不到节省时间的作用。分支目标缓冲器分支目
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机系统 结构 电子 教案
限制150内