《计算机系统结构》PPT课件.ppt
《《计算机系统结构》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《计算机系统结构》PPT课件.ppt(111页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第8 8章章 多处理器系统多处理器系统 第第8 8章章 多处理器系统多处理器系统 第第8 8章章 多处理器系统多处理器系统 第第8 8章章 多处理器系统多处理器系统 指令级并行性的限制和超线程技术指令级并行性的限制和超线程技术 多处理器构成的系统结构多处理器构成的系统结构第第8 8 章章 多多处处理理器器系系统统 多处理器的多处理器的CacheCache一致性一致性 集群系统集群系统 多处理器系统的同步机制多处理器系统的同步机制 多处理器系统的程序并行性多处理器系统的程序并行性 曙光曙光50005000超级计算机超级计算机第第8 8章章 多处理器系统多处理器系统 第第8 8章章 多处理机系统
2、多处理机系统Chapter 8 MultiprocessersChapter 8 Multiprocessers指令级并行性的限制和超线程技术指令级并行性的限制和超线程技术多处理器构成的系统结构多处理器构成的系统结构多处理器的多处理器的Cache一致性一致性多处理器系统的同步机制多处理器系统的同步机制集群系统集群系统多处理器系统的程序并行性多处理器系统的程序并行性曙光曙光5000超级计算机超级计算机本章小结本章小结第第8 8章章 多处理器系统多处理器系统 指令级并行性的限制和超线程技术指令级并行性的限制和超线程技术 指令级并行性的限制指令级并行性的限制 超线程技术超线程技术 限制单处理器发展的
3、其它主要因素限制单处理器发展的其它主要因素 第第8 8章章 多处理器系统多处理器系统 8.1.1 8.1.1 8.1.1 8.1.1 指令级并行性的限制指令级并行性的限制指令级并行性的限制指令级并行性的限制 1.1.理想处理器理想处理器理想处理器理想处理器 2.2.理想处理器难以接近理想处理器难以接近理想处理器难以接近理想处理器难以接近(1 1)转移预测、重命名和相关性分析上依靠)转移预测、重命名和相关性分析上依靠)转移预测、重命名和相关性分析上依靠)转移预测、重命名和相关性分析上依靠静态的编译分析是不可能完美的,动态分静态的编译分析是不可能完美的,动态分静态的编译分析是不可能完美的,动态分静
4、态的编译分析是不可能完美的,动态分析受窗口局限析受窗口局限析受窗口局限析受窗口局限 (2 2)错误的预测限制了指令的并行度)错误的预测限制了指令的并行度)错误的预测限制了指令的并行度)错误的预测限制了指令的并行度 (3 3)寄存器的数目有限)寄存器的数目有限)寄存器的数目有限)寄存器的数目有限(4 4)此外,每时钟周期发射指令数量、功能)此外,每时钟周期发射指令数量、功能)此外,每时钟周期发射指令数量、功能)此外,每时钟周期发射指令数量、功能单元及单元延迟、寄存器文件端口、功能单元及单元延迟、寄存器文件端口、功能单元及单元延迟、寄存器文件端口、功能单元及单元延迟、寄存器文件端口、功能单元队列、
5、对转移发射的限制、对存储器单元队列、对转移发射的限制、对存储器单元队列、对转移发射的限制、对存储器单元队列、对转移发射的限制、对存储器并行访问的限制以及对指令提交的限制等并行访问的限制以及对指令提交的限制等并行访问的限制以及对指令提交的限制等并行访问的限制以及对指令提交的限制等都是影响指令级并行的因素。都是影响指令级并行的因素。都是影响指令级并行的因素。都是影响指令级并行的因素。第第8 8章章 多处理器系统多处理器系统 8.1.2 8.1.2 超线程(超线程(Hyper-ThreadingHyper-Threading)技术)技术 超线程技术是指在单处理器中采用的线程超线程技术是指在单处理器中
6、采用的线程级并行技术,又称简单多线程技术。级并行技术,又称简单多线程技术。超线程有两种主要方法:细粒度超线程和超线程有两种主要方法:细粒度超线程和粗粒度超线程。粗粒度超线程。同时多线程(同时多线程(SMT)是超线程的一个改进)是超线程的一个改进版本,它使用多发射和动态调度机制在版本,它使用多发射和动态调度机制在开发线程级并行的同时开发指令级并行。开发线程级并行的同时开发指令级并行。第第8 8章章 多处理器系统多处理器系统 8.1.3 8.1.3 限制单处理器发展的其它主要因素限制单处理器发展的其它主要因素 尽管单处理器在提高指令集并行及采用超线程尽管单处理器在提高指令集并行及采用超线程尽管单处
7、理器在提高指令集并行及采用超线程尽管单处理器在提高指令集并行及采用超线程并行技术方面做出了很大努力,但在如下几个并行技术方面做出了很大努力,但在如下几个并行技术方面做出了很大努力,但在如下几个并行技术方面做出了很大努力,但在如下几个方面受到局限:方面受到局限:方面受到局限:方面受到局限:(1 1)指令级并行约束及超线程技术的限制已)指令级并行约束及超线程技术的限制已)指令级并行约束及超线程技术的限制已)指令级并行约束及超线程技术的限制已经不太可能提高更多的并行性。经不太可能提高更多的并行性。经不太可能提高更多的并行性。经不太可能提高更多的并行性。(2 2)仅靠提高频率的办法,难以实现性能的)仅
8、靠提高频率的办法,难以实现性能的)仅靠提高频率的办法,难以实现性能的)仅靠提高频率的办法,难以实现性能的突破。反而带来功耗和内存、突破。反而带来功耗和内存、突破。反而带来功耗和内存、突破。反而带来功耗和内存、I/OI/O速度平衡的问速度平衡的问速度平衡的问速度平衡的问题。题。题。题。(3 3)不断增加的单核芯片面积提高了生产成)不断增加的单核芯片面积提高了生产成)不断增加的单核芯片面积提高了生产成)不断增加的单核芯片面积提高了生产成本,并且使得设计和验证所花费的时间变得更本,并且使得设计和验证所花费的时间变得更本,并且使得设计和验证所花费的时间变得更本,并且使得设计和验证所花费的时间变得更长。
9、长。长。长。(4 4)功耗与性能比问题日渐突出。)功耗与性能比问题日渐突出。)功耗与性能比问题日渐突出。)功耗与性能比问题日渐突出。第第8 8章章 多处理器系统多处理器系统 多核处理器结构多核处理器结构 多处理器结构多处理器结构 多处理器并行处理定量分析和所遇到的问题多处理器并行处理定量分析和所遇到的问题8.2 8.2 多处理器构成的系统结构多处理器构成的系统结构 第第8 8章章 多处理器系统多处理器系统 多核处理器是指在一个芯片上集成多个处理器多核处理器是指在一个芯片上集成多个处理器多核处理器是指在一个芯片上集成多个处理器多核处理器是指在一个芯片上集成多个处理器核心,即核心,即核心,即核心,
10、即CMP(ChipMultiprocessorCMP(ChipMultiprocessor,CMPCMP单芯片多处理器单芯片多处理器单芯片多处理器单芯片多处理器)。这多个核心间联系非常紧。这多个核心间联系非常紧。这多个核心间联系非常紧。这多个核心间联系非常紧密,甚至共享密,甚至共享密,甚至共享密,甚至共享L1L1、L2L2和和和和L3CacheL3Cache等。等。等。等。CMPCMP通常可分为同构通常可分为同构通常可分为同构通常可分为同构CMPCMP和异构和异构和异构和异构CMPCMP 在存储层次上,在存储层次上,在存储层次上,在存储层次上,CMPCMP结构的互连采用共享二级结构的互连采用共
11、享二级结构的互连采用共享二级结构的互连采用共享二级或三级或三级或三级或三级CacheCache的的的的CMPCMP结构,每个处理器核心拥结构,每个处理器核心拥结构,每个处理器核心拥结构,每个处理器核心拥有私有的一级或二级有私有的一级或二级有私有的一级或二级有私有的一级或二级CacheCache,且所有处理器核,且所有处理器核,且所有处理器核,且所有处理器核心共享下一级心共享下一级心共享下一级心共享下一级CacheCache。核间通信机制目前有两种,一种基于总线共享核间通信机制目前有两种,一种基于总线共享核间通信机制目前有两种,一种基于总线共享核间通信机制目前有两种,一种基于总线共享的的的的Ca
12、cheCache结构,一种基于片上的互连结构。结构,一种基于片上的互连结构。结构,一种基于片上的互连结构。结构,一种基于片上的互连结构。8.2.1 8.2.1 多核处理器结构多核处理器结构第第8 8章章 多处理器系统多处理器系统 CMP在实际使用中具有如下优点:在实际使用中具有如下优点:(1)微处理器厂商一般采用现有的成熟)微处理器厂商一般采用现有的成熟单核处理器作为处理器核心,从而可缩单核处理器作为处理器核心,从而可缩短设计和验证周期,节省研发成本。短设计和验证周期,节省研发成本。(2)控制逻辑简单)控制逻辑简单,扩展性好扩展性好,易于实现。易于实现。(3)通过动态调节电压)通过动态调节电压
13、/频率、负载优频率、负载优化分布等,可有效降低化分布等,可有效降低CMP功耗。功耗。(4)CMP采用共享采用共享Cache或者内存的方或者内存的方式,多线程的通信延迟较低。式,多线程的通信延迟较低。8.2.1 8.2.1 多核处理器结构多核处理器结构第第8 8章章 多处理器系统多处理器系统 这种结构的特性是:这种结构的特性是:(1)结构中的每个处理器取自己的指令)结构中的每个处理器取自己的指令并对自己的数据进行操作,即每个处理并对自己的数据进行操作,即每个处理器执行自己的指令流,很容易实现多线器执行自己的指令流,很容易实现多线程并行机制。程并行机制。(2)MIMD灵活性强;灵活性强;(3)MI
14、MD结构中的众多处理器可以由结构中的众多处理器可以由同一种处理器来组成同一种处理器来组成8.2.2 8.2.2 多处理器结构多处理器结构8.2.2.1 MIMD8.2.2.1 MIMD计算机概述计算机概述第第8 8章章 多处理器系统多处理器系统 按照多处理器组成的规模,多处理器大按照多处理器组成的规模,多处理器大致可分为致可分为4个层次。个层次。(1)多核处理器)多核处理器(2)中小规模多处理器)中小规模多处理器(3)大规模多处理器)大规模多处理器(4)集群)集群商业集群和客户集群商业集群和客户集群8.2.2.1 MIMD8.2.2.1 MIMD计算机概述计算机概述第第8 8章章 多处理器系统
15、多处理器系统 两种典型的结构:集中式共享存储器系统结两种典型的结构:集中式共享存储器系统结构和分布式存储器系统结构。构和分布式存储器系统结构。1集中式共享存储器系统集中式共享存储器系统8.2.2.2 MIMD8.2.2.2 MIMD计算机的基本结构计算机的基本结构第第8 8章章 多处理器系统多处理器系统 存储器存储器一级或多一级或多级级Cache图图8-3 集中式共享存储器的基本结构集中式共享存储器的基本结构处理处理器器I/O系统系统一级或多一级或多级级Cache处理处理器器一级或多一级或多级级Cache处理处理器器一级或多一级或多级级Cache处理处理器器第第8 8章章 多处理器系统多处理器
16、系统 集中式共享存储器多处理器系统的优点是:集中式共享存储器多处理器系统的优点是:(1)可以与传统的单处理器系统软件兼)可以与传统的单处理器系统软件兼容。容。(2)程序设计容易。)程序设计容易。(3)通信开销小。)通信开销小。集中式共享存储器的结构组成的处理器不集中式共享存储器的结构组成的处理器不能太多,主要受到访存冲突和互联网络的能太多,主要受到访存冲突和互联网络的带宽和复杂性的限制带宽和复杂性的限制第第8 8章章 多处理器系统多处理器系统 2分布式存储器多处理器系统分布式存储器多处理器系统图图8-4分布式存储器多处理器的基本结构分布式存储器多处理器的基本结构处处理理器器+CacheI/O存
17、储存储器器处处理理器器+CacheI/O存储存储器器处处理理器器+CacheI/O存储存储器器处处理理器器+CacheI/O存储存储器器处处理理器器+CacheI/O存储存储器器处处理理器器+CacheI/O存储存储器器处处理理器器+CacheI/O存储存储器器处处理理器器+CacheI/O存储存储器器互互连连网网络络第第8 8章章 多处理器系统多处理器系统 分布式存储器的主要优点是:分布式存储器的主要优点是:如果大部分访存是对节点内的本地存储如果大部分访存是对节点内的本地存储器进行的,这样做是增大存储器带宽的比器进行的,这样做是增大存储器带宽的比较经济的方法;较经济的方法;缩短了本地存储器访
18、问的时延。缩短了本地存储器访问的时延。具有较好的扩展性。具有较好的扩展性。主要缺点是由于处理器不再共享单一集中主要缺点是由于处理器不再共享单一集中存储器,处理器间的数据通信在某种程度存储器,处理器间的数据通信在某种程度上变得更加复杂,且时延也更大。上变得更加复杂,且时延也更大。第第8 8章章 多处理器系统多处理器系统 分布式存储器有两种进行处理器之间通信分布式存储器有两种进行处理器之间通信的方式。的方式。一种是分布式共享存储器(一种是分布式共享存储器(DistributedShared-Memory,简称,简称DSM)系统,它)系统,它将物理上分开的存储器在逻辑上统一为一将物理上分开的存储器在
19、逻辑上统一为一个地址空间,通过个地址空间,通过load和和store操作在统操作在统一的地址空间上隐式地传递数据。一的地址空间上隐式地传递数据。另一种是各个处理器都有自己的私有地址另一种是各个处理器都有自己的私有地址空间,它们在逻辑上分散,相互独立。数空间,它们在逻辑上分散,相互独立。数据通信往往通过显式地在处理器之间传递据通信往往通过显式地在处理器之间传递消息来完成。消息来完成。第第8 8章章 多处理器系统多处理器系统 GustafsonGustafson定律定律定律定律:扩展加速比扩展加速比=N+(1-N)*S其中,其中,其中,其中,N N表示处理器的数量,表示处理器的数量,表示处理器的数
20、量,表示处理器的数量,S S表示程序中串行部分表示程序中串行部分表示程序中串行部分表示程序中串行部分的比例。的比例。的比例。的比例。虽然多处理器有利于程序级、进程级乃至线程级的虽然多处理器有利于程序级、进程级乃至线程级的虽然多处理器有利于程序级、进程级乃至线程级的虽然多处理器有利于程序级、进程级乃至线程级的并行处理,但存在着两个问题是并行开发所要面对并行处理,但存在着两个问题是并行开发所要面对并行处理,但存在着两个问题是并行开发所要面对并行处理,但存在着两个问题是并行开发所要面对的。一是程序可获得的并行度是有限的。二是执行的。一是程序可获得的并行度是有限的。二是执行的。一是程序可获得的并行度是
21、有限的。二是执行的。一是程序可获得的并行度是有限的。二是执行模块之间的通信开销。这限制了多处理器系统的性模块之间的通信开销。这限制了多处理器系统的性模块之间的通信开销。这限制了多处理器系统的性模块之间的通信开销。这限制了多处理器系统的性价比的提高。价比的提高。价比的提高。价比的提高。要解决这两个问题,一是在软件中采用更好的并行要解决这两个问题,一是在软件中采用更好的并行要解决这两个问题,一是在软件中采用更好的并行要解决这两个问题,一是在软件中采用更好的并行算法来提高并行度。二是改进系统结构,如在硬件算法来提高并行度。二是改进系统结构,如在硬件算法来提高并行度。二是改进系统结构,如在硬件算法来提
22、高并行度。二是改进系统结构,如在硬件上缓存共享数据,在确保存储器一致性的前提下,上缓存共享数据,在确保存储器一致性的前提下,上缓存共享数据,在确保存储器一致性的前提下,上缓存共享数据,在确保存储器一致性的前提下,如何使用如何使用如何使用如何使用CacheCache来减少远程访问频率。三是在软件来减少远程访问频率。三是在软件来减少远程访问频率。三是在软件来减少远程访问频率。三是在软件上重新构造数据来尽可能增加本地访问。此外,还上重新构造数据来尽可能增加本地访问。此外,还上重新构造数据来尽可能增加本地访问。此外,还上重新构造数据来尽可能增加本地访问。此外,还可以使用多线程或预取技术来减少时延的影响
23、。可以使用多线程或预取技术来减少时延的影响。可以使用多线程或预取技术来减少时延的影响。可以使用多线程或预取技术来减少时延的影响。8.2.3 8.2.3 8.2.3 8.2.3 多处理器并行处理定量分析和所遇到的问题多处理器并行处理定量分析和所遇到的问题多处理器并行处理定量分析和所遇到的问题多处理器并行处理定量分析和所遇到的问题第第8 8章章 多处理器系统多处理器系统 8.3 8.3 多处理器的多处理器的CacheCache一致性一致性 对称式共享存储器系统和多处理器的对称式共享存储器系统和多处理器的CacheCache一致性一致性 分布式共享存储器系统和基于目录的分布式共享存储器系统和基于目录
24、的CacheCache一致性一致性第第8 8章章 多处理器系统多处理器系统 8.3.1 8.3.1 8.3.1 8.3.1 对称式共享存储器系统和多处理器的对称式共享存储器系统和多处理器的对称式共享存储器系统和多处理器的对称式共享存储器系统和多处理器的CacheCacheCacheCache一致性一致性一致性一致性 对称式共享存储器系统对称式共享存储器系统 多处理器的多处理器的CacheCache一致性一致性 监听式协议实现多处理器的监听式协议实现多处理器的CacheCache一致性一致性第第8 8章章 多处理器系统多处理器系统 8.3.1.1 8.3.1.1 8.3.1.1 8.3.1.1
25、对称式共享存储器系统对称式共享存储器系统对称式共享存储器系统对称式共享存储器系统存储器存储器一级或多一级或多级级Cache图图8-5 对称式共享存储器的基本结构对称式共享存储器的基本结构处理处理器器一级或多一级或多级级Cache处理处理器器一级或多一级或多级级Cache处理处理器器一级或多一级或多级级Cache处理处理器器I/O系统系统存储器存储器存储器存储器存储器存储器互互连连网网络络第第8 8章章 多处理器系统多处理器系统 8.3.1.1 8.3.1.1 对称式共享存储器系统对称式共享存储器系统对对对对称称称称式式式式共共共共享享享享存存存存储储储储器器器器系系系系统统统统支支支支持持持持
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机系统结构 计算机系统 结构 PPT 课件
限制150内