多处理机曹强计算机学院武汉光电国家实验室信息存.ppt
《多处理机曹强计算机学院武汉光电国家实验室信息存.ppt》由会员分享,可在线阅读,更多相关《多处理机曹强计算机学院武汉光电国家实验室信息存.ppt(157页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 1/156/156多处理机曹强计算机学院武汉光电国家实验室信息存 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望2 2/156/15610.1引言10.2对称式共享存储器系统结构10.3分布式共享存储器系统结构10.4同步10.5同时多线程10.6 大规模并行处理机MPP10.7多处理机实例1:T110.8多处理机实例2:Origin 20001.单处理机系统结构正在走向尽头?2.多处理机正起着越来越重要的作用。近几年来,人们确实开始转向了多处理机。Intel
2、于2004年宣布放弃了其高性能单处理器项目,转向多核(multi-core)的研究和开发。IBM、SUN、AMD等公司 并行计算机应用软件已有了稳定的发展。充分利用商品化微处理器所具有的高性能价格比的优势。3.本章重点:中小规模的计算机(处理器的个数32)(多处理机设计的主流)10.1 引 言4 4/156/15610.1 引 言1.Flynn分类法 SISD、SIMD、MISD、MIMD2.MIMD已成为通用多处理机系统结构的选择,原因:MIMD具有灵活性;MIMD可以充分利用商品化微处理器在性能价格比方面的优势。计算机机群系统(计算机机群系统(clustercluster)是一类广泛被采用
3、)是一类广泛被采用的的MIMDMIMD机器。机器。10.1.1 并行计算机系统结构的分类 5 5/156/15610.1 引 言3.根据存储器的组织结构,把现有的MIMD机器分为两类:(每一类代表了一种存储器的结构和互连策略)(每一类代表了一种存储器的结构和互连策略)集中式共享存储器结构 动画q最多由几十个处理器构成。最多由几十个处理器构成。q各处理器共享一个集中式的物理存储器。各处理器共享一个集中式的物理存储器。这类机器有时被称为这类机器有时被称为 qSMPSMP机器机器 (Symmetric shared-memory MultiProcessorSymmetric shared-memo
4、ry MultiProcessor)qUMAUMA机器机器(Uniform Memory AccessUniform Memory Access)6 6/156/15610.1 引 言对称式共享存储器多处理机的基本结构对称式共享存储器多处理机的基本结构7 7/156/15610.1 引 言分布式存储器多处理机 动画q存储器在物理上是分布的。存储器在物理上是分布的。q每个结点包含:每个结点包含:n处理器处理器n存储器存储器nI IO On互连网络接口互连网络接口q在许多情况下,分布式存储器结构在许多情况下,分布式存储器结构优于优于集中式共享存集中式共享存储器结构。储器结构。8 8/156/156
5、10.1 引 言9 9/156/15610.1 引 言q将存储器分布到各结点有两个将存储器分布到各结点有两个优点优点n如果大多数的访问是针对本结点的局部存储器,则如果大多数的访问是针对本结点的局部存储器,则可降低对存储器和互连网络的带宽要求;可降低对存储器和互连网络的带宽要求;n对本地存储器的访问延迟时间小。对本地存储器的访问延迟时间小。q最主要的最主要的缺点缺点n处理器之间的通信较为复杂,且各处理器之间访问处理器之间的通信较为复杂,且各处理器之间访问延迟较大。延迟较大。q簇:簇:超级结点超级结点 n每个结点内包含个数较少(例如每个结点内包含个数较少(例如2 28 8)的处理器;)的处理器;n
6、处理器之间可采用另一种互连技术(例如总线)相处理器之间可采用另一种互连技术(例如总线)相互连接形成簇。互连接形成簇。1010/156/15610.1 引 言1.两种存储器系统结构和通信机制共享地址空间 q物理上分离的所有存储器作为一个统一的共享逻辑物理上分离的所有存储器作为一个统一的共享逻辑空间进行编址。空间进行编址。q任何一个处理器可以访问该共享空间中的任何一个任何一个处理器可以访问该共享空间中的任何一个单元(如果它具有访问权),而且不同处理器上的单元(如果它具有访问权),而且不同处理器上的同一个物理地址指向的是同一个存储单元。同一个物理地址指向的是同一个存储单元。q这类计算机被称为这类计算
7、机被称为 分布式共享存储器系统分布式共享存储器系统 (DSMDSM:Distributed Shared-Memory):Distributed Shared-Memory)NUMA NUMA机器机器 (NUMANUMA:Non-Uniform Memory Access):Non-Uniform Memory Access)10.1.2 存储器系统结构和通信机制 1111/156/15610.1 引 言把每个结点中的存储器编址为一个独立的地址空间,不同结点中的地址空间之间是相互独立的。q整个系统的地址空间由多个独立的地址空间构成整个系统的地址空间由多个独立的地址空间构成q每个结点中的存储器只
8、能由本地的处理器进行访问,每个结点中的存储器只能由本地的处理器进行访问,远程的处理器不能直接对其进行访问。远程的处理器不能直接对其进行访问。q每一个每一个处理器处理器-存储器存储器模块实际上是一台单独的计算机模块实际上是一台单独的计算机q现在的这种机器多以集群的形式存在现在的这种机器多以集群的形式存在2.通信机制 共享存储器通信机制q共享地址空间的计算机系统采用共享地址空间的计算机系统采用1212/156/15610.1 引 言q处理器之间是通过用处理器之间是通过用load和和store指令对相同存储器地指令对相同存储器地址进行读址进行读/写操作来实现的。写操作来实现的。消息传递通信机制q多个
9、独立地址空间的计算机采用多个独立地址空间的计算机采用 q通过处理器间显式地传递消息来完成通过处理器间显式地传递消息来完成q消息传递多处理机消息传递多处理机中,处理器之间是通过发送消息来中,处理器之间是通过发送消息来进行通信的,这些消息请求进行某些操作或者传送数进行通信的,这些消息请求进行某些操作或者传送数据。据。1313/156/15610.1 引 言例如:例如:一个处理器要对远程存储器上的数据进行访问或操作:一个处理器要对远程存储器上的数据进行访问或操作:n发送消息,请求传递数据或对数据进行操作;发送消息,请求传递数据或对数据进行操作;远程进程调用远程进程调用(RPC(RPC,Remote
10、Process Call)Remote Process Call)n目的处理器接收到消息以后,执行相应的操作或代替目的处理器接收到消息以后,执行相应的操作或代替远程处理器进行访问,并发送一个应答消息将结果返远程处理器进行访问,并发送一个应答消息将结果返回。回。q同步消息传递同步消息传递 请求处理器发送一个消息后一直要等到应答结果才继续运行。请求处理器发送一个消息后一直要等到应答结果才继续运行。q异步消息传递异步消息传递 数据发送方知道别的处理器需要数据,通信也可以从数数据发送方知道别的处理器需要数据,通信也可以从数据发送方来开始,数据可以不经请求就直接送往数据接受方。据发送方来开始,数据可以不
11、经请求就直接送往数据接受方。1414/156/15610.1 引 言3.不同通信机制的优点 共享存储器通信的主要优点 q与常用的对称式多处理机使用的通信机制兼容。与常用的对称式多处理机使用的通信机制兼容。q易于编程,同时在简化编译器设计方面也占有优势。易于编程,同时在简化编译器设计方面也占有优势。q采用大家所熟悉的共享存储器模型开发应用程序,而采用大家所熟悉的共享存储器模型开发应用程序,而把重点放到解决对性能影响较大的数据访问上。把重点放到解决对性能影响较大的数据访问上。q当通信数据量较小时,通信开销较低,带宽利用较好。当通信数据量较小时,通信开销较低,带宽利用较好。q可以通过采用可以通过采用
12、Cache技术来减少远程通信的频度技术来减少远程通信的频度,减少,减少了通信延迟以及对共享数据的访问冲突。了通信延迟以及对共享数据的访问冲突。1515/156/15610.1 引 言消息传递通信机制的主要优点q硬件较简单。硬件较简单。q通信是显式的,因此更容易搞清楚何时发生通信以及通通信是显式的,因此更容易搞清楚何时发生通信以及通信开销是多少。信开销是多少。q显式通信可以让编程者重点注意并行计算的主要通信开显式通信可以让编程者重点注意并行计算的主要通信开销,使之有可能开发出结构更好、性能更高的并行程序。销,使之有可能开发出结构更好、性能更高的并行程序。q同步很自然地与发送消息相关联,能减少不当
13、的同步带同步很自然地与发送消息相关联,能减少不当的同步带来错误的可能性。来错误的可能性。1616/156/15610.1 引 言可在支持上面任何一种通信机制的硬件模型上建立所需的通信模式平台。q在共享存储器上支持消息传递相对简单。在共享存储器上支持消息传递相对简单。q在消息传递的硬件上支持共享存储器就困难得多。在消息传递的硬件上支持共享存储器就困难得多。所有对共享存储器的访问均要求操作系统提供地址所有对共享存储器的访问均要求操作系统提供地址转换和存储保护功能,即将存储器访问转换为消息转换和存储保护功能,即将存储器访问转换为消息的发送和接收。的发送和接收。1717/156/15610.1 引 言
14、并行处理面临着两个重要的挑战程序中的并行性有限相对较大的通信开销10.1.3 并行处理面临的挑战 系统加速比系统加速比 =1818/156/15610.1 引 言1.第一个挑战有限的并行性使计算机要达到很高的加速比十分困难。例例10.110.1 假设想用假设想用100100个处理器达到个处理器达到8080的加速比,求原计算程的加速比,求原计算程 序中串行部分最多可占多大的比例?序中串行部分最多可占多大的比例?解解 AmdahlAmdahl定律为:定律为:由上式可得:由上式可得:并行比例并行比例0.99750.9975 1919/156/15610.1 引 言2.第二个挑战:多处理机中远程访问的
15、延迟较大在现有的机器中,处理器之间的数据通信大约需要501000个时钟周期。主要取决于:通信机制、互连网络的种类和机器的规模通信机制、互连网络的种类和机器的规模 在几种不同的共享存储器并行计算机中远程访问一个字的典型延迟 2020/156/15610.1 引 言机器 通信机制 互连网络 处理机最大数量 典型远程存储器访问时间(ns)Sun Starfire Sun Starfire servers servers SMP SMP 多总线多总线 64 64 500 500 SGI Origin 3000 SGI Origin 3000 NUMA NUMA 胖超立方体胖超立方体 512 512 5
16、00 500 Cray T3E Cray T3E NUMA NUMA 3 3维环网维环网 2048 2048 300 300 HP V series HP V series SMP SMP 8 88 8交叉开关交叉开关 32 32 1000 1000 HP AlphaServer GS HP AlphaServer GS SMP SMP 开关总线开关总线 32 32 400 400 2121/156/15610.1 引 言 例例10.210.2 假设有一台假设有一台3232台处理器的多处理机,对远程存储器台处理器的多处理机,对远程存储器访问时间为访问时间为200ns200ns。除了通信以外,假
17、设所有其它访问均命中局。除了通信以外,假设所有其它访问均命中局部存储器。当发出一个远程请求时,本处理器挂起。处理器的时部存储器。当发出一个远程请求时,本处理器挂起。处理器的时钟频率为钟频率为2GHz2GHz,如果指令基本的,如果指令基本的CPICPI为为0.50.5(设所有访存均命中(设所有访存均命中CacheCache),求在没有远程访问的情况下和有),求在没有远程访问的情况下和有0.2%0.2%的指令需要远程的指令需要远程访问的情况下,前者比后者快多少访问的情况下,前者比后者快多少?2222/156/15610.1 引 言解解 有有0.2%0.2%远程访问的机器的实际远程访问的机器的实际C
18、PICPI为:为:CPICPI基本基本CPICPI远程访问率远程访问率远程访问开销远程访问开销 0.50.50.2%0.2%远程访问开销远程访问开销 远程访问开销为:远程访问开销为:远程访问时间远程访问时间/时钟周期时间时钟周期时间200ns/0.5ns200ns/0.5ns400400个时钟周期个时钟周期 CPICPI0.50.50.2%4000.2%4001.31.3 因此在没有远程访问的情况下的机器速度是有因此在没有远程访问的情况下的机器速度是有0.2%0.2%远程访远程访问的机器速度的问的机器速度的1.3/0.5=2.61.3/0.5=2.6倍倍。2323/156/15610.1 引
19、言问题的解决q并行性不足:并行性不足:采用并行性更好的算法采用并行性更好的算法q远程访问延迟的降低:靠系统结构支持和编程技术远程访问延迟的降低:靠系统结构支持和编程技术 3.在并行处理中,影响性能(负载平衡、同步和存储器访问延迟等)的关键因素常依赖于:应用程序的高层特性 如数据的分配,并行算法的结构以及在空间和如数据的分配,并行算法的结构以及在空间和时间上对数据的访问模式等。时间上对数据的访问模式等。依据应用特点可把多机工作负载大致分成两类:q单个程序在多处理机上的并行工作负载单个程序在多处理机上的并行工作负载q多个程序在多处理机上的并行工作负载多个程序在多处理机上的并行工作负载2424/15
20、6/15610.1 引 言4.并行程序的计算通信比率反映并行程序性能的一个重要的度量:计算与通信的比率计算与通信的比率计算通信比率随着处理数据规模的增大而增加;随着处理器数目的增加而减少。2525/156/156多个处理器共享一个存储器。当处理机规模较小时,这种计算机十分经济。近些年,能在一个单独的芯片上实现28个处理器核。例如:例如:Sun公司公司 2006年年 T1 8核核的多处理器的多处理器支持对共享数据和私有数据的Cache缓存 私有数据供一个单独的处理器使用,而共享私有数据供一个单独的处理器使用,而共享数据则是供多个处理器使用。数据则是供多个处理器使用。共享数据进入Cache产生了一
21、个新的问题 CacheCache的一致性问题的一致性问题10.2 对称式共享存储器系统结构2626/156/15610.2 对称式共享存储器系统结构1.多处理机的Cache一致性问题允许共享数据进入Cache,就可能出现多个处理器的Cache中都有同一存储块的副本,当其中某个处理器对其Cache中的数据进行修改后,就会使得其Cache中的数据与其他Cache中的数据不一致。例由两个处理器(由两个处理器(A和和B)读写引起的)读写引起的Cache一致性问题一致性问题 10.2.1 多处理机Cache一致性2828/156/15610.2 对称式共享存储器系统结构2.存储器的一致性 如果对某个数据
22、项的任何读操作均可得到其最新写入的值,则认为这个存储系统是一致的。存储系统行为的两个不同方面qWhat:What:读操作得到的是什么值读操作得到的是什么值qWhen:When:什么时候才能将已写入的值返回给读操作什么时候才能将已写入的值返回给读操作需要满足以下条件q处理器处理器P P对单元对单元X X进行一次写之后又对单元进行一次写之后又对单元X X进行读,进行读,读和写之间没有其它处理器对单元读和写之间没有其它处理器对单元X X进行写,则进行写,则P P读读到的值总是前面写进去的值。到的值总是前面写进去的值。2929/156/15610.2 对称式共享存储器系统结构q处理器处理器P P对单元
23、对单元X X进行写之后,另一处理器进行写之后,另一处理器Q Q对单元对单元X X进进行读,读和写之间无其它写,则行读,读和写之间无其它写,则Q Q读到的值应为读到的值应为P P写进写进去的值。去的值。q对同一单元的写是串行化的,即任意两个处理器对同对同一单元的写是串行化的,即任意两个处理器对同一单元的两次写,从各个处理器的角度看来顺序都是一单元的两次写,从各个处理器的角度看来顺序都是相同的。相同的。(写串行化写串行化 )在后面的讨论中,我们假设:q直到所有的处理器均看到了写的结果,这个写操作才直到所有的处理器均看到了写的结果,这个写操作才算完成;算完成;q处理器的任何访存均不能改变写的顺序。就
24、是说,允处理器的任何访存均不能改变写的顺序。就是说,允许处理器对读进行重排序,但必须以程序规定的顺序许处理器对读进行重排序,但必须以程序规定的顺序进行写。进行写。3030/156/15610.2 对称式共享存储器系统结构在一致的多处理机中,Cache提供两种功能:共享数据的迁移 减少了对远程共享数据的访问延迟,也减少了减少了对远程共享数据的访问延迟,也减少了对共享存储器带宽的要求。对共享存储器带宽的要求。共享数据的复制 不仅减少了访问共享数据的延迟,也减少了访问不仅减少了访问共享数据的延迟,也减少了访问共享数据所产生的冲突。共享数据所产生的冲突。一般情况下,小规模多处理机是采用硬件的方法来实现
25、Cache的一致性。10.2.2 实现一致性的基本方案3131/156/15610.2 对称式共享存储器系统结构1.Cache一致性协议 在多个处理器中用来维护一致性的协议。关键:跟踪记录共享数据块的状态 两类协议(采用不同的技术跟踪共享数据的状态)q目录式协议目录式协议(directorydirectory)物理存储器中数据块的共享状态被保存在一个称物理存储器中数据块的共享状态被保存在一个称为目录的地方。为目录的地方。q监听式协议监听式协议(snoopingsnooping)n每个每个CacheCache除了包含物理存储器中块的数据拷贝之除了包含物理存储器中块的数据拷贝之外,也保存着各个块的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 处理机 计算机 学院 武汉 光电 国家 实验室 信息
限制150内