第4章并行处理机.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第4章并行处理机.ppt》由会员分享,可在线阅读,更多相关《第4章并行处理机.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 并行处理机并行处理机两种并行性概念:同时性并行同时性并行Simultaneity:两个或两个以上事件在同一时刻发生并并发发性性并并行行Concurrency:两两个个或或两两个个以以上上事事件件在在同同一一时时间间间间隔隔内内发发生生实现并行的三条技术途径:实现并行的三条技术途径:资源重复资源重复:通过重复设置多个处理部件来提高速度时间重叠:流水线资源共享:分时系统,分布式系统 并行处理机采用同时性并行,资源重复技术。4.1 并行处理机模型并行处理机模型4.2 并行处理机的基本结构并行处理机的基本结构4.3 并行处理机实例并行处理机实例4.4 并行处理机算法举例并行处理机算法举例
2、14.1 4.1 并行处理机模型并行处理机模型并行处理机的定义:多多个个PU按按照照一一定定方方式式互互连连,在在同同一一个个CU控控制制下下,对对各各自自的的数数据完成同一条指令规定的操作。据完成同一条指令规定的操作。从从CU看,指令是串行执行的,从看,指令是串行执行的,从PU看,数据是并行处理的。看,数据是并行处理的。并行处理机也称为阵列处理机、SIMD处理机等并行处理机的应用领域:主要用于高速向量或矩阵运算并行处理机的操作模型可用五元组来表示:并行处理机的操作模型可用五元组来表示:M M(N(N,C C,I I,M M,R),R),其中:N N为为PEPE(处理单元)个数处理单元)个数。
3、C C为控制部件为控制部件CUCU执行的指令集执行的指令集,包括标量指令和程序控制指令。I I为所有为所有PEPE并行执行的指令集并行执行的指令集,包括ALU、数据传送等操作M M为屏蔽操作集为屏蔽操作集,将PE划分为允许操作和禁止操作两个子集R R是数据寻径集是数据寻径集,互连网络中PE间通信所需要的各种模式2M1M2MN-1M0344.2 并行处理机的基本结构并行处理机有两种典型结构:分布存储器并行处理机、共享存储器并行处理机分布存储器并行处理机、共享存储器并行处理机一台并行处理机由五个部分组成:多个处理单元多个处理单元PEPE,多个存储器模块多个存储器模块M M,一个控制器一个控制器CU
4、CU,一个互连网络一个互连网络ICNICN,一台输入输出处理机一台输入输出处理机IOPIOP。4.2.1 4.2.1 分布存储器并行处理机分布存储器并行处理机 4.2.2 4.2.2 共享存储器并行处理机共享存储器并行处理机 4.2.3 4.2.3 并行处理机的特点并行处理机的特点5 4.2.1 4.2.1 分布存储器并行处理机分布存储器并行处理机目前的大部分并行处理机是基于分布式存储器模型的目前的大部分并行处理机是基于分布式存储器模型的比比较较容容易易构构成成MPP(Massively Parallel Processor)(大量信息并行处理机),几十万个PE。必须依靠并行算法来提高PE的利
5、用率。因此,应用领域有限。CU是控制部件,执行标量指令,并把向量指令广播到各个PE中。在CU中通常有一个较大容量的存储器。IOP是输入输出处理机,或称为主机。在IOP上安装操作系统,它除了负担输入输出工作外,还负责程序的编辑、编译和调试等工作。数据在局部存储器中的分布是一个很关键的问题。标量指令与向量指令可以并发执行。6 CUIOPLM0LM1LMn-1PE0PE1PEn-1互连网络广播总线7根据以上结构,可以看出,它包含重复设置的多个同样的处理单元PE,通过数据寻径网络(互连网络)以一定方式相连。每个PE有各自的本地存储器LM。在统一的CU作用下,实现并行操作。程序和数据通过IOP装入,由于
6、通过CU的是单指令流,所以指令的执行顺序还是和单处理机一样,基本上是串行处理。指令进行译码后,如果是标量操作,则直接由与CU直接连接的标量处理机执行。如果是向量操作,则将它广播到所有的PE并行的执行。互连网络负责PE间的通信,CU通过执行程序来控制互连网络。PE间的同步由CU的硬件实现。换句话说,所有的PE在同一周期执行同一条指令,然而可以通过用屏蔽逻辑来决定任何一个PE在给定的指令周期执行或不执行指令。84.2.2 4.2.2 共享存储器并行处理机共享存储器并行处理机共享多体并行存储器SM通过互连网络与各处理单元PE相连。存储模块的数目等于或略大于处理单元的数目。同时在存储模块之间合理分配数
7、据,通过灵活、高速的互连网络,使存储器与处理单元之间的数据传送在大多数向量运算中都能以存储器的最高频率进行,而最少受存储器冲突的影响。这种结构在PE数目不多的情况下是很理想的。共享存储器模型的处理单元数目一般不多,几个至几十个。共享存储器模型的处理单元数目一般不多,几个至几十个。Burroughs Scientific Processor(BSP)采用了这种结构。16个PE通过一个1617的对准互连网络访问17个共享存储器模块。存储器模块数与存储器模块数与PEPE数互质可以实现无冲突并行访问存储器。数互质可以实现无冲突并行访问存储器。910无论采用哪种存储方案,互连网络的存在都是必要的。在共享
8、内存方案中,它是内存与处理单元之间的必由之路。在分布内存方案中,即使处理单元所需数据在大多数情况下能由本地存储器提供,处理单元之间的数据交往仍是必不可少的。而各处理单元之间可以通过两条途径相互联系:一条是通过广播总线广播到各PE中,另一条是通过互连网络。在处理单元很多的并行处理机中,PE之间的直接数据通路是有限的。因此,互连网络的研究是解决性能的一个很重要的方面。114.2.3 4.2.3 并行处理机的特点并行处理机的特点速速度度高高,依靠增加PE个数来提高速度,与流水线处理机主要依靠缩短时钟周期相比,其提高速度的潜力要大得多。模块性好模块性好,生产和维护方便。可靠性高可靠性高,容易实现容错和
9、重构。效效率率低低,通通常常作作为为专专用用计计算算机机,在很大程度上依赖于并行算法。它依靠的是资源重复,而不是时间重叠,它的每个处理单元要担负多种处理功能,其效率要低一些。依赖于互连网络依赖于互连网络。互连网络决定了PE之间的连接模式,也决定了并行处理机能够适应的算法。它基本是一台向量处理专用计算机。它基本是一台向量处理专用计算机。124.3 并行处理机实例IlliacIV 是最先采用SIMD结构的并行处理机。随后一个方向是用位片PE制造的并行处理机,如Goodyear MPP、AMT/DAP610和TMC/CM-2。CM-5是以SIMD模式运行的同步MIMD计算机。另一个方向是用字宽运算P
10、E的中粒度SIMD计算机。并行处理机的两个发展方向:保留阵列结构,但每个处理单元的规模减小保留阵列结构,但每个处理单元的规模减小,如一个bit。去掉阵列结构和分布存储器去掉阵列结构和分布存储器。Burroughs公司的BSP是代表。GF-11是由IBM Watson实验室研制、作科学模拟研究用的。MasPar MP1是中粒度并行处理机的典型代表。并行处理机的两种典型代表:采用阵列结构分布存储器的IlliacIV并行处理机去掉阵列结构和分布存储器BSP并行处理机。134.3.1 4.3.1 IlliavIV IlliavIV 并行处理机并行处理机1963年,美国西屋电器公司提出“Slotnick
11、,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”。1966年美国国防远景研究规划局ARPR与伊利诺依大学签定合同。原计划:256个PE,每个PE每240ns处理一个64位浮点数,每个局部存储器PEM为2K64位,总的原算速度为1GFLOPS。美国Burroughs公司和伊利诺依大学于1972年共同设计和生产,1975年实际投入运行。用用了了4倍倍的的经经费费,只只达达到到1/20的的速速度度。只只实现了实现了8 864个个PE,只达到只达到50MFLOPS。IlliacIV系系统统的的影影响
12、响非非常常大大。它它是是并并行行处处理理机机的的典典型型代代表表,也也是是分布存储器并行处理机的典型代表。分布存储器并行处理机的典型代表。IlliacIV系统由三大部分组成。IlliacIV处理机阵列,阵列控制器,一台标准的Burroughs B6700计算机。14IlliacIVIlliacIV系统由三大部分组成系统由三大部分组成IlliacIV处理机阵列:8 X 8,包括PE、PEM和互连网络。阵列控制器CU,输入输出处理机:一台标准的Burroughs B6700计算机。151 1、阵列控制器、阵列控制器阵列控制器CU实际上是一台小型控制计算机。对对阵阵列列处处理理单单元元实实行行控控制
13、制和和完完成成标标量量操操作作。标标量量操操作作与与各各PEPE的数组操作可以重叠执行。的数组操作可以重叠执行。控制器的功能有以下五个方面:(1)对指令进行译码,并执行标量指令;(2)向各处理单元发出执行数组操作指令所需的控制信号;(3)产生和向所有处理单元广播公共的地址;(4)产生和向所有处理单元广播公共的数据;(5)接收和处理PE、I/O操作以及B6700产生的陷阱中断信号。2 2、输入输出系统、输入输出系统IlliacIV的输入输出系统由磁盘文件系统DFS、I/O分系统和一台B6700处理机组成。I/O分系统又由输入输出开关IOS、控制描述字控制器CDC和输入输出缓冲存储器BIOM三个部
14、分组成。163 3、IlliacIVIlliacIV处理阵列处理阵列IlliacIV处理阵列由64个PU组成。每个PU由处理部件PE和它的局部存储器PEM组成。每一个PUi只和它的东、西、南、北四个近邻PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64直接连接。南北方向同一列PU连成一个环,东西方向构成一个闭合螺线。闭合螺线最短距离不超过闭合螺线最短距离不超过7 7步。普通网格最短距离不超过步。普通网格最短距离不超过8 8步。步。例如:从PU0到PU36的距离:采用普通网格必须8步:PU0PU1PU2PU3PU4PU12PU20PU28PU3
15、6 或 PU0PU8PU16PU24PU32PU33PU34PU35PU36 或 如果采用闭合螺旋线,只需要7步:PU0PU63PU62PU61PU60PU52PU44PU36或 PU0PU63PU55PU47PU39PU38PU37PU36 或 对于nn个单元的阵列,任任意意两两个个单单元元之之间间的的最最短短距距离离不不超超过过n-1n-1步步。17普通网格必须8步:PUPU0 0PUPU1 1PUPU2 2PUPU3 3PUPU4 4PUPU1212PUPU2020PUPU2828PUPU3636或 PUPU0 0PUPU8 8PUPU1616PUPU2424PUPU3232PUPU33
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 处理机
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内