并行处理机和多处理机优秀课件.ppt
《并行处理机和多处理机优秀课件.ppt》由会员分享,可在线阅读,更多相关《并行处理机和多处理机优秀课件.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、并行处理机和多处理机第1页,本讲稿共52页并行处理计算机模型并行处理计算机模型并行处理机定义:多个PU按照一定方式互连,在同一个CU控制下,对各自的数据完成同一条指令规定的操作。从CU看,指令是串行执行的,从PU看,数据是并行处理的。并行处理机也称为阵列处理机。按照佛林分类法,它属于SIMD计算机。并行处理机的应用领域:主要用于高速向量或矩阵运算中。8.1 8.1 并行处理机结构和实例并行处理机结构和实例第2页,本讲稿共52页P0M0PE0P1M1PE1P2M2PE2Pn-1Mn-1Pen-1互连网络控制器HJSiegel提出的并行处理机模型下图是H.J.Siegel提出的SIMD计算机的操作
2、模型第3页,本讲稿共52页并行处理机的操作模型可用五元组来表示:M(N,C,I,M,R),其中:N为PE个数。如IlliacIV有64个PE。C为由控制部件CU直接执行的指令集,包括标量指令和程序控制指令。I为所有PE并行执行的指令集,包括算术运算、逻辑运算、数据寻径、屏蔽以及其它由每个活动的PE对它的数据所执行的局部操作。M为屏蔽操作集,每种屏蔽将PE划分为允许操作和禁止操作两个子集。R是数据寻径集,说明互连网络中PE间通信所需要的各种设置模式。第4页,本讲稿共52页系统型号SIMD计算系统结构和性能语言、编译器和软件支持MasParMP-1系列102416384个PE,26 GIPS或1.
3、3 Gflops;每个PE带 16KB本 地存储器,X-Net网格加一个多级交叉开关互连网Fortran77,MasPar Fortran(MPF)和 MasPar并行应用语言;X窗口UNIX/OS,符号调试程序,可视化和动画制作程序典型并行处理机第5页,本讲稿共52页Active Memory Technology DAP600系列1K位/PE方形网格互连成4096PE的细粒、位片SIMD阵列,正交4-邻位链接,20GIPS和560Mflops峰 值 性能由主机VAX/VMS或 UNIX Fortran-plus 或 DAP上APAL提供,主机的 Fortran77或 C;与Fortran9
4、0标准有关的Fortran-plusThinking Machines公司CM-265536个 PE排 成 10维超立方体,每个PE可有1M位存储器,32个 PE共 享FPU选件,峰值速度28 Gflops和持续速度5.6 Gflops由 VAX,Sun或Symbolics 360主机驱动,PARIS支持的Lisp编译器、Fortran90、C*和*Lisp第6页,本讲稿共52页并行处理机的基本结构并行处理机的基本结构两种SIMD计算机的基本结构:分布存储器并行处理机共享存储器并行处理机一台并行处理机由五个部分组成:多个处理单元PE多个存储器模块M一个控制器CU一个互连网络ICN一台输入输出处
5、理机IOP第7页,本讲稿共52页n目前的大部分并行处理机是基于分布式存储器模型的系统。n比较容易构成MPP(Massively Parallel Processor),几十万个PE。n必须依靠并行算法来提高PE的利用率。因此,应用领域很有限。nCU是控制部件,执行标量指令,并把向量指令广播到各个PE中。在CU中通常有一个较大容量的存储器。nIOP是输入输出处理机,或称为主机。在IOP上安装操作系统,它除了负担输入输出工作外,还负责程序的编辑、编译和调试等工作。n数据在局部存储器中的分布是一个很关键的问题。n标量指令与向量指令可以并发执行。1、分布存储器结构第8页,本讲稿共52页LM0互连网络P
6、E0CULM1PE1LMn-1PEn-1IOP第9页,本讲稿共52页n共享的多体并行存储器 SM 通过互连网络与各处理单元PE相连。n存储模块的数目等于或略大于处理单元的数目。n同时在存储模块之间合理分配数据,通过灵活、高速的互连网络,使存储器与处理单元之间的数据传送在大多数向量运算中都能以存储器的最高频率进行,而最少受存储冲突的影响。n共享存储器模型的处理单元数目一般不多,几个至几十个。nBurroughs Scientific Processor(BSP)采用了这种结构。16个PE通过一个1617的对准互连网络访问17个共享存储器模块。n存储器模块数与PE数互质可以实现无冲突并行访问存储器
7、。2.2.共享存储器并行处理机共享存储器并行处理机第10页,本讲稿共52页PE0互连网络CUPE1PEn-1IOPSM0SM1SMk-1第11页,本讲稿共52页n并行处理机的主要特点如下:n速度快,特别适于高速数值计算。nSIMD依靠的是资源重复,而不是时间重叠。它依靠增加PE个数,与流水线处理机主要依靠缩短时钟周期相比,其提高速度的潜力要大得多。n依赖于互连网络和并行算法。互连网络决定了PE之间的连接模式,也决定了并行处理机能够适应的算法。n需要有一台高性能的标量处理机。如果一台机器的向量处理速度极高,但标量处理速度只是每秒一百万次,那么对于标量运算占10的题目来说,总的有效速度就不过是每秒
8、一千万次。nSIMD基本上是一台向量处理专用计算机。尽管它有一个功能很强的控制部件实际上起作标量处理机的作用,但仍然必须和一台高性能单处理机配合工作,使后者担负系统的全部管理功能。并行处理机的特点并行处理机的特点第12页,本讲稿共52页nIlliacIV 是最先采用SIMD结构的并行机n随后一个方向是用位片PE制造的并行机,如Goodyear MPP、AMT/DAP 610和TMC/CM-2。CM-5是以SIMD模式运行的同步MIMD计算机。另一方向是用字宽运算PE的中粒度SIMD计算机。n并行处理机的两个发展方向:n保留阵列结构,但每个处理单元的规模减小,如一个bit。去掉阵列结构和分布存储
9、器。nBurroughs公司的BSP是典型代表。GF-11是由IBM Watson实验室研制、作科学模拟研究用的。MasPar MP1是中粒度并行处理机的典型代表。n下面介绍并行处理机的两种典型代表:n采用阵列结构分布存储器的IlliacIV并行处理机去掉阵列结构和分布存储器BSP并行处理机。并行处理机实例并行处理机实例第13页,本讲稿共52页Illiac IV(Barnes等,1968)Goodyear MPP(Batcher,1980)BSP(kuck和Stokes,1982)DAP 610(AMT,Inc.1987)CM-2(TMC,1990)CM-5(TMC,1991)MasPar M
10、PI(Nickolls,1990)IBM GF-11(Beetem等,1985)SIMD计算机发展过程第14页,本讲稿共52页n1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”。n1966年美国国防远景研究规划局ARPR与伊利诺依大学签定合同。原计划:256个PE,每个PE每240ns处理一个64位的浮点数,每个局部存储器PEM为2K?64位,总的运算速度为1GFLOPS。n美国Burroughs公司和伊利诺依大学于1972年共同设计和生产,
11、1975年实际投入运行。用了4倍的经费,只达到1/20的速度。只实现了8?864个PE,只达到50MFLOPS。nIlliacIV系统的影响非常大。它是并行处理机的典型代表,也是分布存储器并行处理机的典型代表。nIlliacIV系统由三大部分组成。IlliacIV处理机阵列,阵列控制器,一台标准的Burroughs B6700计算机。1 IlliacIVIlliacIV 阵列处理机第15页,本讲稿共52页第16页,本讲稿共52页n1、IlliacIV处理阵列nIlliacIV处理阵列由8864个PU组成。每个PU由处理部件PE和它的局部存储器PEM组成。n每一个PUi只和它的东、西、南、北四个
12、近邻直接连接。PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64n南北方向上同一列的PU连成一个环,东西方向上构成一个闭合螺线。n采用闭合螺线最短距离不超过7步。而普通网格最短距离不超过8步。n例如:从PU0到PU36的距离:采用普通网格必须8步:PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36或(等于8步的很多,大于8步的更多)如果采用闭合螺旋线,只需要7步:PU0 PU63 PU62 PU61 PU60 PU52 PU44
13、 PU36第17页,本讲稿共52页n普通网格必须8步:PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36或 n闭合螺旋线只要7步:PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36或 PU0 PU63 PU55 PU47 PU39 PU38 PU37 PU36或 第18页,本讲稿共52页第19页,本讲稿共52页2、阵列控制器n阵列控制器CU实际上是一台小型控制计算机。对阵列处理单元实行控制和完成标量操作。标量操作与各PE的数组操作可以重叠执行。n控制器的
14、功能有以下五个方面:(1)对指令进行译码,并执行标量指令;(2)向各处理单元发出执行数组操作指令所需的控制信号;(3)产生和向所有处理单元广播公共的地址;第20页,本讲稿共52页n(4)产生和向所有处理单元广播公共的数据;(5)接收和处理PE、I/O操作以及B6700产生的陷阱中断信号。n2、输入输出系统nIlliacIV的输入输出系统由磁盘文件系统DFS、I/O分系统和一台B6700处理机组成。nI/O分系统又由输入输出开关IOS、控制描述字控制器CDC和输入输出缓冲存储器BIOM三个部分组成。第21页,本讲稿共52页试在含一个PE的SISD机和在含m个PE的且连接成一线性环的SIMD机上计
15、算下列求内积的表达式。假定完成每次ADD操作需2个单元时间,完成每次MULTIPLY操作需4个单位时间,沿双向环在相邻PE间移数需1个单位时间。(1)SISD计算机上计算s需多少时间?(2)SIMD计算机上计算s需多少时间?(3)用SIMD机计算s相对于用SISD机计算的加速比是多少?习题8.6第22页,本讲稿共52页(1)在SISD计算机中计算s需要串行计算n次乘法和n-1次加法。共需要时间:算法如下:S=A1*B1 For i=2 to n DoS=S+Ai*Bi Enddo(2)在SIMD计算机上计算采用如下的算法:(假设mn)首先,把向量中的n对元素尽量平均地分配到m个处理器中,每个处
16、理器最多分配n/m+1对,最少分配n/m对,最多经过4(n/m+1)+2n/m时间,所有n个处理器上都得到了一个局部和,对这m个处理器解答第23页,本讲稿共52页构成的线性环做累加运算。若采用两路7线性累加的方法共用做加法m/2次,数据传递m/2次,共用时间4(n/m+1)+2n/m+3m/2=6n/m+3m/2+4。若用递归累加的方法,假设m是2的p次幂。做p次并行的加法,移位1+2+4+m/2=m-1次。用时2p+(m-1)。总共用时为4(n/m+1)+2n/m+2log m+(m-1)=6n/m+m+2logm+3进一步分析:当2logm16时并行累加比两路线性累加更优。反之,当m16时
17、,两路线性累加更快。其根本原因就是并行累加算法节省了加法时间,但是花费更多的数据传送时间。第24页,本讲稿共52页算法描述如下:Par:For j=1 to m DoS(j)=A1j*B1jFor 2 to n/m DoS(j)=S(j)+Aij*BijEnddoS(j)=S(j)+S(j+1)S(j)=S(j)+S(j+2)S(j)=S(j)+S(j+4)S(j)=S(j)+S(j+n/m)Enddo第25页,本讲稿共52页(3)加速比当采用两路线性累加的方法时加速比为:若m=n,做乘法的时间变为4,则加速比简化为当采用递归并行累加时加速比为:当m=n 时,做乘法的时间变为4,则加速比简化为
18、第26页,本讲稿共52页分析其原因,可以看出,线性互连网络的传输开销在这里是制约加速比增长的最大障碍,无论采用何种并行算法,一个数据从线性环形网络中的一个节点传递到最远的节点的最短时间为m/2,这个时间是无法改进的,并且随着处理节点的增多成为最主要的时间开销。相对而言,加法和乘法随着处理单元的增多,所占的时间比例越来越小。第27页,本讲稿共52页8.2多处理机结构和实例n两个或两个以上处理机(包括PU和CU),通过高速互连网络连接起来,在统一的操作系统管理下,实现指令以上级(任务级、作业级)并行。n按照Flynn分类法,多处理机系统属于MIMD计算机。n多处理机系统由多个独立的处理机组成,每个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 处理机 优秀 课件
限制150内