并行处理机教程文件.ppt
《并行处理机教程文件.ppt》由会员分享,可在线阅读,更多相关《并行处理机教程文件.ppt(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、并行处理机M1M2MN-1M0234.2 并行处理机的基本结构并行处理机有两种典型结构:分布存储器并行处理机、共享存储器并行处理机分布存储器并行处理机、共享存储器并行处理机一台并行处理机由五个部分组成:多个处理单元多个处理单元PEPE,多个存储器模块,多个存储器模块M M,一个控制器,一个控制器CUCU,一个互连网络一个互连网络ICNICN,一台输入输出处理机,一台输入输出处理机IOPIOP。4.2.1 4.2.1 分布存储器并行处理机分布存储器并行处理机 4.2.2 4.2.2 共享存储器并行处理机共享存储器并行处理机 4.2.3 4.2.3 并行处理机的特点并行处理机的特点4 4.2.1
2、4.2.1 分布存储器并行处理机分布存储器并行处理机目前的大部分并行处理机是基于分布式存储器模型的目前的大部分并行处理机是基于分布式存储器模型的比比较较容容易易构构成成MPP(Massively Parallel Processor)(大量信息并行处理机),几十万个PE。必须依靠并行算法来提高PE的利用率。因此,应用领域有限。CU是控制部件,执行标量指令,并把向量指令广播到各个PE中。在CU中通常有一个较大容量的存储器。IOP是输入输出处理机,或称为主机。在IOP上安装操作系统,它除了负担输入输出工作外,还负责程序的编辑、编译和调试等工作。数据在局部存储器中的分布是一个很关键的问题。标量指令与
3、向量指令可以并发执行。5 CUIOPLM0LM1LMn-1PE0PE1PEn-1互连网络广播总线6根据以上结构,可以看出,它包含重复设置的多个同样的处理单元PE,通过数据寻径网络(互连网络)以一定方式相连。每个PE有各自的本地存储器LM。在统一的CU作用下,实现并行操作。程序和数据通过IOP装入,由于通过CU的是单指令流,所以指令的执行顺序还是和单处理机一样,基本上是串行处理。指令进行译码后,如果是标量操作,则直接由与CU直接连接的标量处理机执行。如果是向量操作,则将它广播到所有的PE并行的执行。互连网络负责PE间的通信,CU通过执行程序来控制互连网络。PE间的同步由CU的硬件实现。换句话说,
4、所有的PE在同一周期执行同一条指令,然而可以通过用屏蔽逻辑来决定任何一个PE在给定的指令周期执行或不执行指令。74.2.2 4.2.2 共享存储器并行处理机共享存储器并行处理机共享多体并行存储器SM通过互连网络与各处理单元PE相连。存储模块的数目等于或略大于处理单元的数目。同时在存储模块之间合理分配数据,通过灵活、高速的互连网络,使存储器与处理单元之间的数据传送在大多数向量运算中都能以存储器的最高频率进行,而最少受存储器冲突的影响。这种结构在PE数目不多的情况下是很理想的。共享存储器模型的处理单元数目一般不多,几个至几十个。共享存储器模型的处理单元数目一般不多,几个至几十个。Burroughs
5、 Scientific Processor(BSP)采用了这种结构。16个PE通过一个1617的对准互连网络访问17个共享存储器模块。存储器模块数与存储器模块数与PEPE数互质可以实现无冲突并行访问存储器。数互质可以实现无冲突并行访问存储器。89无论采用哪种存储方案,互连网络的存在都是必要的。在共享内存方案中,它是内存与处理单元之间的必由之路。在分布内存方案中,即使处理单元所需数据在大多数情况下能由本地存储器提供,处理单元之间的数据交往仍是必不可少的。而各处理单元之间可以通过两条途径相互联系:一条是通过广播总线广播到各PE中,另一条是通过互连网络。在处理单元很多的并行处理机中,PE之间的直接数
6、据通路是有限的。因此,互连网络的研究是解决性能的一个很重要的方面。104.2.3 4.2.3 并行处理机的特点并行处理机的特点速速度度高高,依靠增加PE个数来提高速度,与流水线处理机主要依靠缩短时钟周期相比,其提高速度的潜力要大得多。模块性好模块性好,生产和维护方便。可靠性高可靠性高,容易实现容错和重构。效效率率低低,通通常常作作为为专专用用计计算算机机,在很大程度上依赖于并行算法。它依靠的是资源重复,而不是时间重叠,它的每个处理单元要担负多种处理功能,其效率要低一些。依赖于互连网络依赖于互连网络。互连网络决定了PE之间的连接模式,也决定了并行处理机能够适应的算法。它基本是一台向量处理专用计算
7、机。它基本是一台向量处理专用计算机。114.3 并行处理机实例IlliacIV 是最先采用SIMD结构的并行处理机。随后一个方向是用位片PE制造的并行处理机,如Goodyear MPP、AMT/DAP610和TMC/CM-2。CM-5是以SIMD模式运行的同步MIMD计算机。另一个方向是用字宽运算PE的中粒度SIMD计算机。并行处理机的两个发展方向:保留阵列结构,但每个处理单元的规模减小保留阵列结构,但每个处理单元的规模减小,如一个bit。去掉阵列结构和分布存储器去掉阵列结构和分布存储器。Burroughs公司的BSP是代表。GF-11是由IBM Watson实验室研制、作科学模拟研究用的。M
8、asPar MP1是中粒度并行处理机的典型代表。并行处理机的两种典型代表:采用阵列结构分布存储器的IlliacIV并行处理机去掉阵列结构和分布存储器BSP并行处理机。124.3.1 IlliavIV 4.3.1 IlliavIV 并行处理机并行处理机1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”。1966年美国国防远景研究规划局ARPR与伊利诺依大学签定合同。原计划:256个PE,每个PE每240ns处理一个64位浮点数,每个局部存储器PE
9、M为2K64位,总的原算速度为1GFLOPS。美国Burroughs公司和伊利诺依大学于1972年共同设计和生产,1975年实际投入运行。用用了了4倍倍的的经经费费,只只达达到到1/20的的速速度度。只只实现了实现了8 864个个PE,只达到,只达到50MFLOPS。IlliacIV系系统统的的影影响响非非常常大大。它它是是并并行行处处理理机机的的典典型型代代表表,也也是是分布存储器并行处理机的典型代表。分布存储器并行处理机的典型代表。IlliacIV系统由三大部分组成。IlliacIV处理机阵列,阵列控制器,一台标准的Burroughs B6700计算机。13IlliacIVIlliacIV
10、系统由三大部分组成系统由三大部分组成IlliacIV处理机阵列:8 X 8,包括PE、PEM和互连网络。阵列控制器CU,输入输出处理机:一台标准的Burroughs B6700计算机。141 1、阵列控制器、阵列控制器阵列控制器CU实际上是一台小型控制计算机。对对阵阵列列处处理理单单元元实实行行控控制制和和完完成成标标量量操操作作。标标量量操操作作与与各各PEPE的数组操作可以重叠执行。的数组操作可以重叠执行。控制器的功能有以下五个方面:(1)对指令进行译码,并执行标量指令;(2)向各处理单元发出执行数组操作指令所需的控制信号;(3)产生和向所有处理单元广播公共的地址;(4)产生和向所有处理单
11、元广播公共的数据;(5)接收和处理PE、I/O操作以及B6700产生的陷阱中断信号。2 2、输入输出系统、输入输出系统IlliacIV的输入输出系统由磁盘文件系统DFS、I/O分系统和一台B6700处理机组成。I/O分系统又由输入输出开关IOS、控制描述字控制器CDC和输入输出缓冲存储器BIOM三个部分组成。153 3、IlliacIVIlliacIV处理阵列处理阵列IlliacIV处理阵列由64个PU组成。每个PU由处理部件PE和它的局部存储器PEM组成。每一个PUi只和它的东、西、南、北四个近邻PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod
12、 64直接连接。南北方向同一列PU连成一个环,东西方向构成一个闭合螺线。闭合螺线最短距离不超过闭合螺线最短距离不超过7 7步。普通网格最短距离不超过步。普通网格最短距离不超过8 8步。步。例如:从PU0到PU36的距离:采用普通网格必须8步:PU0PU1PU2PU3PU4PU12PU20PU28PU36 或 PU0PU8PU16PU24PU32PU33PU34PU35PU36 或 如果采用闭合螺旋线,只需要7步:PU0PU63PU62PU61PU60PU52PU44PU36或 PU0PU63PU55PU47PU39PU38PU37PU36 或 对于nn个单元的阵列,任任意意两两个个单单元元之之
13、间间的的最最短短距距离离不不超超过过n-1n-1步步。16普通网格必须8步:PUPU0 0PUPU1 1PUPU2 2PUPU3 3PUPU4 4PUPU1212PUPU2020PUPU2828PUPU3636或 PUPU0 0PUPU8 8PUPU1616PUPU2424PUPU3232PUPU3333PUPU3434PUPU3535PUPU3636 或 闭合螺旋线只要7步:PUPU0 0PUPU6363PUPU6262PUPU6161PUPU6060PUPU5252PUPU4444PUPU3636 或 PUPU0 0PUPU6363PUPU5555PUPU4747PUPU3939PUPU3
14、838PUPU3737PUPU3636 或 4.3.2 BSP4.3.2 BSP处理机处理机BSP(Buroughs Scientific Processor)计算机是由美国宝来公司和伊利诺依大学于1979年制造的。BSPBSP是共享存储器结构的并行处理机的典型代表。是共享存储器结构的并行处理机的典型代表。BSP由控制处理机、并行处理机、文件存储器、并行存储器模块以及对准网络等5个部分组成。1 1、并行处理机、并行处理机时钟周期160ns,向量运算速度最高可达向量运算速度最高可达50MFLOPS50MFLOPS。17个并行存储器模块,每个模块512K字,存储周期160ns。5 5级流水线:级流
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 处理机 教程 文件
限制150内