《并行处理机》PPT课件.ppt
《《并行处理机》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《并行处理机》PPT课件.ppt(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第 8 8 章章 并行处理机并行处理机8.1 并行处理(并行处理(SIMD)机原理)机原理8.2 并行处理机算法并行处理机算法 8.3 并行处理机举例并行处理机举例 并行处理机是通过重复设置大量相同的处理单元并行处理机是通过重复设置大量相同的处理单元PEPE(Processing ElementProcessing Element),将它们按一定的方式互连,在统),将它们按一定的方式互连,在统一的控制部件一的控制部件CUCU(Control UnitControl Unit)控制下,对各自分配来的不)控制下,对各自分配来的不同数据并行地完成同一条指令所规定的操作。它依靠操作一级同数据并行地完
2、成同一条指令所规定的操作。它依靠操作一级的并行处理来提高系统的速度。的并行处理来提高系统的速度。并行处理机的控制部件中进行的是单指令流,因此与高并行处理机的控制部件中进行的是单指令流,因此与高性能单处理机一样,指令基本上是串行执行,最多加上使用性能单处理机一样,指令基本上是串行执行,最多加上使用指令重叠或流水线的方式工作。指令重叠或流水线的方式工作。指令重叠是将指令分成两类,把只适合串行处理的控制指令重叠是将指令分成两类,把只适合串行处理的控制和标量类指令留给控制部件自己执行,而把适合于并行处理和标量类指令留给控制部件自己执行,而把适合于并行处理的向量类指令播送到所有处理单元,控制让处于活跃的
3、那些的向量类指令播送到所有处理单元,控制让处于活跃的那些处理单元去并行执行。因此这是一种标量控制类指令和向量处理单元去并行执行。因此这是一种标量控制类指令和向量类指令的重叠执行。类指令的重叠执行。8.1.1 并行处理机的原理和基本构成并行处理机的原理和基本构成并行处理机分类并行处理机分类 并并行行处处理理机机根根据据存存贮贮器器采采用用的的组组成成方方式式不不同同分分成成两两种种基基本本构成。构成。(1)分布存贮的并行处理机)分布存贮的并行处理机 各个处理单元设有局部存贮器存放分布式数据,只能被各个处理单元设有局部存贮器存放分布式数据,只能被本处理单元直接访问。此种局部存贮器称为处理单元存贮器
4、本处理单元直接访问。此种局部存贮器称为处理单元存贮器(Processing Element Memory)PEM。在控制部件。在控制部件CU内设内设有一个用来存放程序的主存贮器有一个用来存放程序的主存贮器CUM。整个系统在。整个系统在CU统一统一控制下运行系统程序的用户程序。执行主存中的用户程序指控制下运行系统程序的用户程序。执行主存中的用户程序指令播送给各个令播送给各个PE,控制,控制PE并行地执行。并行地执行。(2)共享存贮的并行处理机。)共享存贮的并行处理机。每每个个PE没没有有局局部部存存触触器器,存存储储模模块块以以集集中中形形式式为为所所有有PE共共享享。互互连连网网IN受受CU控
5、控制制,具具有有双双向向性性采采用用分分布布式式存存贮贮器组成基本结构。器组成基本结构。ICNICNPEPE0 0PEPE1 1PEN-PEN-1 1MM0MM0MM1MM1MMN-1MMN-1CUCUSCSCI/O-CHI/O-CHI/I/O OS SM MPEM0PEM0PE0PE0PEM1PEM1PE1PE1PEMN-PEMN-1 1PEMN-PEMN-1 1ICNICNCUCUCUMCUMI/OI/O接接口口D DSCSC(A A)具有共享存贮器并行处理机结构)具有共享存贮器并行处理机结构(B B)分布存贮器并行处理机结构)分布存贮器并行处理机结构共享共享-分布存储器分布存储器 并行处
6、理机的特点并行处理机的特点 并并行行处处理理机机的的单单指指令令流流多多数数据据流流处处理理方方式式和和由由它它产产生生的的特特殊殊结结构构是是以以诸诸如如有有限限差差分分、矩矩阵阵、信信号号处处理理、线线性性规规划划等等一一系系列列计计算算问问题题为为背背景景发发展展起起来来的的。这这些些计计算算问问题题的的共共同同特特点点是是可可以以通通过过各各种种途途径径把把它它们们转转化化成成为为对对数数组组或或向向量量的的处处理理,而而并并行行处处理理机机正正好好利利用用多多个个处处理理单单元元对对向向量量或或数数组组所包含的各个分量同时计算,所包含的各个分量同时计算,从而获得很高的处理速度。从而获
7、得很高的处理速度。并行并行VS流水流水,资源重复,资源重复,Vs 时间重叠;时间重叠;同时性,同时性,VS 并发性并发性;其设备利用率却可能没有多个单功能流水线部件那样高。其设备利用率却可能没有多个单功能流水线部件那样高。只只有有在在硬硬件件价价格格有有了了大大幅幅度度下下降降及及系系统统结结构构有有了了较较大大改改进进的的情情况况下下,并并行行处处理理机机才能具有较好的性能价格比。才能具有较好的性能价格比。第 6 章 并行处理机和相联处理机 第第 8 8 章章 并行处理机并行处理机8.1 并行处理(并行处理(SIMD)机原理)机原理8.2 并行处理机算法并行处理机算法 8.3 并行处理机举例
8、并行处理机举例 处理单元阵列处理单元阵列 由由6464个个PUPUi i构成构成,每个每个PuPui i包括包括(PEPEi i和和PEMPEMi i)由由6464个结构完全相同的处理单元个结构完全相同的处理单元PEPEi i 构成,每个处理单元构成,每个处理单元P PE Ei i字长字长6464位,位,PEMPEMi i为隶属于为隶属于PEPEi i的局部存储器,每个存储器有的局部存储器,每个存储器有2K2K字,全部字,全部PEPEi i由由CUCU统一管理,统一管理,PEPEi i都有一根方式位线,用来向都有一根方式位线,用来向CUCU传送每个传送每个PEPEi i的方式寄存器的方式寄存器
9、D D中的方式位,使中的方式位,使CUCU能了解各能了解各PEiPEi的的状态是否活动,作为控制它们工作的依据。状态是否活动,作为控制它们工作的依据。阵列控制器阵列控制器 CU CU 相当一台小型控制计算机相当一台小型控制计算机 对处理单元阵列实现控制对处理单元阵列实现控制,(,(发控制信号发控制信号,广播公共地址广播公共地址,广播公共数据广播公共数据)对指令流进行译码控制对指令流进行译码控制,利用利用CUCU内部资源可以进内部资源可以进行标量操作行标量操作,接受和处理各类中断,其他输入输出操作。接受和处理各类中断,其他输入输出操作。I/OI/O系统系统 由磁盘文件系统由磁盘文件系统DFSDF
10、S,输入输出子系统和宿主计算机输入输出子系统和宿主计算机S/CS/C构成(驻留操作系统,编译程序,构成(驻留操作系统,编译程序,I/OI/O服务程序等)服务程序等)8.2.1 并行处理机的算法并行处理机的算法 8.2.1 并行处理机的算法并行处理机的算法 ILLIAC 的处理单元阵列结构的处理单元阵列结构 图图 8.2 ILLIAC 处理单元的互连结构处理单元的互连结构 PU16PU0PU8PU7PU55PU63PU0PU1PU7PU8PU9PU15PU56PU57PU63PU0PU1PU7PU56PU57PU58在在阵阵列列处处理理机机上上,解解决决矩矩阵阵加加法法是是最最简简单单的的一一维
11、维情情形形。若若有有两两个个 88 的的矩矩阵阵A、B相相加加,所所得得结结果果矩矩阵阵C也也是是一一个个 88的的矩矩阵阵。只只需需把把A、B居居于于相相应应位位置置的的分分量量存存放放在在同同一一个个PEM内内,且且在在全全部部 64个个PEM中中,令令A的的分分量量均均为为同同一一地地址址,B的的分分量量单单元元均均为为同同一一地地址址+1,而而结结果果矩矩阵阵C的的各各个个结结果果分分量量也也相相应应存存放放于于各各PEM同同一一地地址址+2的的单单元元内内,如如图图 6.4 所所示示。这这样样,只只需需用用下下列列3条条ILLIAC 的的汇汇编编指指令令就就可可以以一一次次实实现现矩
12、矩阵阵相相加:加:SIMD处理机的算法举例处理机的算法举例-矩阵加法矩阵加法LDA ALPHA ;全部全部()由由PEMi送送PEi的累加器的累加器RGAiADRN ALPHA+1 ;全部全部(+1)与与(RGAi)进行浮点进行浮点 加,加,结果送结果送RGAiSTA ALPHA+2 ;全部全部(RGAi)由由PEi送送PEMi的的+2单元单元这里,这里,0i63。SIMD处理机的算法举例处理机的算法举例-矩阵乘矩阵乘 由由于于矩矩阵阵乘乘是是二二维维数数组组运运算算,故故它它比比循循环环加加要要复复杂杂一一些些。设设A、B和和C为为3个个 88 的的二二维维矩矩阵阵。若若给给定定A和和B,则
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行处理机 并行 处理机 PPT 课件
限制150内