计算机系统结构08SIMD计算机(并行处理机)课件.ppt
《计算机系统结构08SIMD计算机(并行处理机)课件.ppt》由会员分享,可在线阅读,更多相关《计算机系统结构08SIMD计算机(并行处理机)课件.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章第八章 并行处理机并行处理机(SIMD)8.1 并行处理机模型并行处理机模型 8.2 并行处理机结构并行处理机结构 8.3 并行处理机实例并行处理机实例 8.4 并行处理机算法举例并行处理机算法举例 18.1 并行处理机模型两种并行性概念:两种并行性概念:同时性并行同时性并行Simultaneituy:两个或两个以上两个或两个以上事件在同一时刻发生。事件在同一时刻发生。并发性并行并发性并行Concurrency:两个或两个以上两个或两个以上事件在同一时间间隔内发生。事件在同一时间间隔内发生。三条技术途径:三条技术途径:(1)资源重复:重复设置多个部件来提高速度。资源重复:重复设置多个部件
2、来提高速度。(2)时间重叠:流水线时间重叠:流水线(3)资源共享:分时系统,分布式系统。资源共享:分时系统,分布式系统。21、并行处理机的定义:、并行处理机的定义:多个处理部件多个处理部件PU按照一定方式互连,按照一定方式互连,在同一个控制部件在同一个控制部件CU控制下,对各自的数控制下,对各自的数据完成同一条指令规定的操作。从据完成同一条指令规定的操作。从CU看,看,指令是串行执行的,从指令是串行执行的,从PU看,数据是平行看,数据是平行处理的。处理的。并行处理机也称为阵列处理机,按照佛并行处理机也称为阵列处理机,按照佛林分类法,它属于林分类法,它属于SIMD处理机。处理机。2、并行处理机的
3、主要应用领域;、并行处理机的主要应用领域;用于高速向量、矩阵等运算。用于高速向量、矩阵等运算。33.并行处理机的操作模型可用五元组来表示:并行处理机的操作模型可用五元组来表示:M=(N,C,I,M,R),其中:其中:(1)N为为PE个数。如个数。如llliacIV有有64个个PE。(2)C为控制部件为控制部件CU执行的指令集,包括标量指执行的指令集,包括标量指令和程序控制指令。令和程序控制指令。(3)I为所有为所有PE并行执行的指令集,包括并行执行的指令集,包括ALU、数据传送等操作。数据传送等操作。(4)M为屏蔽操作集,将为屏蔽操作集,将PE划分为允许操作和禁止划分为允许操作和禁止操作两个子
4、集。操作两个子集。(5)R是数据寻径集,互连网络中是数据寻径集,互连网络中PE间通信所需要间通信所需要的各种模式。的各种模式。44.H.J.Siegel提出的并行处理机模型58.2 并行处理机结构8.2.1 并行处理机的基本结构并行处理机的基本结构8.2.2 分布存储器并行处理机分布存储器并行处理机8.2.3 共享存储器并行处理机共享存储器并行处理机8.2.4 并行处理机的特点并行处理机的特点68.2.1 并行处理机的基本结构一台一台并行处理机由五个部分组成:并行处理机由五个部分组成:多个处理单元多个处理单元PE,多个存储器模块多个存储器模块M,一个控制器一个控制器CU,一个互连网络一个互连网
5、络ICN,一台输入输出处理机一台输入输出处理机IOP。并行处理机有两种典型结构:并行处理机有两种典型结构:分布存储器并行处理机分布存储器并行处理机;共享存储器并行处理机。共享存储器并行处理机。78.2.2 分布存储器并行处理机分布存储器并行处理机8(1)比较容易构成比较容易构成MPP(massively Parallel Processor),可以有几十万个处理机部件可以有几十万个处理机部件PE。(2)CU是控制部件。对于标量指令,在是控制部件。对于标量指令,在CU中直接执行:中直接执行:对于向量指令,对于向量指令,CU把它广播到各个把它广播到各个PE中去执行。中去执行。(3)在在CU中通常有
6、一个较大容量的存储器,用来存放中通常有一个较大容量的存储器,用来存放程序和共享数据。程序和共享数据。(4)IOP是输入输出处理机,或称为主机。在是输入输出处理机,或称为主机。在IOP上安上安装操作系统,它除了负担输入输出工作外,还负责装操作系统,它除了负担输入输出工作外,还负责程序编辑、编译和调试等工作。程序编辑、编译和调试等工作。IOP可以是一台通可以是一台通用计算机。用计算机。(5)必须依靠并行算法来提高必须依靠并行算法来提高PE的利用率。因此,应的利用率。因此,应用领域有限,可以认为是一种专用计算机。用领域有限,可以认为是一种专用计算机。(6)数据在局部存储器中的分布是一个很关键的问题。
7、数据在局部存储器中的分布是一个很关键的问题。(7)标量指令与向量指令可以并发执行。标量指令与向量指令可以并发执行。98.2.3 共享存储器并行处理机共享存储器并行处理机10(1)共享并行存储器共享并行存储器SM通过互连网络与各处理单通过互连网络与各处理单元元PE相连。相连。(2)存储模块的数目等于或大于处理单元的数目。存储模块的数目等于或大于处理单元的数目。为了实现无冲突访问,存储模块的个数为质数。为了实现无冲突访问,存储模块的个数为质数。(3)在存储模块之间合理分配数据,通过灵活、在存储模块之间合理分配数据,通过灵活、高速的互连网络,使存储器与处理单元之间的高速的互连网络,使存储器与处理单元
8、之间的数据传送在大多数向量运算中能以存储器的最数据传送在大多数向量运算中能以存储器的最高频率进行,而最少受存储器冲突的影响。高频率进行,而最少受存储器冲突的影响。(4)处理单元数目一般不多,几个至几十个。处理单元数目一般不多,几个至几十个。(5)Burroughs Scientific Processor(BSP)采用这种采用这种结构。结构。16个个PE通过一个通过一个16*17的对准互连网络的对准互连网络访问访问17个共享存储模块。个共享存储模块。(6)对互连网络的要求很高。对互连网络的要求很高。118.2.4 并行处理机的特点 并行处理机的主要特点如下:并行处理机的主要特点如下:(1)速度
9、快,速度快,而且潜力大而且潜力大(2)模块性好模块性好,生产和维护方便,生产和维护方便(3)可靠性高可靠性高,容易实现容错和重构,容易实现容错和重构(4)效率低。效率低。与流水线处理机,向量处理机等比与流水线处理机,向量处理机等比较。依靠是资源重复,而不是时间重叠,较。依靠是资源重复,而不是时间重叠,所以其效率要低一些。所以其效率要低一些。12(5)潜力大潜力大 主要依靠增加主要依靠增加PE个数,与流水线处理机主个数,与流水线处理机主要依靠缩短时钟相比,其提高速度的潜力要大要依靠缩短时钟相比,其提高速度的潜力要大得多。得多。(6)依赖于互连网络和并行算法依赖于互连网络和并行算法 互连网络决定了
10、互连网络决定了PE之间的连接模式,也之间的连接模式,也决定了并行处理机能够适应的算法。决定了并行处理机能够适应的算法。(7)需要有一台高性能的标量处理机需要有一台高性能的标量处理机 如果一台机器的向量处理速度极高,但标如果一台机器的向量处理速度极高,但标量处理速度只是每秒一百万次,那么对于标量量处理速度只是每秒一百万次,那么对于标量运算占运算占10%的题目来说,总的有效速度就不过的题目来说,总的有效速度就不过每秒一千万次。每秒一千万次。138.3 并行处理机实例 llliaclV是采用是采用SIMD结构的并行处理机。结构的并行处理机。随后一个方向是位片随后一个方向是位片PE制造的并行处理机,制
11、造的并行处理机,如如Goodyear MPP、AMT/DAP610和和TMC/CM-2、CM-5是以是以SIMD模式运行同步模式运行同步MMID计算机。计算机。另一方向是字宽运算另一方向是字宽运算PE的中粒度的中粒度SIMD计算机计算机并行处理机的两个基发展方向:并行处理机的两个基发展方向:(1)保留阵列结构,但每个处理单元的规模减小,保留阵列结构,但每个处理单元的规模减小,如一个如一个bit.(2)去掉阵列结构和分布存储器。去掉阵列结构和分布存储器。Burroughs公司公司的的BSP处理机是典型代表。处理机是典型代表。148.3.1 lllialv并行处理机(1)1963年,美国西屋电器公
12、司提出年,美国西屋电器公司提出“Slotnick,The SOLOMON Compuer,Simultaneous Operation linked Ordinal Modular Network”.(2)1966年美国国防远景研究规划局年美国国防远景研究规划局ARPR与伊利诺与伊利诺依依大学签定合同。原计划:大学签定合同。原计划:256PE,运算速度为运算速度为1GFLOPS。(3)Burroughs公司和伊利诺依大学于公司和伊利诺依大学于1972年共同设年共同设计和生产,计和生产,1975年实际投入运行。用了年实际投入运行。用了4倍的经倍的经费,只达到费,只达到1/20的速度。只实现了的速
13、度。只实现了8*8=64个个PE,只达到只达到50MFLOPS。(3)llliaclv的影响非常大。它是并行处理机的典的影响非常大。它是并行处理机的典型代表,也是分布存储器并行处理机的典型代表。型代表,也是分布存储器并行处理机的典型代表。15llliaclV由三大部分组成llliaclV处理机阵列:包括88PE、PEM和互连网络。阵列控制CU输入输出处理机:一台标准的Burroughs B6700计算机161.阵列控制器阵列控制器 阵列控制器阵列控制器CU实际是一台小型计算机。实际是一台小型计算机。对阵列处理机单元实行控制和完成标量操作。对阵列处理机单元实行控制和完成标量操作。标量操作与各标量
14、操作与各PE的数组操作可以重叠执行。的数组操作可以重叠执行。控制器的功能有以下五个方面:控制器的功能有以下五个方面:(1)对指令进行译码,并对指令进行译码,并执行执行标量指令;标量指令;(2)向各向各PE发出执行数组操作指令的发出执行数组操作指令的控制信号控制信号;(3)产生地址产生地址,并向所有处理单元广播并向所有处理单元广播公共地址公共地址;(4)产生数据产生数据,并向所有处理单元广播并向所有处理单元广播公共数据公共数据;(5)接收和处理接收和处理PE、I/O操作以及操作以及B6700产生的陷产生的陷阱中断信号。阱中断信号。172、输入输出系统、输入输出系统 llliaclv的输入输出的系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机系统 结构 08 SIMD 计算机 并行 处理机 课件
限制150内