从体系结构的演变看高性能微处理器的发展趋势7721.docx
《从体系结构的演变看高性能微处理器的发展趋势7721.docx》由会员分享,可在线阅读,更多相关《从体系结构的演变看高性能微处理器的发展趋势7721.docx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、微处理器体系结构随着高性能计算的需求,计算机体系结构发生了很大变化。作为计算机核心部件的微处理器,其性能和复杂性(晶体管数、时钟频率和峰值)也按照摩尔定律增长。微处理器性能的改善在很大程度上归功于体系结构的发展和VLSI工艺的改进。体系结构的发展主要体现在三个方面,即超流水、多指令发射和多指令操作。超流水技术主要开发时间并行性。流水线技术是RISC处理器区别于CISC处理器的重要特征。采用超流水技术,尽管可以减少关键路径中每级流水的时间,但同时也引入了更多的寄存器,进而增加了面积开销以及时钟歪斜问题。另一方面,深度流水在指令相关和指令跳转时会大大降低流水线的性能。多指令发射和多指令操作均是开发
2、空间并行性。多指令发射面临的首要问题是如何保持应用程序语义的正确性,MIMD、超标量和数据流技术是多指令发射的典型结构。MIMD是并行计算的重要研究领域。超标量采用时序指令流发射技术,兼容性好,硬件开销大,功耗开销大,是目前多数商用高端处理器采用的主流技术。数据流采用token环技术,理论上可以开发出高度指令并行性。然而,其商用开发不成功,原因是运行时间开销大,尤其是token环匹配需要很高的时间代价。多指令操作是当前体系结构的重要研究方向。多指令操作包括数据并行性开发和操作并行性开发。尽管在CISC处理器中均采用过这两种技术,但CISC给体系结构开发带来三个负面影响:一是CISC指令不适合流
3、水处理,二是指令差异很大造成译码困难,三是编译器很难开发出有效的指令操作。与CISC处理器相反,多指令操作非常适合RISC处理器,其中SIMD和VLIW就是数据并行性和操作并行性的典型结构。向量处理器和SIMD处理器都是利用多个操作数来实现数据并行性。但二者有很大不同。向量处理器对线性向量元素顺序操作,SIMD则对向量元素进行并发操作。对前者,每条指令只能作用于一个功能部件,执行时间较长;而后者在执行指令时可以作用于多个功能部件。向量处理器采用交叉存储器实现向量的访存操作,同时可对短向量进行有效操作,即对稀疏向量进行压缩以获得高性能。SIMD适合多媒体中的分组数据流,通过特定算法将长的数据流截
4、成定长短向量序列,从而可以和向量处理器那样实现对定长短向量序列的高效处理。VLIW是实现操作并行性开发的重要途径。CISC处理器采用垂直编码技术,而VLIW则采用水平编码技术,指令中的每个操作域可以并发执行。同CISC处理器相比,VLIW具有的优点是:指令操作域定长,译码简单;适合流水处理,减少CPI;编译器需要开发程序潜在的指令级操作并行性。传统VLIW的不足是指令带宽较高,二进制目标代码不兼容。VLIW和SIMD结构都能接受单一指令流,每条指令可以包含多个操作。但前者允许每条指令包含多个不同类型的操作,同时可以开发细粒度并行性。VLIW指令字较长,而SIMD具有很强的数据压缩能力。事实上,
5、VLIW和SIMD技术相结合可以获得更高的性能加速比,且非常适合多媒体数据处理。从微处理器体系结构和编译器界面划分的角度上讲,指令级体系结构可以分为顺序结构、相关结构和独立结构三类。在顺序结构中,程序不包含任何指令并行信息,完全通过硬件进行调度,即硬件负责操作间的相关分析、独立操作分析和操作调度,编译器只负责程序代码的重组,程序中不附加任何信息。超标量是该类结构的典型代表。在相关结构中,程序显式指定操作的相关信息,即编译器负责操作间的相关分析,而硬件负责独立操作分析和调度,如数据流处理器。独立结构完全由程序提供各个独立操作间的信息,即编译器负责操作间相关性分析、独立操作间分析和指令调度,VLI
6、W是其主要代表。 超标量处理器架构现代超标量处理器体系结构均基于IBM360/91采用的Tomasulo和CDC6600采用的Scoreboard动态调度技术,MIPS R10000和DEC21264微处理器均基于该体系结构。典型超标量处理器通常采用如下逻辑结构实现动态调度:寄存器重命名逻辑、窗口唤醒逻辑、窗口选择逻辑和数据旁路逻辑。Intel的Pentium处理器、Motorola的PowerPC 604和SPARC64则采用基于预约站的超标量体系结构。 两种体系结构的主要区别是:在典型超标量结构中,无论是推测还是非推测寄存器值都放在物理寄存器堆中;在预约站超标量结构中,推测数据放在重排序缓
7、冲器中,非推测数据和已经执行完成提交的数据则放在寄存器文件中。在典型结构中,操作数不广播到窗口,而只将操作数标志TAG进行广播,操作数则送到物理寄存器文件。在预约站结构中,指令执行结果广播到预约站,指令发射时从预约站去取操作数。超标量处理器性能与IPC(Instructions Per Cycle)和时钟频率的乘积成正比。时钟速率同系统结构的关键路径时延有关,而IPC和如下因素有关:程序中潜在的指令级并行性、体系结构字长宽度、指令窗口大小和并行性开发策略。超标量处理器一般通过增加发射逻辑提高IPC,这将导致更宽的发射窗口和更复杂的发射策略。 众所周知,超标量处理器是通用微处理器的主流体系结构,
8、几乎所有商用通用微处理器都采用超标量体系结构。而在DSP方面,LSI 逻辑公司的 ZSP200、 ZSP400、ZSP500和ZSP600均采用超标量体系结构。ZSP200采用并行MAC和ALU运算部件,2发射超标量结构;ZSP400采用双 MAC单元、4 发射超标量处理器体系结构;ZSP500为4发射体系结构、采用增强型双MAC和双ALU运算单元;ZSP600采用4MAC和双ALU运算部件,每个时钟周期发射6条指令。图1为ZSP400结构框图。 图图1 ZSSP4000 内核超超标量体系系结构框图图ADI公公司的TiigerSSHARCC系列采用用静态超标标量体系结结构。该系系列采用了了许多
9、传统统超标量处处理器的特特征,如lload/storre结构、分分之预测和和互锁寄存存器堆等技技术。每个个时钟周期期发射4条条指令。而而静态超标标量的含义义是指指令令级并行性性识别是在在运行之前前,即编写写程序时确确定的(事事实上以VVLIW结结构为基础础)。同时时,Tigger SSHARCC系统处理理器采用SSIMD技技术,用户户可以对数数据进行广广播和合并并。所有寄寄存器均是是互锁的,支支持简单的的编程模型型,该模型型不依赖于于不同型号号间的时延延变化。分分支目标缓缓冲器BTTB为1228位,可可以有效减减小循环操操作和其它它非顺序代代码的执行行时间。图图2为TiigerSSHARCC系
10、列中的的ADSPP-TS2201S结结构框图。 图2 AADSP-TS2001S静态态超标量体体系结构框框图超长指指令字VLLIW体系系结构自从从耶鲁大学学的J.AA Fissher于于19799年首次提提出VLIIW体系结结构以来,先先后由耶鲁鲁大学开发发出基于跟跟踪调度(Tracce Sccheduulingg)技术的的MulttiFloow处理器器和Cyddromee公司Boob Raau等人开开发的基于于巨块调度度(Supperbllock Scheeduliing)的的Cydrra-5处处理器。但但直到九十十年代中期期,基于VVLIW结结构的处理理器基本上上停留在实实验室原型型机阶段
11、。因因为VLIIW本身固固有的几个个关键问题题一直没有有彻底解决决,导致了了其后的商商用处理器器体系结构构从RISSC转向了了超标量和和超流水,而而不是VLLIW。尽尽管如此,由由于VLIIW结构的的许多优点点仍然使许许多研究机机构竞相对对该技术进进行坚持不不懈地研究究,并在体体系结构和和编译器方方面实现了了突破,其其中最重要要的是解决决了目标代代码兼容问问题并支持持推断推测测机制(尽尽管大部分分处理器仅仅支持部分分推断推测测机制)。这这之后出现现了Phiilip的的Trimmediaa、Equuatorr的MAPP10000A媒体处处理器、CChrommaticc的Macct、TII的TMS
12、S320CC6XX、TTranssmetaa的Cruusoe以以及INTTEL和HHP联盟提提出的IAA-64体体系结构(EEPIC)。事事实上VLLIW作为为下一代高高性能处理理器体系结结构的首选选技术已成成共识,该该体系结构构和优化编编译器形成成的SIMMD指令流流将更加适适合多媒体体数据处理理。TI的的TMS3320C66系列是典典型的超长长指令字VVLIW体系结结构,该系系列每个指指令周期可可以执行88条32位位指令,CC62为定定点处理器器,C677为浮点处处理器。CC62和CC67系列列的CPUU内核是相相同的,包包含32个个通用寄存存器、8个个执行部件件。C644包含644个通用
13、寄寄存器和88个执行部部件。8个个执行部件件包含2个个乘法器和和6个ALLU。支持持8/166/32数数据类型,所所有指令均均为条件执执行,减小小了分支指指令开销。图图3为C662和C667系统框框图。 图3 基于VLLIW体系系结构的TTMS3220C6系系统框图中中国科学院院声学研究究所在“9973国家家重大基础础研究发展展规划”资资助下研制制成功国内内第一款基基于多发射射VLIWW和SIMMD技术的的具有可重重组结构的的高性能微微处理器芯芯片华威威处理器(SSuperrV)。该该处理器为为四发射VVLIW处处理器,当当执行向量量处理功能能时,每个个周期可执执行35个个操作。在在执行322
14、位乘累加加操作时可可获得2.9 GOOPS 的的数据处理理速度;执执行16位位乘累加操操作时可获获得5.11 GOPPS 的数数据处理速速度;执行行8位乘累累加操作时时可获得99.3 GGOPS 的数据处处理速度。该该处理器是是目前国内内数据处理理能力最强强的微处理理器,可以以广泛应用用于信息家家电、网络络通信、声声音图像以以及雷达声声纳等信号号处理领域域。 可重重构处理器器架构从二二十世纪七七十年代开开始的第一一代CISSC处理器器开始至今今,微处理理器体系结结构已经经经过了三代代。然而,即即使是第三三代的RIISC技术术仍然停留留在固定模模式的体系系架构设计计。随着AASIC和和SOC技技
15、术的发展展,微处理理器设计进进入到第四四代,即后后RISCC和可重构构处理器时时代。其重重要特征是是系统架构构不再采用用固定模式式,而是将将DSP的的灵活性与与硬线连接接的专用性性相结合,使使得微处理理器可以针针对不同的的应用需求求建立自己己独特的体体系结构,达达到性能最最优、功耗耗更低的目目的。华威威处理器(SSuperrV)体系系结构不仅仅基于RIISC、VVLIW和和SIMDD技术,而而且采用了了可重构技技术,使得得用户在不不增加硬件件开销的情情况下通过过对系统功功能部件的的重构完成成对不同应应用的处理理,不仅提提高了系统统性能,而而且大大降降低了系统统的功耗。例例如,在华华威处理器器中
16、设计了了若干322位可重构构乘法器,每每个可重构构乘法器可可以完成332位乘法法、若干个个16位乘乘法或者88位乘法。因因此,华威威处理器可可以采用一一条指令完完成16个个8位数据据的乘(累累)加操作作;一条指指令可以完完成8个116位数据据的乘(累累)加操作作;一条指指令可以完完成4个332位数据据的乘加操操作;一条条指令可以以完成4个个32位数数据的累加加操作;一一条指令可可以完成116个索引引、16个个地址计算算和16次次数据加载载操作;两两条指令完完成16个个8位数据据累加操作作;两条指指令可以完完成8个116位数据据累加操作作;两条指指令可以完完成对2556项、88位元素的的数据表进
17、进行的166路并行查查找。 TTensiilicaa的可配置置技术是可可重构处理理器的重要要代表。例例如,Veectraa LX定定点向量DDSP引擎擎就是通过过配置选项项在Xteensa LX可配配置处理器器的基础上上建立起来来的。即VVectrra LXX定点DSSP引擎是是Xtennsa LLX微处理理器内核的的一种配置置。该定点点DSP引引擎是一个个3发射SSIMD处处理器,具具有四个乘乘法器/累累加器(四四MAC),它它可以处理理128位位的向量。1128位向向量可以分分成8个116位或者者4个322位的元素素。整个VVectrra LXX DSPP引擎是用用TIE (Tennsil
18、iicass Insstrucctionn Exttensiion)语语言开发的的,通过修修改可以适适合不同的的应用领域域。Vecctra LX DDSP引擎擎增加了116个向量量寄存器(每每个寄存器器160位位宽)、四四个1288位的向量量队列寄存存器、第二二个loaad/sttore单单元和2110多条现现有Xteensa LX处理理器指令集集体系结构构中的通用用DSP指指令。Veectraa LX DSP引引擎如图44所示。 图44 Vecctra LX DDSP体系系结构框图图 结 语语作为信息息产业的核核心技术,微微处理器体体系结构正正在发生很很大的变化化,而这种种变化无不不体现出市
19、市场需求的的强大动力力。现代微微处理器,无无论是通用用微处理器器还是数字字信号处理理器在体系系结构方面面正在趋于于融合。通通用处理器器通过增加加媒体处理理指令来提提高数据处处理器能力力;而数字字信号处理理器也借鉴鉴了通用处处理器的体体系结构,使使得数字信信号处理器器的数据处处理器能力力更加强大大、管理更更加灵活。同同时,随着着嵌入式应应用的需求求,对功耗耗的要求也也越来越苛苛刻,使得得可重构处处理器在未未来将会起起到重要的的作用。由由于不同的的应用需求求可以通过过重构技术术获得所需需要的微处处理器系统统架构,这这将大大提提高产品的的竞争力,同同时也降低低了整个系系统的功耗耗和成本。多处理器的的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 体系结构 演变 性能 微处理器 发展趋势 7721
限制150内