欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    从体系结构的演变看高性能微处理器的发展趋势7721.docx

    • 资源ID:68873931       资源大小:120.92KB        全文页数:15页
    • 资源格式: DOCX        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    从体系结构的演变看高性能微处理器的发展趋势7721.docx

    微处理器体系结构随着高性能计算的需求,计算机体系结构发生了很大变化。作为计算机核心部件的微处理器,其性能和复杂性(晶体管数、时钟频率和峰值)也按照摩尔定律增长。微处理器性能的改善在很大程度上归功于体系结构的发展和VLSI工艺的改进。体系结构的发展主要体现在三个方面,即超流水、多指令发射和多指令操作。超流水技术主要开发时间并行性。流水线技术是RISC处理器区别于CISC处理器的重要特征。采用超流水技术,尽管可以减少关键路径中每级流水的时间,但同时也引入了更多的寄存器,进而增加了面积开销以及时钟歪斜问题。另一方面,深度流水在指令相关和指令跳转时会大大降低流水线的性能。多指令发射和多指令操作均是开发空间并行性。多指令发射面临的首要问题是如何保持应用程序语义的正确性,MIMD、超标量和数据流技术是多指令发射的典型结构。MIMD是并行计算的重要研究领域。超标量采用时序指令流发射技术,兼容性好,硬件开销大,功耗开销大,是目前多数商用高端处理器采用的主流技术。数据流采用token环技术,理论上可以开发出高度指令并行性。然而,其商用开发不成功,原因是运行时间开销大,尤其是token环匹配需要很高的时间代价。多指令操作是当前体系结构的重要研究方向。多指令操作包括数据并行性开发和操作并行性开发。尽管在CISC处理器中均采用过这两种技术,但CISC给体系结构开发带来三个负面影响:一是CISC指令不适合流水处理,二是指令差异很大造成译码困难,三是编译器很难开发出有效的指令操作。与CISC处理器相反,多指令操作非常适合RISC处理器,其中SIMD和VLIW就是数据并行性和操作并行性的典型结构。向量处理器和SIMD处理器都是利用多个操作数来实现数据并行性。但二者有很大不同。向量处理器对线性向量元素顺序操作,SIMD则对向量元素进行并发操作。对前者,每条指令只能作用于一个功能部件,执行时间较长;而后者在执行指令时可以作用于多个功能部件。向量处理器采用交叉存储器实现向量的访存操作,同时可对短向量进行有效操作,即对稀疏向量进行压缩以获得高性能。SIMD适合多媒体中的分组数据流,通过特定算法将长的数据流截成定长短向量序列,从而可以和向量处理器那样实现对定长短向量序列的高效处理。VLIW是实现操作并行性开发的重要途径。CISC处理器采用垂直编码技术,而VLIW则采用水平编码技术,指令中的每个操作域可以并发执行。同CISC处理器相比,VLIW具有的优点是:指令操作域定长,译码简单;适合流水处理,减少CPI;编译器需要开发程序潜在的指令级操作并行性。传统VLIW的不足是指令带宽较高,二进制目标代码不兼容。VLIW和SIMD结构都能接受单一指令流,每条指令可以包含多个操作。但前者允许每条指令包含多个不同类型的操作,同时可以开发细粒度并行性。VLIW指令字较长,而SIMD具有很强的数据压缩能力。事实上,VLIW和SIMD技术相结合可以获得更高的性能加速比,且非常适合多媒体数据处理。从微处理器体系结构和编译器界面划分的角度上讲,指令级体系结构可以分为顺序结构、相关结构和独立结构三类。在顺序结构中,程序不包含任何指令并行信息,完全通过硬件进行调度,即硬件负责操作间的相关分析、独立操作分析和操作调度,编译器只负责程序代码的重组,程序中不附加任何信息。超标量是该类结构的典型代表。在相关结构中,程序显式指定操作的相关信息,即编译器负责操作间的相关分析,而硬件负责独立操作分析和调度,如数据流处理器。独立结构完全由程序提供各个独立操作间的信息,即编译器负责操作间相关性分析、独立操作间分析和指令调度,VLIW是其主要代表。 超标量处理器架构现代超标量处理器体系结构均基于IBM360/91采用的Tomasulo和CDC6600采用的Scoreboard动态调度技术,MIPS R10000和DEC21264微处理器均基于该体系结构。典型超标量处理器通常采用如下逻辑结构实现动态调度:寄存器重命名逻辑、窗口唤醒逻辑、窗口选择逻辑和数据旁路逻辑。Intel的Pentium处理器、Motorola的PowerPC 604和SPARC64则采用基于预约站的超标量体系结构。 两种体系结构的主要区别是:在典型超标量结构中,无论是推测还是非推测寄存器值都放在物理寄存器堆中;在预约站超标量结构中,推测数据放在重排序缓冲器中,非推测数据和已经执行完成提交的数据则放在寄存器文件中。在典型结构中,操作数不广播到窗口,而只将操作数标志TAG进行广播,操作数则送到物理寄存器文件。在预约站结构中,指令执行结果广播到预约站,指令发射时从预约站去取操作数。超标量处理器性能与IPC(Instructions Per Cycle)和时钟频率的乘积成正比。时钟速率同系统结构的关键路径时延有关,而IPC和如下因素有关:程序中潜在的指令级并行性、体系结构字长宽度、指令窗口大小和并行性开发策略。超标量处理器一般通过增加发射逻辑提高IPC,这将导致更宽的发射窗口和更复杂的发射策略。 众所周知,超标量处理器是通用微处理器的主流体系结构,几乎所有商用通用微处理器都采用超标量体系结构。而在DSP方面,LSI 逻辑公司的 ZSP200、 ZSP400、ZSP500和ZSP600均采用超标量体系结构。ZSP200采用并行MAC和ALU运算部件,2发射超标量结构;ZSP400采用双 MAC单元、4 发射超标量处理器体系结构;ZSP500为4发射体系结构、采用增强型双MAC和双ALU运算单元;ZSP600采用4MAC和双ALU运算部件,每个时钟周期发射6条指令。图1为ZSP400结构框图。                                    图图1 ZSSP4000 内核超超标量体系系结构框图图ADI公公司的TiigerSSHARCC系列采用用静态超标标量体系结结构。该系系列采用了了许多传统统超标量处处理器的特特征,如lload/storre结构、分分之预测和和互锁寄存存器堆等技技术。每个个时钟周期期发射4条条指令。而而静态超标标量的含义义是指指令令级并行性性识别是在在运行之前前,即编写写程序时确确定的(事事实上以VVLIW结结构为基础础)。同时时,Tigger SSHARCC系统处理理器采用SSIMD技技术,用户户可以对数数据进行广广播和合并并。所有寄寄存器均是是互锁的,支支持简单的的编程模型型,该模型型不依赖于于不同型号号间的时延延变化。分分支目标缓缓冲器BTTB为1228位,可可以有效减减小循环操操作和其它它非顺序代代码的执行行时间。图图2为TiigerSSHARCC系列中的的ADSPP-TS2201S结结构框图。                            图2 AADSP-TS2001S静态态超标量体体系结构框框图超长指指令字VLLIW体系系结构自从从耶鲁大学学的J.AA Fissher于于19799年首次提提出VLIIW体系结结构以来,先先后由耶鲁鲁大学开发发出基于跟跟踪调度(Tracce Sccheduulingg)技术的的MulttiFloow处理器器和Cyddromee公司Boob Raau等人开开发的基于于巨块调度度(Supperbllock Scheeduliing)的的Cydrra-5处处理器。但但直到九十十年代中期期,基于VVLIW结结构的处理理器基本上上停留在实实验室原型型机阶段。因因为VLIIW本身固固有的几个个关键问题题一直没有有彻底解决决,导致了了其后的商商用处理器器体系结构构从RISSC转向了了超标量和和超流水,而而不是VLLIW。尽尽管如此,由由于VLIIW结构的的许多优点点仍然使许许多研究机机构竞相对对该技术进进行坚持不不懈地研究究,并在体体系结构和和编译器方方面实现了了突破,其其中最重要要的是解决决了目标代代码兼容问问题并支持持推断推测测机制(尽尽管大部分分处理器仅仅支持部分分推断推测测机制)。这这之后出现现了Phiilip的的Trimmediaa、Equuatorr的MAPP10000A媒体处处理器、CChrommaticc的Macct、TII的TMSS320CC6XX、TTranssmetaa的Cruusoe以以及INTTEL和HHP联盟提提出的IAA-64体体系结构(EEPIC)。事事实上VLLIW作为为下一代高高性能处理理器体系结结构的首选选技术已成成共识,该该体系结构构和优化编编译器形成成的SIMMD指令流流将更加适适合多媒体体数据处理理。TI的的TMS3320C66系列是典典型的超长长指令字VVLI   W体系结结构,该系系列每个指指令周期可可以执行88条32位位指令,CC62为定定点处理器器,C677为浮点处处理器。CC62和CC67系列列的CPUU内核是相相同的,包包含32个个通用寄存存器、8个个执行部件件。C644包含644个通用寄寄存器和88个执行部部件。8个个执行部件件包含2个个乘法器和和6个ALLU。支持持8/166/32数数据类型,所所有指令均均为条件执执行,减小小了分支指指令开销。图图3为C662和C667系统框框图。                              图3 基于VLLIW体系系结构的TTMS3220C6系系统框图中中国科学院院声学研究究所在“9973国家家重大基础础研究发展展规划”资资助下研制制成功国内内第一款基基于多发射射VLIWW和SIMMD技术的的具有可重重组结构的的高性能微微处理器芯芯片华威威处理器(SSuperrV)。该该处理器为为四发射VVLIW处处理器,当当执行向量量处理功能能时,每个个周期可执执行35个个操作。在在执行322位乘累加加操作时可可获得2.9 GOOPS 的的数据处理理速度;执执行16位位乘累加操操作时可获获得5.11 GOPPS 的数数据处理速速度;执行行8位乘累累加操作时时可获得99.3 GGOPS 的数据处处理速度。该该处理器是是目前国内内数据处理理能力最强强的微处理理器,可以以广泛应用用于信息家家电、网络络通信、声声音图像以以及雷达声声纳等信号号处理领域域。 可重重构处理器器架构从二二十世纪七七十年代开开始的第一一代CISSC处理器器开始至今今,微处理理器体系结结构已经经经过了三代代。然而,即即使是第三三代的RIISC技术术仍然停留留在固定模模式的体系系架构设计计。随着AASIC和和SOC技技术的发展展,微处理理器设计进进入到第四四代,即后后RISCC和可重构构处理器时时代。其重重要特征是是系统架构构不再采用用固定模式式,而是将将DSP的的灵活性与与硬线连接接的专用性性相结合,使使得微处理理器可以针针对不同的的应用需求求建立自己己独特的体体系结构,达达到性能最最优、功耗耗更低的目目的。华威威处理器(SSuperrV)体系系结构不仅仅基于RIISC、VVLIW和和SIMDD技术,而而且采用了了可重构技技术,使得得用户在不不增加硬件件开销的情情况下通过过对系统功功能部件的的重构完成成对不同应应用的处理理,不仅提提高了系统统性能,而而且大大降降低了系统统的功耗。例例如,在华华威处理器器中设计了了若干322位可重构构乘法器,每每个可重构构乘法器可可以完成332位乘法法、若干个个16位乘乘法或者88位乘法。因因此,华威威处理器可可以采用一一条指令完完成16个个8位数据据的乘(累累)加操作作;一条指指令可以完完成8个116位数据据的乘(累累)加操作作;一条指指令可以完完成4个332位数据据的乘加操操作;一条条指令可以以完成4个个32位数数据的累加加操作;一一条指令可可以完成116个索引引、16个个地址计算算和16次次数据加载载操作;两两条指令完完成16个个8位数据据累加操作作;两条指指令可以完完成8个116位数据据累加操作作;两条指指令可以完完成对2556项、88位元素的的数据表进进行的166路并行查查找。 TTensiilicaa的可配置置技术是可可重构处理理器的重要要代表。例例如,Veectraa LX定定点向量DDSP引擎擎就是通过过配置选项项在Xteensa LX可配配置处理器器的基础上上建立起来来的。即VVectrra LXX定点DSSP引擎是是Xtennsa LLX微处理理器内核的的一种配置置。该定点点DSP引引擎是一个个3发射SSIMD处处理器,具具有四个乘乘法器/累累加器(四四MAC),它它可以处理理128位位的向量。1128位向向量可以分分成8个116位或者者4个322位的元素素。整个VVectrra LXX DSPP引擎是用用TIE (Tennsiliica'ss Insstrucctionn Exttensiion)语语言开发的的,通过修修改可以适适合不同的的应用领域域。Vecctra LX DDSP引擎擎增加了116个向量量寄存器(每每个寄存器器160位位宽)、四四个1288位的向量量队列寄存存器、第二二个loaad/sttore单单元和2110多条现现有Xteensa LX处理理器指令集集体系结构构中的通用用DSP指指令。Veectraa LX DSP引引擎如图44所示。                                         图44 Vecctra LX DDSP体系系结构框图图 结 语语作为信息息产业的核核心技术,微微处理器体体系结构正正在发生很很大的变化化,而这种种变化无不不体现出市市场需求的的强大动力力。现代微微处理器,无无论是通用用微处理器器还是数字字信号处理理器在体系系结构方面面正在趋于于融合。通通用处理器器通过增加加媒体处理理指令来提提高数据处处理器能力力;而数字字信号处理理器也借鉴鉴了通用处处理器的体体系结构,使使得数字信信号处理器器的数据处处理器能力力更加强大大、管理更更加灵活。同同时,随着着嵌入式应应用的需求求,对功耗耗的要求也也越来越苛苛刻,使得得可重构处处理器在未未来将会起起到重要的的作用。由由于不同的的应用需求求可以通过过重构技术术获得所需需要的微处处理器系统统架构,这这将大大提提高产品的的竞争力,同同时也降低低了整个系系统的功耗耗和成本。多处理器的的体系结构构 随着单个处处理器的性性能越来越越逼近其物物理极限,现在的处处理器设计计方向可以以大致有两两类,一是是采用单片片上集成多多个核中或或者采用一一个核中多多个物理线线程的方法法来达到并并行的目的的,从而提提高性能;另一个方方向是嵌入入式应用,这这有两种思思路即将通通用处理器器扩展、改改装成能适适合各种嵌嵌入式应用用(的份额是是),或或者将扩展、改改装以吸收收部分通用用微处理器器的特点。事事实上, 在20000年,嵌嵌入式芯片片的销售量量已经是通通用微微处理能的的两倍多。但但是从编译译的角度来来看由于其不不规则、复复杂的结构构以及指令令集结构,导导致无法很很好的利用用编译器。当当然,现在在的的一个研究究方向就是是吸收通用用微处理器器的特点,以以方便编译译器的使用用。 .相相关的体系系结构介绍绍 .多发射处处理器(mmultii-isssue pproceessorr) 多发发射处理器器(mullti-iissuee proocesssor)包包括超标量量(Suppersccalarr)和超长长指令字(VVery-Longg Insstrucctionn Worrd,)处处理器,其其思想是允允许在一个个时钟周期期内发射多多条指令以以减少处理理器的平均均, 更好地地利用处理理器的功能能部件。提提高多发射射处理器资资源利用率率的关键问问题是:如如何在程序序中找到足足够的指令令级并行性性。超标量量处理器在在每个时钟钟周期发射射由硬件动动态确定的的指令,而而处理器则则在每个时时钟周期发发射出编译译器确定的的固定数目目的操作。超超标量处理理器是依赖赖硬件来发发现ILPP, 而VVLIW处处理器则依依赖编译器器来发现。不不管是超标标量还是处处理器都只只能挖掘同同一个线程程的ILPP来提高处处理器资源源利用率。当当多发射处处理器不能能发现足够够的指令来来添满发射射槽时,水水平浪费(HHorizzontaal Waaste)就就发生了。此此外当资源源冲突造成成多发射处处理器在接接下来的时时钟周期中中不能发射射指令,则则造成了垂垂直浪费(VVertiical Wastte)。如如图1所示示为多发射射处理器中中可能造成成的垂直浪浪费和水平平浪费情况况。图中中空白块表表示该指令令发射槽(IIssuee Sloot)浪费费了; 不不同的填充充色表示不不同线程。 现代超标标量处理器器包括:DDEC/CCompaaq 211162,PoweerPC,MIPSS R100000,Sun UltrraSpaarc.HHP PAA-80000。现代代VLIWW处理器包包括:Inntel IA-664(Ittaniuum),ttranssmetaa Cruusoe。 2.1.22 多线程程处理器(mmultii-thrread proccessoor) 为为了减少长长延迟对处处理器效率率的影响, 例如减少少cachhe不命中中和执行时时间长的指指令对处理理器效率的的影响,在在单个处理理器内部实实现多个硬硬件线程。当当某个线程程处理 ccachee不命中时时,其他线线程可以以以继续执行行有效工作作,从而隐隐藏访存延延迟,提高高综合性能能。 多线线程处理器器的优点在在于由于能能够快速切切换线程上上下文,因因此多线程程处理器能能在每个时时钟周期发发射一个独独立线程的的指令。能能够利用线线程级并行行提高处理理器资源的的利用率。其其主要缺点点是由于每每个时钟周周期只能允允许一个线线程活跃,所所以没能发发现横向的的资源效率率。 多线线程处理器器通常为每每个线程维维护独立的的和寄寄存器,可可以分为细细粒度多线线程,即每每个时钟周周期都可以以进行线程程切换,以以及粗粒度度多线程,即即可以等到到有长延迟迟操作时再再做线程切切换。 2.1.33 同时多多线程处理理器(siimulttaneoous mmultii-thrread proccessoor) 同同时多线程程是一种处处理器体系系结构,它它结合了超超标量和多多线程处理理器的特点点,可以同同时减少水水平和垂直直浪费。 在在一个时钟钟周期内发发射(Issssuee)来自多多个线程的的多条指令令。同时多多线程技术术在两个方方面提高了了处理器的的总体性能能: ()允许在一一个时钟周周期内执行行来自不同同线程的多多条指令。因因此在一个个时钟周期期内能够同时时利用程序序的和ILPP消除水平平浪费,提提高处理器器发射槽以以及功能部部件的利用用率(如图图1e) ()理理论上来说说,允许任何何活动线程程的组合来来发射指令令。当由于于长延迟操操作或者资资源冲突导导致只有一一个活动线线程时,该该线程能够够使用所有有可获得的的发射槽。这这就使得,可可以通过使使用其他线线程的未阻阻塞指令来来消除垂直直浪费。 由于SMMT处理器器在每个时时钟周期可可以选择多多个线程的的指令执行行,因此能能够更好地地利用处理理器资源。取取指阶段有有更多选择择,比如可可以增加取取非投机指指令执行的的可能性,可可以同时提提高水平和和垂直的资资源效率。尽尽管多发射射处理器在在一个时钟钟周期内能能执行多条条指令,但但是当在一一个时钟周周期内不能能找到足够够的并行指指令时,多多发射处理理器效率会会下降。多多线程处理理器可以能能够克服长长延迟操作作和资源冲冲突所带来来的限制,但但是不能有有效地利用用处理器中中的所有资资源。结合了了超标量和和多线程的的好处,而而不需要很很大的代价价(例如芯芯片面积)。为为了允许在在一个时钟钟内发射多多个线程的的多条指令令业业为每个线线程维护一一套独立的的体系结构构状态包括括通用寄存存器,控制制寄存器和和其他的状状态寄存器器等。 其其主要缺点点是,由于于采用集中中式指令发发射指令发发射阶段变变得复杂,采采用什么策策略发射指指令的问题题;另外,未未来微处理理器设计主主要采用功功能分布的的方法来克克服片上线线延迟,而而集中式发发射束缚了了功能分布布,这是不不如片上多多处理器的的地方。 .单片多多处理器( chipp mullti-pproceessorr) 随着着单个芯片片上晶体管管数目的增增加,构造造片上多处处理器系统统成为可能能。片上多多处理器是是指中在单单个芯片上上的多个处处理器核所所构成的多多处理器系系统。片上上多处理器器系统允许许线程在多多个处理器器核上并行行执行,它它利用线程程级并行性性来提高系系统性能。然然而由于片片上多处理理器系统的的资源是采采用划分方方式的,当当没有足够够线程时,资资源就浪费费了。图11d即为的发发射槽利用用图。片上上多处理器器的主要好好处是片上上的处理器器核可以很很简单,使使得设计和和验证时间间短 ,也也易于获得得较高主频频。 典型型的CMPP系统包括括: Sttandfford Hydrra,IBBM Poower44,Sunn MAJJC,Brroadccom ssb12550,Crradlee's UUniveersall Miccrosyystemm。 在程程序运行时时,允许线线程在多个个处理器上上执行,利利用线程级级并行性来来提高系统统性能。其其主要缺点点是,由于于资源是各各个处理器器独有的,所所以当没有有足够的线线程时会造造成资源浪浪费。必须须注意的是是,严格的的讲,此处处关心的线线程数最小小仅仅指单单纯的线程程数,而应应该指(线线程数并并行性),因因为如果线线程的并行行性不高(比比如一个线线程长时间间依赖于另另一个线程程)再多的的线程在某某一个时刻刻表现出来来的实际效效果是很差差的。 22.1.55多核多线线程处理器器 这是单单片多处理理器和多线线程的结合合体,也是是未来的处处理科体系系结构的一一个可能的的发展趋势势。现在也也有叫cllusteered SMTpproceessorr也属于这这种类型。其其结构特点点是一个片片上有多个个处理器,同同时每个处处理器内部部支持多个个线程,所所以说是单单片多处理理器和多线线程的结合合体。 单单独采用片片上多处理理器的优点点是,能够够把许多时时间关键的的资源分布布到不同的的处理器上上,故能够够使逻辑稍稍微简单,也也能够提高高时钟频率率;其缺点点是不同处处理器之间间通信延迟迟很大。单单独采用能够增增加指令发发射宽度,消消除掉许多多延迟;其其缺点是必必然增加单单个处理器器上的时间间关键的资资源的竞争争,如寄存存器堆和重重命名机制制,同时这这种竞争必必然会要求求利用出复复杂的逻辑辑。 但是是可以看到到上述两种种结构具有有明显的互互补性,所所以说,多多处理器多多线程是一一个发展方方向。但必必须指出的的是,这种种体系结构构最大的瓶瓶颈就是随随着处理速速度提高,对对共享资源源的竞争将将更加激烈烈。各段均取周周期法:             流水线线各段执行行时间最长长的那段为为整个流水水线的瓶颈颈,一般地地,将其执执行时间称称为流水线线的周期。             若在在计算n个个任务地执执行时间时时,将各个个子功能段段的实际执执行时间限限制为周期期时间,则则称为各段段均取周期期法。           该该方法中,计计算公式为为:                          T总总=(n+k-1)×周期     其中中,k为总总段数,nn为任务总总数。各叠叠加段取最最大值法:           该方法法中,计算算公式为:            T总总=t1+maxt1,tt2+mmaxtt1,t22,t3+mmaxtt1,t22,ttk-1                      +mmaxtt1,t22,tkk×nn-(k-1)+maxt2,tt3,tk                       +mmaxtt3,t44,ttk+maxxtk-1,tkk+tkk            其中中,k为总总段数,nn为任务总总数。最省省时法:         该该方法中,计计算公式为为:           T总总=t1+t2+tk+maxt1,tt2,t33,.,tk×(n-1)           其其中,k为为总段数,nn为任务总总数。采取取哪种方法法?            当当各段执行行时间不一一样时,上上述3种方方法才存在在区别。若若各段执行行时间一样样,三者无无区别。第第2,3种种方式依各各段时间取取值不一样样而可能存存在区别。问题一、现现采用四级级流水线结结构分别完完成一条指指令的取指指、指令译译码和取数数、运算以以及送回运运算结果四四个基本操操作,每步步操作时间间依次为660ns,1100nss,50nns和700ns。该该流水线的的操作周期期应为_AA_ns。若若有一小段段程序需要要用20条条基本指令令完成(这这些指令完完全适合于于流水线上上执行),则则得到第一一条指令结结果需_BB_ns,完完成该段程程序需_CC_ns。 供选择的的答案: A: 50 70 100 280 B: 100 200 280 400 C: 14000 20000 23000 26000 答案:A.3 B.4 C.3 问题二、若若流水线把把一条指令令分为取指指、分析和和执行三个个部分,且且三部分的的时间分别别是t取指指=2nss,t分析析=2nss,t执行行=1nss,则1000条指令令全部执行行完毕需_nns。 AA、1633 B、1183 CC、1922 D、2203 答答案D 以以上两题计计算方法存存在着冲突突: 问题题一、第一一条指令结结果所需时时间=1000*4=400 则相应的的完成该段段程序所需需时间=1100*44+1000*19=23000 问题二二、第一条条指令结果果所需时间间=2+22+1=55 则相应应的完成该该段程序所所需时间=2+2+1+999*2=2203                                      水线线指令、重重叠控制、先先行控制、同同步时间、操操作周期                                            现在采用44级线流水水线结构分分别完成一一条指令的的取指、指指令译码和和取数、运运算以及送送回运算结结果4个基基本操作,每每步操作时时间依次为为60nss、1000ns、550ns和和70nss。若有一一小段程序序需要用220条基本本指令完成成(这些指指令完全适适合流水线线上执行),则则得到第一一条指令结结果需要 (1) nns   ,   完成该段段程序需(22)ns。 解析及答案案:流水线指令令分重叠控控制和先行控制制,其中重重叠控制需需要有个每每步操作周周期的限制制 ,就是是同步时间间,必须等等到某个操操作周期结结束,才能能进行下一一步操作,一般这样样的题目都都是隐含默默认为重叠叠控制.    所以以需要先确确定同步时时间,就是是操作周期期,这题的的操作周期期是1000NS,因因为要选最最长的一个个为操作周周期.    确定了了同步时间间就容易了了.   第一步660NS,不到一个个周期,必必须等到一一个周期即即100NNS过完,才能进行行下一步,所以第一一条指令完完成需要 100 +1000+1000+1000=4000NS.     同同时,第一一条指令的的取指周期期结束,即即100NNS结束以以后,开始始指令译码码周期,也也在同时,第二条指指令的取指指周期开始始工作-这这样就是流流水线执行行指令-第第2个周期期结束后,第一条指指令的译码码阶段完成成,开始取取数运算阶阶段,第二二条指令的的取指完成成,开始指指令译码,第三条指指令的取指指开始。第第2个问题题,有个公公式可以计计算,这个个公式是在在使用重叠叠控制方式式,有操作作周期的情情况下可以以直接套用用.    指令的段段数 * 操作周期期 + (总的指令令数-1) * 操作周周期.   就是是   44*1000+(200-1)*100=23000NS    解释就就是,第一一条指令没没法发挥出出流水线线线的优势,因为它只只能是在44个周期后后才能完成成,所以要要单独列出出来,这以以后,每个个周期都能能完成一条条指令的运运行,还有有19条指指令,需要要19*1100的时时间 - 每个个周期都能能完成一条条指令的运运行,这个个理解起来来稍微有一一点抽象,不要横向向理解, 要纵向理理解,可以以从最后一一步来理解解, 这个个周期,有有条指令的的最后一步步完成了,那个周期期,又有条条指令的最最后一步完完成了,从从第一条指指令结束以以后,后面面的每个周周期,都有有条指令的的最后一步步被完成.      充分理理解后,公公式就变成成        (指指令的段数数-1) * 操作作周期 + 总的指指令数 * 操作周周期

    注意事项

    本文(从体系结构的演变看高性能微处理器的发展趋势7721.docx)为本站会员(you****now)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开