第5章 存储系统计算机组成与结构.PPT
《第5章 存储系统计算机组成与结构.PPT》由会员分享,可在线阅读,更多相关《第5章 存储系统计算机组成与结构.PPT(165页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 1*/16*/16第5章 存储系统2 2*/16*/165.1存储系统的基本知识5.2Cache基本知识5.3降低Cache不命中率5.4减少Cache不命中开销5.5减少命中时间5.6并行主存系统5.7虚拟存储器5.8实例:AMD Opteron的存储器层次结构3 3*/16*/161.计算机系统结构设计中关键的问题之一:如何以合理的价格,设计容量和速度都满足计算机系统要求的存储器系统?2.人们对这三个指标的要求 容量大、速度快、价格低3.三个要求是相互矛盾的q速度越快,每位价格就越高;速度越快,每位价格就越高;q容量越大,每位价格就越低;容量越大,每位价格就越低;q容量越大,速度越慢。
2、容量越大,速度越慢。5.1 存储系统的基本知识5.1.1 存储系统的层次结构 4 4*/16*/165.1 存储系统的基本知识4.解决方法:采用多种存储器技术,构成多级存储层次结构。程序访问的局部性原理:对于绝大多数程序来说,程序所访问的指令和数据在地址上不是均匀分布的,而是相对簇聚的。(局部性原理局部性原理)程序访问的局部性包含两个方面 q时间局部性时间局部性:程序马上将要用到的信息很可能就是现:程序马上将要用到的信息很可能就是现在正在使用的信息。在正在使用的信息。q空间局部性空间局部性:程序马上将要用到的信息很可能与现在:程序马上将要用到的信息很可能与现在正在使用的信息在存储空间上是相邻的
3、。正在使用的信息在存储空间上是相邻的。5 5*/16*/165.1 存储系统的基本知识5.存储系统的多级层次结构 演示演示多级存储层次多级存储层次6 6*/16*/165.1 存储系统的基本知识假设第i个存储器Mi的访问时间为Ti,容量为Si,平均每位价格为Ci,则q访问时间:访问时间:T1 T2 Tnq容量:容量:S1 S2 C2 Cn 整个存储系统要达到的目标:从CPU来看,该存储系统的速度接近于M1的,而容量和每位价格都接近于Mn的。q存储器越靠近存储器越靠近CPU,则,则CPU对它的访问频度越高,对它的访问频度越高,而且最好大多数的访问都能在而且最好大多数的访问都能在M1完成。完成。7
4、 7*/16*/165.1 存储系统的基本知识下面仅考虑由M1和M2构成的两级存储层次:pM M1 1的参数:的参数:S S1 1,T T1 1,C C1 1pM M2 2的参数:的参数:S S2 2,T T2 2,C C2 25.1.2 存储层次的性能参数8 8*/16*/165.1 存储系统的基本知识1.存储容量S一般来说,整个存储系统的容量即是第二级存储器M2的容量,即S=S2。2.每位价格C当当S1S2时,时,CC2。9 9*/16*/165.1 存储系统的基本知识3.命中率H 和不命中率F命中率:CPU访问存储系统时,在M1中找到所需信息的概率。qN N1 1 访问访问M M1 1的
5、次数的次数qN N2 2 访问访问M M2 2的次数的次数 不命中率:F1H1010*/16*/165.1 存储系统的基本知识4.平均访问时间TA T TA A HTHT1 1(1 1H H)()(T T1 1T TM M)T T1 1(1 1H H)T TM M 或或 T TA A T T1 1FTFTM M分两种情况来考虑CPU的一次访存:q当命中时,访问时间即为当命中时,访问时间即为T T1 1(命中时间命中时间)q当不命中时,情况比较复杂。当不命中时,情况比较复杂。不命中时的访问时间为:不命中时的访问时间为:T T2 2T TB BT T1 1T T1 1T TM M T TM M T
6、 T2 2T TB Bn不命中开销不命中开销T TM M:从向:从向M M2 2发出访问请求到把整个数发出访问请求到把整个数据块调入据块调入M M1 1中所需的时间。中所需的时间。n传送一个信息块所需的时间为传送一个信息块所需的时间为T TB B。1111*/16*/165.1 存储系统的基本知识 三级存储系统qCache(高速缓冲存储器)(高速缓冲存储器)q主存储器主存储器q磁盘存储器(辅存)磁盘存储器(辅存)可以看成是由“Cache主存”层次和“主存辅存”层次构成的系统。5.1.3 三级存储系统1212*/16*/165.1 存储系统的基本知识 从主存的角度来看q“CacheCache主存
7、主存”层次:弥补主存层次:弥补主存速度的不足速度的不足q“主存辅存主存辅存”层次:层次:弥补主存弥补主存容量的不足容量的不足1.“Cache主存”层次主存与CPU的速度差距“Cache-主存”层次2.“主存辅存”层次1313*/16*/165.1 存储系统的基本知识19801980年以来存储器和年以来存储器和CPUCPU性能随时间而提高的情况性能随时间而提高的情况 (以(以19801980年时的性能作为基准)年时的性能作为基准)1414*/16*/165.1 存储系统的基本知识两种存储层次两种存储层次1515*/16*/165.1 存储系统的基本知识存储层次存储层次CPU对第二级的对第二级的访
8、问方式访问方式比较项目比较项目目的目的存储管理实现存储管理实现 访问速度的比值访问速度的比值(第一级和第二级第一级和第二级)典型的块典型的块(页页)大小大小不命中时不命中时CPU是否切换是否切换“Cache 主存主存”层次层次“主存辅存主存辅存”层次层次为了弥补主存速度的不足为了弥补主存速度的不足 为了弥补主存容量的不足为了弥补主存容量的不足主要由专用硬件实现主要由专用硬件实现主要由软件实现主要由软件实现几比一几比一几万比一几万比一几十个字节几十个字节几百到几千个字节几百到几千个字节可直接访问可直接访问均通过第一级均通过第一级不切换不切换切换到其他进程切换到其他进程“CacheCache主存主
9、存”与与“主存辅存主存辅存”层次的区别层次的区别1616*/16*/165.1 存储系统的基本知识1.当把一个块调入高一层(靠近CPU)存储器时,可以放在哪些位置上?(映像规则)映像规则)2.当所要访问的块在高一层存储器中时,如何找到该块?(查找算法)(查找算法)3.当发生不命中时,应替换哪一块?(替换算法)(替换算法)4.当进行写访问时,应进行哪些操作?(写策略)写策略)5.1.4 存储层次的四个问题1717*/16*/161.存储空间分割与地址计算2.Cache和主存分块Cache是按块进行管理的。Cache和主存均被分割成大小相同的块。信息以块为单位调入Cache。q主存块地址(块号)主
10、存块地址(块号)用于查找该块在用于查找该块在Cache中的位置。中的位置。q块内位移块内位移用于确定所访问的数据在该块中的位置。用于确定所访问的数据在该块中的位置。5.2 Cache基本知识 5.2.1基本结构和原理 3.Cache的基本工作原理示意图 1919*/16*/165.2.2映像规则 全相联映像 全相联:主存中的任一块可以被放置到Cache中的任意一个位置。举例对比:阅览室位置 随便坐特点:空间利用率最高,冲突概率最低,实现最复杂。5.2 Cache基本知识2020*/16*/165.2 Cache基本知识2121*/16*/165.2 Cache基本知识2.直接映像 直接映像:主
11、存中的每一块只能被放置到Cache中唯一的一个位置。举例(循环分配)(循环分配)对比:阅览室位置 只有一个位置可以坐特点:空间利用率最低,冲突概率最高,实现最简单。对于主存的第i 块,若它映像到Cache的第j 块,则:ji mod(M)(M为Cache的块数)2222*/16*/16设M=2m,则当表示为二进制数时,j实际上就是i的低m位:ji:m位位5.2 Cache基本知识2323*/16*/165.2 Cache基本知识3.组相联映像 组相联:主存中的每一块可以被放置到Cache中唯一的一个组中的任何一个位置。举例组相联是直接映像和全相联的一种折中2525*/16*/165.2 Cac
12、he基本知识组的选择常采用位选择算法q若主存第若主存第i i 块映像到第块映像到第k k 组,则组,则:k ki i modmod(G G)(G G为为CacheCache的组数)的组数)q设设G G2 2g g,则当表示为二进制数时,则当表示为二进制数时,k k 实际上就是实际上就是i i 的低的低 g g 位位:低g位以及直接映像中的低m位通常称为索引。ki:g位位2626*/16*/165.2 Cache基本知识n 路组相联:每组中有n个块(nM/G)。n 称为相联度。相联度越高,相联度越高,CacheCache空间的利用率就越高,块冲突空间的利用率就越高,块冲突概率就越低,不命中率也就
13、越低。概率就越低,不命中率也就越低。绝大多数计算机的Cache:n 4想一想:想一想:相联度一定是越大越好?相联度一定是越大越好?全相联全相联直接映像直接映像组相联组相联n n(路数路数)G G(组数组数)M MM M1 11 11 1n nM M1 1G GM M2727*/16*/165.2 Cache基本知识当CPU访问Cache时,如何确定Cache中是否有所要访问的块?若有的话,如何确定其位置?1.通过查找目录表来实现目录表的结构q主存块的块地址的高位部分,称为主存块的块地址的高位部分,称为标识标识。q每个主存块能唯一地由其标识来确定每个主存块能唯一地由其标识来确定5.2.3 查找算
14、法2828*/16*/165.2 Cache基本知识只需查找候选位置所对应的目录表项2.并行查找与顺序查找提高性能的重要思想:主候选位置(MRU块)(前瞻执行)(前瞻执行)3.并行查找的实现方法相联存储器q目录由目录由2g个相联存储区构成,每个相联存储区的大小个相联存储区构成,每个相联存储区的大小为为n(h+log2n)位。位。q根据所查找到的组内块地址,从根据所查找到的组内块地址,从Cache存储体中读出存储体中读出的多个信息字中选一个,发送给的多个信息字中选一个,发送给CPU。2929*/16*/165.2 Cache基本知识3030*/16*/165.2 Cache基本知识单体多字存储器
15、比较器 q举例:举例:路组相联并行标识比较路组相联并行标识比较(比较器的个数及位数)(比较器的个数及位数)q路组相联路组相联Cache的查找过程的查找过程q直接映像直接映像Cache的查找过程的查找过程q优缺点优缺点n不必采用相联存储器,而是用按地址访问的存不必采用相联存储器,而是用按地址访问的存储器来实现。储器来实现。n所需要的硬件为:大小为所需要的硬件为:大小为2g nh位的存储器和位的存储器和n个个h位位的比较器。的比较器。n当相联度当相联度n增加时,不仅比较器的个数会增加,增加时,不仅比较器的个数会增加,而且比较器的位数也会增加。而且比较器的位数也会增加。3131*/16*/165.2
16、 Cache基本知识3232*/16*/165.2 Cache基本知识例子:DEC的Alpha AXP21064中的内部数据Cache1.简介容量:8KB块大小:32B块数:256映像方法:直接映像写缓冲器大小:4个块5.2.4 Cache的工作过程2.结构图3434*/16*/165.2 Cache基本知识3.工作过程“读”访问命中(完成(完成4步需要步需要2个时钟周期个时钟周期)pCache的容量与索引的容量与索引index、相联度、块大小之间、相联度、块大小之间的关系的关系 Cache的容量的容量=2index相联度相联度块大小块大小 p把容量为把容量为8192、相联度为、相联度为1、块
17、大小为、块大小为32(字节)(字节)代入:代入:索引索引index:8位位 标识:标识:29821位位 “写”访问命中3535*/16*/165.2 Cache基本知识设置了一个写缓冲器 (提高(提高“写写”访问的速度)访问的速度)q按字寻址的,它含有按字寻址的,它含有4个块,每块大小为个块,每块大小为4个字。个字。q当要进行写入操作时,如果写缓冲器不满,那么就把当要进行写入操作时,如果写缓冲器不满,那么就把数据和完整的地址写入缓冲器。对数据和完整的地址写入缓冲器。对CPU而言,本次而言,本次“写写”访问已完成,访问已完成,CPU可以继续往下执行。由写缓冲可以继续往下执行。由写缓冲器负责把该数
18、据写入主存。器负责把该数据写入主存。q在写入缓冲器时,要进行写合并检查。即检查本次写在写入缓冲器时,要进行写合并检查。即检查本次写入数据的地址是否与缓冲器内某个有效块的地址匹配。入数据的地址是否与缓冲器内某个有效块的地址匹配。如果匹配,就把新数据与该块合并如果匹配,就把新数据与该块合并。3636*/16*/165.2 Cache基本知识发生读不命中与写不命中时的操作q读不命中:读不命中:向向CPU发出一个暂停信号,通知它等待,发出一个暂停信号,通知它等待,并从下一级存储器中新调入一个数据块(并从下一级存储器中新调入一个数据块(32字节)。字节)。q写不命中:将使数据写不命中:将使数据“绕过绕过
19、”Cache,直接写入主存。,直接写入主存。对比:Alpha AXP 21264的数据Cache结构容量:64KB 块大小:64字节 LRU替换策略 主要区别q采用采用2路组相联路组相联q采用写回法采用写回法 没有写缓冲器3838*/16*/165.2 Cache基本知识1.替换算法所要解决的问题:当新调入一块,而Cache又已被占满时,替换哪一块?q直接映像直接映像Cache中的替换很简单中的替换很简单 因为只有一个块,别无选择。因为只有一个块,别无选择。q在组相联和全相联在组相联和全相联Cache中,则有多个块供选择。中,则有多个块供选择。主要的替换算法有三种q随机法随机法 优点:优点:实
20、现简单实现简单q先进先出法先进先出法FIFO5.2.5 替换算法3939*/16*/165.2 Cache基本知识最近最少使用法LRUq选择近期最少被访问的块作为被替换的块。选择近期最少被访问的块作为被替换的块。(实现比较困难)(实现比较困难)q实际上:实际上:选择最久没有被访问过的块作为被替换的块。选择最久没有被访问过的块作为被替换的块。q优点:优点:命中率较高命中率较高LRU和随机法分别因其不命中率低和实现简单而被广泛采用。q模拟数据表明,对于容量很大的模拟数据表明,对于容量很大的Cache,LRU和随机法和随机法的命中率差别不大。的命中率差别不大。4040*/16*/165.2 Cach
21、e基本知识2.LRU算法的硬件实现 堆栈法 q用一个堆栈来记录组相联用一个堆栈来记录组相联Cache的同一组中各块被访的同一组中各块被访问的先后次序。问的先后次序。q用堆栈元素的物理位置来反映先后次序用堆栈元素的物理位置来反映先后次序n栈底记录的是该组中最早被访问过的块,次栈栈底记录的是该组中最早被访问过的块,次栈底记录的是该组中第二个被访问过的块,底记录的是该组中第二个被访问过的块,栈顶记录的是刚访问过的块。栈顶记录的是刚访问过的块。n当需要替换时,从栈底得到应该被替换的块当需要替换时,从栈底得到应该被替换的块(块地址)。(块地址)。4141*/16*/165.2 Cache基本知识4242
22、*/16*/165.2 Cache基本知识q堆栈中的内容必须动态更新堆栈中的内容必须动态更新 n当当Cache访问命中访问命中时,通过用块地址进行相联查找,时,通过用块地址进行相联查找,在堆栈中找到相应的元素,然后把该元素的上面的所在堆栈中找到相应的元素,然后把该元素的上面的所有元素下压一个位置,同时把本次访问的块地址抽出有元素下压一个位置,同时把本次访问的块地址抽出来,从最上面压入栈顶。而该元素下面的所有元素则来,从最上面压入栈顶。而该元素下面的所有元素则保持不动。保持不动。n如果如果Cache访问不命中访问不命中,则把本次访问的块地址从最,则把本次访问的块地址从最上面压入栈顶,堆栈中所有原
23、来的元素都下移一个位上面压入栈顶,堆栈中所有原来的元素都下移一个位置。如果置。如果Cache中该组已经没有空闲块,就要替换一中该组已经没有空闲块,就要替换一个块。这时从栈底被挤出去的块地址就是需要被替换个块。这时从栈底被挤出去的块地址就是需要被替换的块的块地址。的块的块地址。4343*/16*/165.2 Cache基本知识q堆栈法所需要的硬件堆栈法所需要的硬件n需要为每一组都设置一个项数与相联度相同的小堆栈,需要为每一组都设置一个项数与相联度相同的小堆栈,每一项的位数为每一项的位数为log2n位。位。q硬件堆栈所需的功能硬件堆栈所需的功能n相联比较相联比较n能全部下移、部分下移和从中间取出一
24、项的功能能全部下移、部分下移和从中间取出一项的功能q速度较低,速度较低,成本较高成本较高(只适用于相联度较小的(只适用于相联度较小的LRU算法)算法)比较对法 q基本思路基本思路 让各块两两组合,构成比较对。每一个比较对用一个让各块两两组合,构成比较对。每一个比较对用一个触发器的状态来表示它所相关的两个块最近一次被访问的触发器的状态来表示它所相关的两个块最近一次被访问的远近次序,再经过门电路就可找到远近次序,再经过门电路就可找到LRU块块。4444*/16*/165.2 Cache基本知识 例如:例如:假设有假设有A、B、C三个块,可以组成三个块,可以组成3对:对:AB、AC、BC。每一对中块
25、的访问次序分别用。每一对中块的访问次序分别用“对触发器对触发器”TAB、TAC、TBC表示。表示。pTAB为为“1”,表示,表示A比比B更近被访问过;更近被访问过;pTAB为为“0”,表示,表示B比比A更近被访问过。更近被访问过。pTAC、TBC也是按这样的规则定义。也是按这样的规则定义。显然,当显然,当TAC1且且TBC1时,时,C就是最久没有被访问过了。就是最久没有被访问过了。(A比比C更近被访问过、且更近被访问过、且B比比C也是更近被访问过)也是更近被访问过)即:即:CLRU=TACTBC 同理可得:同理可得:用触发器和与门实现上述逻辑的电路:用触发器和与门实现上述逻辑的电路:4545*
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 存储系统计算机组成与结构 存储系统 计算机 组成 结构
限制150内