IntelIA处理器结构与原理.ppt
《IntelIA处理器结构与原理.ppt》由会员分享,可在线阅读,更多相关《IntelIA处理器结构与原理.ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第2章章 Intel IA-32处理器结构与原理处理器结构与原理张明武张明武华南农业大学信息(软件)学院华南农业大学信息(软件)学院华南农业大学信息(软件)学院华南农业大学信息(软件)学院12.1 Pentium处理器处理器80 x86系列微处理器兼容系列微处理器兼容有有64位数据总线、位数据总线、32位地址总线,寻址空间位地址总线,寻址空间4GB。RISC型超标量结构型超标量结构 -两个两个两个两个5 5级整数指令流水线,一个级整数指令流水线,一个级整数指令流水线,一个级整数指令流水线,一个8 8级浮点流水线。级浮点流水线。级浮点流水线。级浮点流水线。具有超级流水线技术的高性能浮点运算器。
2、具有超级流水线技术的高性能浮点运算器。数据数据-代码分离式高速缓存,符合代码分离式高速缓存,符合MESI协议。协议。增强的错误检测和报告功能。增强的错误检测和报告功能。利用片上分支目标缓冲器提高分支指令预测准确性。利用片上分支目标缓冲器提高分支指令预测准确性。常用的指令不采用微程序设计,而改用硬件实现。常用的指令不采用微程序设计,而改用硬件实现。支持支持64位外部数据总线突发传输方式位外部数据总线突发传输方式通过通过APIC总线支持多处理器系统总线支持多处理器系统2.1.1 Pentium处理器的特性处理器的特性2分支目标分支目标缓冲器缓冲器 代码代码Cache 8KBTLB指令指令指针指针预
3、取缓冲存储器预取缓冲存储器指令译码部件指令译码部件256位位总总 线线 接接 口口 部部 件件分分页页部部件件64位数位数据总线据总线 预取预取地址地址32位地位地址总线址总线控制控制控控 制制 部部 件件地址生成地址生成(U流水线)流水线)地址生成地址生成(V流水线)流水线)控制控制ROMALU(U流水线)流水线)ALU(V流水线)流水线)整数寄存器组整数寄存器组桶形移位器桶形移位器数据数据 Cache 8KBTLB浮点部件浮点部件控制控制寄存器组寄存器组加法器加法器除法器除法器乘法器乘法器80位位80位位分分支支检检测测和和目目标标地地址址64位数位数据总线据总线32位地位地址总线址总线3
4、2位位32位位32位位32位位32位位32位位=指令预取指令预取指令预取指令预取=首次译码首次译码首次译码首次译码=二次译码二次译码二次译码二次译码=指令执行指令执行指令执行指令执行=写回写回写回写回R R2.1.2 Pentium处理器的内部结构与工作原理处理器的内部结构与工作原理3指令配对规则指令配对规则配对的指令必须是简单指令配对的指令必须是简单指令两条指令之间不可存在两条指令之间不可存在“写后读写后读”或或“写后写写后写”这这样的寄存器相关性样的寄存器相关性一条指令不能同时既包含位移量又包含立即数一条指令不能同时既包含位移量又包含立即数带前缀(带前缀(JCC指令的指令的OF除外)的指令
5、只能出现在除外)的指令只能出现在U流水中流水中浮点运算指令不能和任何指令配对(浮点运算指令不能和任何指令配对(FCXH除外)除外)MOV AX,200MOV CX,AXMOV AX,200MOV AX,41242.2 P6微结构的处理器微结构的处理器2.2.1 P6微结构概述微结构概述 采用采用12级级3流水超标量结构流水超标量结构多路分支预测多路分支预测-预测分支未来的方向,为处理器预预测分支未来的方向,为处理器预预测分支未来的方向,为处理器预预测分支未来的方向,为处理器预 先译码分支之后的指令提供依据先译码分支之后的指令提供依据先译码分支之后的指令提供依据先译码分支之后的指令提供依据 动态
6、数据流分析动态数据流分析-处理器分析几条指令的数据相关性和资源可用性处理器分析几条指令的数据相关性和资源可用性处理器分析几条指令的数据相关性和资源可用性处理器分析几条指令的数据相关性和资源可用性-以优化的执行顺序高效地乱序执行这些指令以优化的执行顺序高效地乱序执行这些指令以优化的执行顺序高效地乱序执行这些指令以优化的执行顺序高效地乱序执行这些指令 推测执行推测执行-在假设分支走向基础上,执行其中一路指令流在假设分支走向基础上,执行其中一路指令流在假设分支走向基础上,执行其中一路指令流在假设分支走向基础上,执行其中一路指令流 双独立总线结构双独立总线结构-后端总线连接到后端总线连接到后端总线连接
7、到后端总线连接到L2 CacheL2 Cache上上上上-前端总线前端总线前端总线前端总线FSBFSB主要负责主存储器的信息传送操作主要负责主存储器的信息传送操作主要负责主存储器的信息传送操作主要负责主存储器的信息传送操作Pentium IIPentium II北桥北桥北桥北桥内存内存内存内存FSB 前端总线前端总线L2 CacheL2 Cache后端总线后端总线5关于乱序执行技术关于乱序执行技术为了提高指令流的执行效率,乱序执行核心监视很为了提高指令流的执行效率,乱序执行核心监视很多条指令,然后在不损失数据完整性的前提下,采用多条指令,然后在不损失数据完整性的前提下,采用能充分发挥多个处理部
8、件并行工作的指令顺序来执行。能充分发挥多个处理部件并行工作的指令顺序来执行。这个指令顺序可能和原始程序的不一样。这个指令顺序可能和原始程序的不一样。1)A=B+C2)P=A*23)Q=D-E1)和)和3)可配对同时执行)可配对同时执行62.2.2 Pentium III处理器内部结构及工作原理处理器内部结构及工作原理 72.3 NetBurst微结构的处理器微结构的处理器 2.3.1 NetBurst微结构概述微结构概述 1.1.超级流水线技术超级流水线技术超级流水线技术超级流水线技术衡量衡量CPU的性能指标是的性能指标是CPU完成应用程序所需的总时完成应用程序所需的总时间。其计算公式如下:间
9、。其计算公式如下:CPUCPU性能性能性能性能=CPU=CPU的主频的主频的主频的主频IPCIPC IPC是每时钟执行的指令条数。是每时钟执行的指令条数。要提高要提高CPU性能,可采用提高性能,可采用提高CPU主频和提高主频和提高IPC。要提高主频要提高主频要提高主频要提高主频减少每个流水级的执行周期减少每个流水级的执行周期减少每个流水级的执行周期减少每个流水级的执行周期要减小每要减小每要减小每要减小每个流水级的任务量个流水级的任务量个流水级的任务量个流水级的任务量将任务再分解将任务再分解将任务再分解将任务再分解增加流水线深度增加流水线深度增加流水线深度增加流水线深度82.快速执行引擎快速执行
10、引擎 NetBurst微结构中配置了一种时钟缓冲器电路,可微结构中配置了一种时钟缓冲器电路,可以使该结构下以使该结构下2个执行简单指令的个执行简单指令的ALU和和2个存储地址个存储地址AGU运行在两倍的运行在两倍的CPU核心频率下核心频率下 3.高级动态执行高级动态执行 一个高达一个高达126条指令的超大指令窗口,避免了处理器条指令的超大指令窗口,避免了处理器为了等待配对指令而出现暂时的停顿,也减少了因为了等待配对指令而出现暂时的停顿,也减少了因Cache没命中,到主存中获取数据而产生等待的次数。没命中,到主存中获取数据而产生等待的次数。一个一个4KB的分支目标缓冲器的分支目标缓冲器BTB记录
11、更多的过去分记录更多的过去分支的历史细节,再配以改进的分支预测算法,使分支的历史细节,再配以改进的分支预测算法,使分支预测失误率比支预测失误率比Pentium III下降了下降了33。94.执行跟踪执行跟踪Cache(execution trace Cache)放弃放弃L1 指令指令Cache的设计,采用执行跟踪的设计,采用执行跟踪Cache,它,它在译码器的后面,按程序流顺序存放已经译码好的最在译码器的后面,按程序流顺序存放已经译码好的最多多12,000条微指令,条微指令,5.高速系统总线高速系统总线采用了一种采用了一种“四倍速四倍速”技术技术quad pumping,使得,使得前端总线能很
12、方便的工作再前端总线能很方便的工作再4倍于系统总线的频率上。倍于系统总线的频率上。6.高级传输高级传输Cache采用采用8路相联的片内路相联的片内L2 Cache,与核心同频工作,与,与核心同频工作,与CPU核心的专用总线宽度为核心的专用总线宽度为256位,是过去的位,是过去的4倍,这倍,这样主频为样主频为2.8GHz的的Pentium 4其数据带宽将为其数据带宽将为89.6GBps。102.3.2 Pentium 4处理器内部结构及工作原理处理器内部结构及工作原理 112.3.3 NetBurst微结构处理器的新技术微结构处理器的新技术 5757条条条条MMXMMX指令操作指令操作指令操作指
13、令操作8 8个个个个6464位长的位长的位长的位长的MMXMMX寄存器内的紧寄存器内的紧寄存器内的紧寄存器内的紧缩字节(缩字节(缩字节(缩字节(8 8个字节打包成一个个字节打包成一个个字节打包成一个个字节打包成一个6464位长的数据)、字或位长的数据)、字或位长的数据)、字或位长的数据)、字或双字整型数上执行双字整型数上执行双字整型数上执行双字整型数上执行SIMDSIMD7070条条条条SSESSE指令处理在指令处理在指令处理在指令处理在8 8个个个个128128位的位的位的位的XMMXMM寄存器中的单精寄存器中的单精寄存器中的单精寄存器中的单精度浮点数和在度浮点数和在度浮点数和在度浮点数和在
14、MMXMMX寄存器中的紧缩整数。高速缓存寄存器中的紧缩整数。高速缓存寄存器中的紧缩整数。高速缓存寄存器中的紧缩整数。高速缓存控制指令通过增加主存到控制指令通过增加主存到控制指令通过增加主存到控制指令通过增加主存到CacheCache和处理器到主存的数和处理器到主存的数和处理器到主存的数和处理器到主存的数据流,改善存储性能,据流,改善存储性能,据流,改善存储性能,据流,改善存储性能,SIMDSIMD浮点指令使处理器能同浮点指令使处理器能同浮点指令使处理器能同浮点指令使处理器能同时执行时执行时执行时执行4 4个浮点操作。个浮点操作。个浮点操作。个浮点操作。144144条条条条SSE2SSE2指令处
15、理在指令处理在指令处理在指令处理在XMMXMM寄存器中的紧缩双精度浮寄存器中的紧缩双精度浮寄存器中的紧缩双精度浮寄存器中的紧缩双精度浮点数和在点数和在点数和在点数和在MMXMMX与与与与XMMXMM寄存器中的紧缩整数。寄存器中的紧缩整数。寄存器中的紧缩整数。寄存器中的紧缩整数。1313条条条条SSE3SSE3指令增强指令增强指令增强指令增强SSE,SSE2SSE,SSE2和和和和x87FPUx87FPU数学能力的性数学能力的性数学能力的性数学能力的性能。能。能。能。1.SIMD技术技术122.超线程超线程(Hyper-Threading,HT)技术技术允许物理上单个的处理器采用共享执行资源的方
16、法同允许物理上单个的处理器采用共享执行资源的方法同允许物理上单个的处理器采用共享执行资源的方法同允许物理上单个的处理器采用共享执行资源的方法同时执行两个或更多的分离代码流(线程)时执行两个或更多的分离代码流(线程)时执行两个或更多的分离代码流(线程)时执行两个或更多的分离代码流(线程)HTHT技术由单处理器上的技术由单处理器上的技术由单处理器上的技术由单处理器上的2 2个或者多个逻辑处理器组成,个或者多个逻辑处理器组成,个或者多个逻辑处理器组成,个或者多个逻辑处理器组成,每个逻辑处理器都有自己的每个逻辑处理器都有自己的每个逻辑处理器都有自己的每个逻辑处理器都有自己的IA-32IA-32结构状态
17、结构状态结构状态结构状态(AS)(AS)每个逻辑处理器都有自己的每个逻辑处理器都有自己的每个逻辑处理器都有自己的每个逻辑处理器都有自己的IA-32IA-32通用寄存器、段寄通用寄存器、段寄通用寄存器、段寄通用寄存器、段寄存器、控制寄存器、调试寄存器等存器、控制寄存器、调试寄存器等存器、控制寄存器、调试寄存器等存器、控制寄存器、调试寄存器等逻辑处理器共享的资源包括执行引擎和系统总线接口逻辑处理器共享的资源包括执行引擎和系统总线接口逻辑处理器共享的资源包括执行引擎和系统总线接口逻辑处理器共享的资源包括执行引擎和系统总线接口ASAS处理器核心处理器核心支持支持HT的的IA-32处理器处理器2个逻辑处
18、理器个逻辑处理器共享一个核共享一个核AS=IA-32结构状态结构状态AS处理器核心处理器核心传统多传统多IA-32处理器系统处理器系统每个处理器一每个处理器一个独立封装个独立封装AS处理器核心处理器核心133.双核双核(Dual-Core)技术技术 通过在一个物理封装中包含两个分离的完整执行核来通过在一个物理封装中包含两个分离的完整执行核来通过在一个物理封装中包含两个分离的完整执行核来通过在一个物理封装中包含两个分离的完整执行核来提供硬件多线程能力提供硬件多线程能力提供硬件多线程能力提供硬件多线程能力每个完整的执行核不仅有自己的每个完整的执行核不仅有自己的每个完整的执行核不仅有自己的每个完整的
19、执行核不仅有自己的ASAS,还拥有自己的执,还拥有自己的执,还拥有自己的执,还拥有自己的执行引擎,总线接口与行引擎,总线接口与行引擎,总线接口与行引擎,总线接口与L2 Cache L2 Cache。结构上有支持结构上有支持结构上有支持结构上有支持HTHT技术的和不支持技术的和不支持技术的和不支持技术的和不支持HTHT技术的双核结构技术的双核结构技术的双核结构技术的双核结构多核(多核(多核(多核(Multi-CoreMulti-Core)、众核()、众核()、众核()、众核(Many-CoreMany-Core)技术)技术)技术)技术Pentium D IA-32处理器处理器ASAS执行引擎执行
20、引擎执行引擎执行引擎Local APICLocal APICL2 CacheL2 Cache总线接口总线接口总线接口总线接口Pentium EE IA-32处理器处理器系统总线系统总线ASAS执行引擎执行引擎执行引擎执行引擎LocalAPICL2 CacheL2 Cache总线接口总线接口总线接口总线接口系统总线系统总线ASASLocalAPICLocalAPICLocalAPIC14AMD的双核的双核Intel的的Pentium D双核双核154.Intel的的EM64T技术技术 完全兼容现在的完全兼容现在的IA-32结构结构具有传统具有传统IA-32模式和模式和IA-32e模式,模式,IA
21、-32e模式模式包括包括64位模式和兼容模式(允许现有程序无需位模式和兼容模式(允许现有程序无需修改就运行在传统修改就运行在传统IA-32模式和兼容模式下)模式和兼容模式下)64位模式下具有以下特性:位模式下具有以下特性:64位平板线性地址位平板线性地址增加增加8个新的通用寄存器个新的通用寄存器增加增加8个新的流个新的流SIMD扩展(扩展(SSE,SSE2和和SSE3)64位宽的通用寄存器和指令指针寄存器位宽的通用寄存器和指令指针寄存器165.Intel的虚拟化技术的虚拟化技术n在硬件层面上提供多虚拟系统功能在硬件层面上提供多虚拟系统功能n一个机器可以虚拟成多个机器,甚至同时可一个机器可以虚拟
22、成多个机器,甚至同时可以运行多个相同或不同的操作系统。以运行多个相同或不同的操作系统。n虚拟机监控程序(虚拟机监控程序(VMM)为每个操作系统提)为每个操作系统提供一个虚拟的硬件环境供一个虚拟的硬件环境172.4 Core微结构的处理器微结构的处理器 2.4.1 Core微结构的引入微结构的引入 NetBurst微结构的缺陷:微结构的缺陷:IPC表现不佳,同频情况下表现不佳,同频情况下Pentium 4有时还不如前有时还不如前代的代的Pentium III频率提高后,功耗随之上升,功耗过高,影响了主频频率提高后,功耗随之上升,功耗过高,影响了主频的进一步提高。的进一步提高。Power=Powe
23、r=C Cdynamicdynamic 电压电压电压电压 电压电压电压电压 频率频率频率频率 其中其中Cdynamic是面积与处于活跃状态的数据位是面积与处于活跃状态的数据位翻转的翻转的触发器数量的乘积。触发器数量的乘积。18Core微结构的处理器系列微结构的处理器系列桌面平台的桌面平台的Conroe 移动平台的移动平台的Merom 服务器平台的服务器平台的Woodcrest Core处理器处理器 Core 2处理器处理器 单核的单核的Core Solo 双核的双核的Core Duo,Core 2 Duo 四核的四核的Core 2 Quad 192.4.2 Conroe处理器内部结构与特点处理
24、器内部结构与特点CoreCore微结构微结构微结构微结构20ConroeConroe处理器内部结构示意图处理器内部结构示意图处理器内部结构示意图处理器内部结构示意图 21宽位动态执行宽位动态执行(Wide Dynamic Execution)着眼点在于提高每时钟周期处理的指令数,着眼点在于提高每时钟周期处理的指令数,改善执行时间和能源效率,同时完整的取、改善执行时间和能源效率,同时完整的取、发射、执行发射、执行4条指令条指令宏融合宏融合(macrofusion)技术能够在译码期间)技术能够在译码期间将常见的指令对组合到一个单独的微代码中将常见的指令对组合到一个单独的微代码中(Micro-op)
25、微代码融合微代码融合(Micro-op fusion)技术能在微)技术能在微代码执行前将译码自同一个代码执行前将译码自同一个x86指令的几个指令的几个微代码融合成更少的微代码微代码融合成更少的微代码 22智能功效管理(智能功效管理(Intelligent Power Capability)超细粒度功耗控制超细粒度功耗控制能够只对处于工作状态的能够只对处于工作状态的部件提供电源,而关闭非工作部件的电源供部件提供电源,而关闭非工作部件的电源供应,从而有效降低功耗。应,从而有效降低功耗。分离总线技术分离总线技术能够使总线宽度动态适应数据能够使总线宽度动态适应数据宽度的需要,对无效的信息位使其进入低电
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IntelIA 处理器 结构 原理
限制150内