CPU工作原理经典说明.doc
CPU 的原始工作模式在了解 CPU 工作原理之前,我们先简单谈谈 CPU 是如何生产出来的。CPU 是在特别纯净的硅材料上制造的。一个 CPU 芯片包含上百万个精巧的晶体管。人们在一块指甲盖大小的硅片上,用化学的方法蚀刻或光刻出晶体管。因此,从这个意义上说,CPU 正是由晶体管组合而成的。简单而言,晶体管就是微型电子开关,它们是构建 CPU 的基石,你可以把一个晶体管当作一个电灯开关,它们有个操作位,分别代表两种状态:ON(开和 OFF(关。这一开一关就相当于晶体管的连通与断开,而这两种状态正好与二进制中的基础状态“0”和“1”对应!这样,计算机就具备了处理信息的能力。但你不要以为,只有简单的“0”和“1”两种状态的晶体管的原理很简单,其实它们的发展是经过科学家们多年的辛苦研究得来的。在晶体管之前,计算机依靠速度缓慢、低效率的真空电子管和机械开关来处理信息。后来,科研人员把两个晶体管放置到一个硅晶体中,这样便创作出第一个集成电路,再后来才有了微处理器。看到这里,你一定想知道,晶体管是如何利用“0”和“1”这两种电子信号来执行指令和处理数据的呢?其实,所有电子设备都有自己的电路和开关,电子在电路中流动或断开,完全由开关来控制,如果你将开关设置为 OFF,电子将停止流动,如果你再将其设置为 ON,电子又会继续流动。晶体管的这种 ON 与 OFF 的切换只由电子信号控制,我们可以将晶体管称之为二进制设备。这样,晶体管的 ON 状态用“1”来表示,而OFF 状态则用“0”来表示,就可以组成最简单的二进制数。众多晶体管产生的多个“1”与“0”的特殊次序和模式能代表不同的情况,将其定义为字母、数字、颜色和图形。举个例子,十进位中的 1 在二进位模式时也是“1”,2 在二进位模式时是“10”,3 是“11”,4 是“100”,5 是“101”,6 是“110”等等,依此类推,这就组成了计算机工作采用的二进制语言和数据。成组的晶体管联合起来可以存储数值,也可以进行逻辑运算和数字运算。加上石英时钟的控制,晶体管组就像一部复杂的机器那样同步地执行它们的功能。CPU 的内部结构现在我们已经大概知道 CPU 是负责些什么事情,但是具体由哪些部件负责处理数据和执行程序呢?1.算术逻辑单元 ALU(Arithmetic Logic UnitALU 是运算器的核心。它是以全加器为基础,辅之以移位寄存器及相应控制逻辑组合而成的电路,在控制信号的作用下可完成加、减、乘、除四则运算和各种逻辑运算。就像刚才提到的,这里就相当于工厂中的生产线,负责运算数据。2.寄存器组 RS(Register Set 或 RegistersRS 实质上是 CPU 中暂时存放数据的地方,里面保存着那些等待处理的数据,或已经处理过的数据,CPU 访问寄存器所用的时间要比访问内存的时间短。采用寄存器,可以减少 CPU 访问内存的次数,从而提高了 CPU 的工作速度。但因为受到芯片面积和集成度所限,寄存器组的容量不可能很大。寄存器组可分为专用寄存器和通用寄存器。专用寄存器的作用是固定的,分别寄存相应的数据。而通用寄存器用途广泛并可由程序员规定其用途。通用寄存器的数目因微处理器而异。3.控制单元(Control Unit正如工厂的物流分配部门,控制单元是整个 CPU 的指挥控制中心,由指令寄存器IR(Instruction Register、指令译码器 ID(Instruction Decoder 和操作控制器0C(Operation Controller 三个部件组成,对协调整个电脑有序工作极为重要。它根据用户预先编好的程序,依次从存储器中取出各条指令,放在指令寄存器 IR 中,通过指令译码(分析确定应该进行什么操作,然后通过操作控制器 OC,按确定的时序,向相应的部件发出微操作控制信号。操作控制器 OC 中主要包括节拍脉冲发生器、控制矩阵、时钟脉冲发生器、复位电路和启停电路等控制逻辑。4.总线(Bus就像工厂中各部位之间的联系渠道,总线实际上是一组导线,是各种公共信号线的集合,用于作为电脑中所有各组成部分传输信息共同使用的“公路”。直接和 CPU相连的总线可称为局部总线。其中包括: 数据总线 DB(Data Bus、地址总线AB(Address Bus 、控制总线 CB(Control Bus。其中,数据总线用来传输数据信息;地址总线用于传送 CPU 发出的地址信息;控制总线用来传送控制信号、时序信号和状态信息等。CPU 的工作流程由晶体管组成的 CPU 是作为处理数据和执行程序的核心,其英文全称是:Central Processing Unit,即中央处理器。首先,CPU 的内部结构可以分为控制单元,逻辑运算单元和存储单元(包括内部总线及缓冲器三大部分。CPU 的工作原理就像一个工厂对产品的加工过程:进入工厂的原料(程序指令,经过物资分配部门(控制单元的调度分配,被送往生产线(逻辑运算单元,生产出成品(处理后的数据后,再存储在仓库(存储单元中,最后等着拿到市场上去卖(交由应用程序使用。在这个过程中,我们注意到从控制单元开始,CPU 就开始了正式的工作,中间的过程是通过逻辑运算单元来进行运算处理,交到存储单元代表工作的结束。数据与指令在 CPU 中的运行刚才已经为大家介绍了 CPU 的部件及基本原理情况,现在,我们来看看数据是怎样在 CPU 中运行的。我们知道,数据从输入设备流经内存,等待 CPU 的处理,这些将要处理的信息是按字节存储的,也就是以 8 位二进制数或 8 比特为 1 个单元存储,这些信息可以是数据或指令。数据可以是二进制表示的字符、数字或颜色等等。而指令告诉 CPU 对数据执行哪些操作,比如完成加法、减法或移位运算。我们假设在内存中的数据是最简单的原始数据。首先,指令指针(Instruction Pointer 会通知 CPU,将要执行的指令放置在内存中的存储位置。因为内存中的每个存储单元都有编号(称为地址,可以根据这些地址把数据取出,通过地址总线送到控制单元中,指令译码器从指令寄存器 IR 中拿来指令,翻译成 CPU 可以执行的形式,然后决定完成该指令需要哪些必要的操作,它将告诉算术逻辑单元(ALU 什么时候计算,告诉指令读取器什么时候获取数值,告诉指令译码器什么时候翻译指令等等。假如数据被送往算术逻辑单元,数据将会执行指令中规定的算术运算和其他各种运算。当数据处理完毕后,将回到寄存器中,通过不同的指令将数据继续运行或者通过 DB 总线送到数据缓存器中。基本上,CPU 就是这样去执行读出数据、处理数据和往内存写数据 3 项基本工作。但在通常情况下,一条指令可以包含按明确顺序执行的许多操作,CPU 的工作就是执行这些指令,完成一条指令后,CPU 的控制单元又将告诉指令读取器从内存中读取下一条指令来执行。这个过程不断快速地重复,快速地执行一条又一条指令,产生你在显示器上所看到的结果。我们很容易想到,在处理这么多指令和数据的同时,由于数据转移时差和 CPU 处理时差,肯定会出现混乱处理的情况。为了保证每个操作准时发生,CPU 需要一个时钟,时钟控制着 CPU 所执行的每一个动作。时钟就像一个节拍器,它不停地发出脉冲,决定 CPU 的步调和处理时间,这就是我们所熟悉的CPU 的标称速度,也称为主频。主频数值越高,表明 CPU的工作速度越快。如何提高 CPU 工作效率既然 CPU 的主要工作是执行指令和处理数据,那么工作效率将成为 CPU 的最主要内容,因此,各 CPU 厂商也尽力使 CPU 处理数据的速度更快。根据 CPU 的内部运算结构,一些制造厂商在 CPU 内增加了另一个算术逻辑单元(ALU,或者是另外再设置一个处理非常大和非常小的数据浮点运算单元(Floating Point Unit,FPU,这样就大大加快了数据运算的速度。而在执行效率方面,一些厂商通过流水线方式或以几乎并行工作的方式执行指令的方法来提高指令的执行速度。刚才我们提到,指令的执行需要许多独立的操作,诸如取指令和译码等。最初 CPU 在执行下一条指令之前必须全部执行完上一条指令,而现在则由分布式的电路各自执行操作。也就是说,当这部分的电路完成了一件工作后,第二件工作立即占据了该电路,这样就大大增加了执行方面的效率。另外,为了让指令与指令之间的连接更加准确,现在的 CPU 通常会采用多种预测方式来控制指令更高效率地执行。CPU 的工作原理浅析一个完整的微型计算机系统包括硬件系统和软件系统两大部分。计算机硬件是指组成一台计算机的各种物理装置,它们是由各种实在的器件所组成,是计算机进行工作的物质基础。计算机硬件系统中最重要的组成部分是中央处理器(CPU 。(一 CPU 的基本概念和组成中央处理器简称 CPU(Central Processing Unit,它是计算机系统的核心,主要包括运算器和控制器两个部件。如果把计算机比作一个人,那么 CPU 就是心脏,其重要作用由此可见一斑。CPU 的内部结构可以分为控制单元、逻辑单元和存储单元三大部分,三个部分相互协调,便可以进行分析,判断、运算并控制计算机各部分协调工作。计算机发生的所有动作都是受 CPU 控制的。其中运算器主要完成各种算术运算(如加、减、乘、除和逻辑运算( 如逻辑加、逻辑乘和非运算;而控制器不具有运算功能,它只是读取各种指令,并对指令进行分析,作出相应的控制。通常,在 CPU 中还有若干个寄存器,它们可直接参与运算并存放运算的中间结果。我们常说的 CPU 都是 X86 系列及兼容 CPU ,所谓 X86 指令集是美国 Intel 公司为其第一块 16 位 CPU(i8086 专门开发的,美国 IBM 公司 1981 年推出的世界第一台PC 机中的 CPUi8088(i8086 简化版使用的也是 X86 指令,同时电脑中为提高浮点数据处理能力而增加的 X87 芯片系列数学协处理器则另外使用 X87 指令,以后就将X86 指令集和 X87 指令集统称为 X86 指令集。虽然随着 CPU 技术的不断发展,Intel陆续研制出更新型的 i80386、i80486 直到今天的 Pentium 系列,但为了保证电脑能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源,Intel 公司所生产的所有 CPU 仍然继续使用 X86 指令集。另外除 Intel 公司之外,AMD 和 Cyrix 等厂家也相继生产出能使用 X86指令集的 CPU,由于这些 CPU 能运行所有的为 Intel CPU 所开发的各种软件,所以电脑业内人士就将这些 CPU 列为 Intel 的 CPU 兼容产品。由于 Intel X86 系列及其兼容 CPU 都使用 X86 指令集,就形成了今天庞大的 X86 系列及兼容 CPU 阵容。(二 CPU 主要技术参数CPU 品质的高低直接决定了一个计算机系统的档次,而 CPU 的主要技术特性可以反映出 CPU 的大致性能。1、位、字节和字长CPU 可以同时处理的二进制数据的位数是其最重要的一个品质标志。人们通常所说的 16 位机、32 位机就是指该微机中的 CPU 可以同时处理 16 位、32 位的二进制数据。早期有代表性的 IBM PC/XT、IBM PC/AT 与286 机是 16 位机,386 机和 486 机是 32 位机,586 机则是 64 位的高档微机。CPU 按照其处理信息的字长可以分为:八位微处理器、十六位微处理器、三十二位微处理器以及六十四位微处理器等。位:在数字电路和电脑技术中采用二进制,代码只有“0”和“1”,其中无论是“0”或是“1”在 CPU 中都是一“位”。字节和字长:电脑技术中对 CPU 在单位时间内(同一时间能一次处理的二进制数的位数叫字长。所以能处理字长为 8 位数据的 CPU 通常就叫 8 位的 CPU。同理32 位的 CPU 就能在单位时间内处理字长为 32 位的二进制数据。由于常用的英文字符用 8 位二进制就可以表示,所以通常就将 8 位称为一个字节。字节的长度是不固定的,对于不同的 CPU、字长的长度也不一样。8 位的 CPU 一次只能处理一个宇节,而 32 位的 CPU 一次就能处理 4 个宇节,同理字长为 64 位的C PU 一次可以处理 8 个字节。2、CPU 外频CPU 外频也就是常见特性表中所列的 CPU 总线频率,是由主板为 CPU 提供的基准时钟频率,而 CPU 的工作主频则按倍频系数乘以外频而来。在 Pentium 时代,CPU 的外频一般是 60/66MHz,从 Pentium II350 开始,CPU 外频提高到 1O0MHz。由于正常情况下 CPU 总线频率和内存总线频率相同,所以当 CPU 外频提高后,与内存之间的交换速度也相应得到了提高,对提高电脑整体运行速度影响较大。3、前端总线(FSB 频率前端总线也就是以前所说的 CPU 总线,由于在目前的各种主板上前端总线频率与内存总线频率相同,所以也是 CPU 与内存以及 L2Cache(仅指 Socket7 主板之间交换数据的工作时钟。由于数据传输最大带宽取决所同时传输的数据位宽度和传输频率,即数据带宽=(总线频率(数据宽度/8。例如 Intel 公司的 P333 使用 6 6MHz 的前端总线,所以它与内存之间的数据交换带宽为528MB/s =(66×64/8,而其 P350 则使用 100MHz 的前端总线,所以其数据交换峰值带宽为 800MB/s= (100×64/8。由此可见前端总线速率将影响电脑运行时 CPU 与内存、(L2Cache 之间的数据交换速度,实际也就影响了电脑的整体运行速度。因此目前 Intel 正开始将其 P的前端总线频率从 100MHz 向 133MHz 过渡。 AMD 公司新推出的 K7 虽然使用 20 0MHz 的前端总线频率,但有资料表明 K7CPU 内核与内存之间数据交换时钟仍然是 100MHz,主频也是以 100 MHz 为基频倍频的。4、CPU 主频CPU 主频也叫工作频率,是 CPU 内核(整数和浮点运算器电路的实际运行频率。在 486 DX2CPU 之前。CPU 的主频与外频相等。从 486DX2 开始,基本上所有的 CPU 主频都等于“外频乘上倍频系数”了。CPU 的主要技术特征。主频是 CPU 内核运行时的时钟频率,主频的高低直接影响 CPU 的运算速度。我们知道仅 Pentium 就可以在一个时钟周期内执行两条运算指令,假如主频为100MHz 的 Pentium 可以在 1 秒钟内执行 2 亿条指令,那么主频为 200MHz 的 Pentium 每秒钟就能执行 4 亿条指令,因此 CPU 主频越高,电脑运行速度就越快。需要说明的是 Cyrix 的 CPU 对主频这项指标是采用 PR 性能等级参数(Performance Rating 来标称的,表示此时 CPU 性能相当于 Intel 某主频 CPU 的性能。用 PR 参数标称的 CPU 实际运行时钟频率与标称主频并不一致。例如 M-300 的实际运行频率为 233MHz(66×3.5,但 PR 参数主频标为 300MHz,意思就是 M-300 相当于 Intel 的 P-300。不过事实上也仅是 M-300 的Business Winston 指标(整数性能能与 P-300 相当而已。5、L1 和 L2 Cache 的容量和速率L1 和 L2 Cache 的容量和工作速率对提高电脑速度起关键作用,尤其是 L2 Cache 对提高运行 2 D 图形处理较多的商业软件速度有显著作用。设置 L2 Cache 是 486 时代开始的,目的是弥补 L1 Cache(一级高速缓存容量的不足,以最大程度地减小主内存对 CPU 运行造成的延缓。CPU 的 L2 Cache 分芯片内部和外部两种。设在 CPU 芯片内的 L2 Cache 运行速度与主频相同,而采用 P方式安装在 CPU 芯片外部的 L2Cache 运行频率一般为主频的二分之一,因此其效率要比芯片内的 L2 Cache 要低,这就是赛扬只有 128KB 片内 Cache 但性能却几乎超过同主频 P(有 512KB 但工作时钟为主频一半的片外 L2Cache 的重要原因。(三 CPU 主要技术术语浅析1、流水线技术流水线(pipeline 是InteI 首次在 486 芯片中开始使用的。流水线的工作方式就象工业生产上的装配流水线。在 CPU 中由 56 个不同功能的电路单元组成一条指令处理流水线,然后将一条 X86 指令分成 56 步后再由这些电路单元分别执行,这样就能实现在一个CPU 时钟周期完成一条指令,因此提高 CPU 的运算速度。由于 486CPU 只有一条流水线,通过流水线中取指令、译码、产生地址、执行指令和数据写回五个电路单元分别同时执行那些已经分成五步的指令,因此实现了486CPU 设计人员预期的在每个时钟周期中完成一条指令的目的(按笔者看法, CPU 实际上应该是从第五个时钟周期才达到每周期能完成一条指令的处理速度。到了 Pentium 时代、设计人员在 CPU 中设置了两条具有各自独立电路单元的流水线,因此这样 CPU 在工作时就可以通过这两条流水线来同时执行两条指令,因此在理论上可以实现在每一个时钟周期中完成两条指令的目的。2、超流水线和超标量技术超流水线是指某些 CPU 内部的流水线超过通常的 56 步以上,例如 Pentium pro的流水线就长达 14步。将流水线设计的步(级数越多,其完成一条指令的速度越快,因此才能适应工作主频更高的 CPU。超标量(supe rscalar 是指在CPU 中有一条以上的流水线,并且每时钟周期内可以完成一条以上的指令,这种设计就叫超标量技术。3、乱序执行技术乱序执行(out-of-orderexecution 是指 CPU 采用了允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术。比方说程序某一段有 7 条指令,此时 CPU 将根据各单元电路的空闹状态和各指令能否提前执行的具体情况分析后,将能提前执行的指令立即发送给相应电路执行。当然在各单元不按规定顺序执行完指令后还必须由相应电路再将运算结果重新按原来程序指定的指令顺序排列后才能返回程序。这种将各条指令不按顺序拆散后执行的运行方式就叫乱序执行(也有叫错序执行技术。采用乱序执行技术的目的是为了使 CPU内部电路满负荷运转并相应提高了 CPU 的运行程序的速度。4、分技预溯和推测执行技术分枝预测(branch prediction 和推测执行(speculatlon execution是 CPU 动态执行技术中的主要内容,动态执行是目前 CPU 主要采用的先进技术之一。采用分枝预测和动态执行的主要目的是为了提高 CPU 的运算速度。推测执行是依托于分枝预测基础上的,在分枝预测程序是否分枝后所进行的处理也就是推测执行。5、指令特殊扩展技术自最简单的计算机开始,指令序列便能取得运算对象,并对它们执行计算。对大多数计算机而言,这些指令同时只能执行一次计算。如需完成一些并行操作,就要连续执行多次计算。此类计算机采用的是“单指令单数据”(SISD 处理器。在介绍 CPU性能中还经常提到“扩展指令”或“特殊扩展”一说,这都是指该 CPU 是否具有对 X86指令集进行指令扩展而言。扩展指令中最早出现的是 InteI 公司自己的“MMX”,其次是 AMD 公司的“3DNow!”,最后是最近的 Pentium III 中的“SSE”。MMX 和 SSE:MMX 是英语“多媒体指令集”的缩写。共有 57 条指令,是 Intel 公司第一次对自 1985 年就定型的X86 指令集进行的扩展。MMX 主要用于增强 CPU 对多媒体信息的处理,提高CPU 处理 3D 图形、视频和音频信息能力。但由于只对整数运算进行了优化而没有加强浮点方面的运算能力。所以在 3D 图形日趋广泛,因特网 3D 网页应用日趋增多的情况下,MMX 已心有余而力不足了。MMX 指令可对整数执行 SIMD 运算,比如-40、0、1、469或 32766 等等;SSE 指令则增加了对浮点数的 SIMD 运算能力,比如-40.2337,1.4355 或 877343226.012 等等。利用 MMX 和 SSE,一条指令可对 2 个以上的数据流执行计算。就前面的例子来说,再也不必每秒执行 529000 条指令了,只需执行 264600 条即可。因为同样的指令可同时对左、右声道发生作用。显示时,每秒也不需要 70778880 条指令,只需 23592960 条,因为红、绿、蓝通道均可用相同的指令控制。SSE:SSE 是英语“因特网数据流单指令序列扩展/Internet Streaming SIMDExtensions”的缩写。它是 InteI 公司首次应用于 Pentium III 中的。实际就是原来传闻的 MMX2 以后来又叫 KNI(KatmaiNewInstruction, Katmai 实际上也就是现在的 Pentium III。SSE 共有 70 条指令,不但涵括了原 MMX 和 3DNow!指令集中的所有功能,而且特别加强了 SIMD 浮点处理能力,另外还专门针对目前因特网的日益发展,加强了 CPU 处理 3D 网页和其它音、象信息技术处理的能力。CPU 具有特殊扩展指令集后还必须在应用程序的相应支持下才能发挥作用,因此,当目前最先进的 PenthmIII 450 和 Pentium II 450 运行同样没有扩展指令支持的应用程序时,它们之间的速度区别并不大。SSE 除保持原有的 MMX 指令外,又新增了 70 条指令,在加快浮点运算的同时,也改善了内存的使用效率,使内存速度显得更快一些。对游戏性能的改善十分显著,按 Intel 的说法,SSE 对下述几个领域的影响特别明显:3D 几何运算及动画处理;图形处理(如 Photoshop;视频编辑/压缩/解压(如 MPEG 和 DVD;语音识别;以及声音压缩和合成等。3DNOW!:AMD 公司开发的多媒体扩展指令集,共有 27 条指令,针对 MMX 指令集没有加强浮点处理能力的弱点,重点提高了 AMD 公司 K6 系列 CPU 对 3D 图形的处理能力,但由于指令有限,该指令集主要应用于 3D 游戏,而对其他商业图形应用处理支持不足。(四 CPU 的生产工艺及产品构架1、CPU 的生产工艺表明 CPU 性能的参数中常有“工艺技术”一项,其中有“0.35um”或“0.25um”等。一般来说“工艺技术”中的数据越小表明 CPU 生产技术越先进。目前生产 CPU 主要采用 CMOS 技术。CMOS 是英语“互补金属氧化物半导体”的缩写。采用这种技术生产 CPU 时过程中采用“光刀”加工各种电路和元器件,并采用金属铝沉淀在硅材料上后用“光刀”刻成导线联接各元器件。现在光刻的精度一般用微米(um 表示,精度越高表示生产工艺越先进。因为精度越高则可以在同样体积上的硅材料上生产出更多的元件,所加工出的联接线也越细,这样生产出的 CPU 工作主频可以做得很高。正因为如此,在只能使用 0.65u m 工艺时生产的第一代 PentiumCPU 的工作主频只有 60/66MHz,在随后生产工艺逐渐发展到 0.35um、0.25um时、所以也相应生产出了工作主额高达 266MHz 的 PentiumMMX 和主频高达 500MHz 的 Pentium II CPU。由于目前科学技术的限制,现在的 CPU 生产工艺只能达到 0.25 um,因此 Intel、AMD、Cyrix 以及其它公司正在向 0.18um 和铜导线(用金属铜沉淀在硅材料上代替原来的铝技术努力,估计只要生产工艺达到 0.18um 后生产出主频为 l000MHz 的 CPU就会是很平常的事了。AMD 为了跟 Intel 继续争夺下个世纪的微处理器发展权,已经跟摩托罗拉(Motorola 达成一项长达七年的技术合作协议。Motorola 将把最新开发的铜导线工艺技术(CopperInterconnect授权给 AMD。AMD 准备在 2000 年之内,制造高达 1000MHz(1GHz 的 K7 微处理器。CPU 将向速度更快、64 位结构方向前进。CPU 的制作工艺将更加精细,将会由现在 0.25 微米向 0.18 微米过渡,到 2000 年中大部分 CPU 厂商都将采用 0.18 微米工艺,2001 年之后,许多厂商都将转向 0.13 微米的铜制造工艺,制造工艺的提高,味着体积更小,集成度更高,耗电更少。铜技术的优势非常明显。主要表现在以下方面:铜的导电性能优于现在普遍应用的铝,而且铜的电阻小,发热量小,从而可以保证处理器在更大范围内的可靠性;采用 0.13 微米以下及铜工艺芯片制造技术将有效的提高芯片的工作频率;能减小现有管芯的体积。与传统的铝工艺技术相比,铜工艺制造芯片技术将有效地提高芯片的速度,减小芯片的面积,从发展来看铜工艺将最终取代铝工艺。各厂家所生产的每一种 CPU 都有名称(商标名、代号(研制代号和标志(专用图案。其中 Intel 公司的早期产品以 i80x86 命名,即以前的 286、386、486 等,到 Intel 开发出第 5 代产品 586 时由于商标注册上的麻烦改为 Pentium 并同时为其注册中文商标名“奔腾”,由此也就有了后来的 PentiumPr o(高能奔腾、Pentium (奔腾 2 代、Pentium(奔腾 3 代以及 Celeron(赛扬,目前名称并不能反映出同类型中 CPU 的规格,这点将从 Intel 正式推出前端总线为 133MHz 的 P后开始改进,以后只要看见 CPU的名称就可以了解这块 CPU 的大致技术特性。另外厂家对每一种 CPU 包括同名但技术规格不同的产品都另有一个研制代号,例如 Intel 公司使用 0.35 和 0.25 工艺生产的 P就各有一个代号分别为:Klamath 和 Destrutes。同时Itel 每一种名称的 CPU 都有还一个专用商标图案作为标志。AMD 和 Cyrix 公司的情况与 Intel 相近,它们的每一种 CPU 也都有一个名称、代号和标志,但都还没有正式的中文名称。2、CPU 的内部结构当前我们使用的 CPU 内部结构实际可分为单总线和双总线两种结构,由于 CPU内部结构特征决定 CPU 的封装形式和安装规范,所以在此作些简单的介绍。在 Intel 公司研制出 Pentium Pro 之前,各种 486 以上 CPU,如经典 Pentium 内部由主处理器、数学协处理器、控制器、各种寄存器和 L1Cache 组成。至今为止仍然有大量的 CPU 继续以这种内部结构模式进行生产,例如 AMD 的 K6-2、Cyrix 的 M以及 IDT-C6 等 CPU。从 P6(Pen-tiumPr o 的研制代号起,Intel 为进一步提高 CPU 与 L2 Cache 间的数据交换速度,将原来设置在电脑主板上的高速缓存控制电路和 L2Cache(二级高速缓存采用在同一块硅材料上制作的方法集成到 CPU 芯片上,这样 CPU 内核与高速缓存之间的数据交换就无需经过外部总线而直接通过 CPU 内部的缓存总线进行,由于 CPU 内核与内存和 CPU 与高速缓存之间的数据交换通道分离而形成首创的 P6 双总线架构模式(见图 1。从 PentiumPro 的实际应用效果看这一技术措施非常成功,是 CPU 研制技术上的一次重大改进。由于 P6 双总线结构的优越性,因此凡是内部具有 L2 C ache和高速缓存控制器的 CPU 都由传统的单总线模式过渡到双总线模式,例如 Intel公司的 P 、新赛扬和 P ;AMD 公司的 K6-和 K7 等。3、CPU 的构架和封装方式CPU 架构是按 CPU 的安装插座类型和规格确定的。目前常用的 CPU 按其安装插座规范可分为 Socket x 和 Slotx 两大架构。其中 Socket x 架构 CPU 中又分 Socket 7 和 Socket 370 两种,分别使用 321 针的So cket7 和 370 针的 Socket370 插座进行安装。Socket 7 和 Socket 370 插座在外形上非常相似尺寸也相同,但 Socket370 插座上比 Socket7 多了一圈针插孔。在 Slot x 架构 CPU 中可分为 S lot 1、Slot 2 和 SlotA 三种,分别使用对应规格的 Slot 槽进行安装。其中 Slot 1 和 Slot A 都是 242线插槽,但在机械和电气标准上都不相同,所以互不兼容。Slot2 是尺寸较大的插槽,专门用于安装 P 和 P 序列中的 Xeon。Xeon 是一种专用于工作组服务器上的 CPU。封装是 CPU 生产过程中的最后一道工序,封装是采用特定的材料将 CPU 芯片或 CPU 模块固化在其中以防损坏的保护措施,一般必须在封装后 CPU 才能交付用户使用。CPU 的封装方式取决于 CPU 安装形式和器件集成设计,通常采用 Socket 插座进行安装的 CPU 只能使用 PGA(栅格阵列方式封装,而采用 Slotx 槽安装的 CPU 则全部采用 SEC(单边接插盒的形式封装。目前采用 PGA 封装的 CPU 主要有 Intel 公司的赛扬,AMD 的 K6-2、K6-和Cyrix 公司的 M,以前赛扬曾采用 SEC 封装,现已逐渐全部改用 PGA 封装(见图4。采用 SEC 封装的 CPU 有 Intel 的 P、P和 AMD 公司的 K7。其中 Intel 的 Slot 架构 CPU 实际上分别使用 SEPP、SECC和 SECC2 三种单边接插盒进行封装。以上 CPU 中虽然赛扬和 K6-内部分别集成了 128KB 和 256KB 的 L2Cache 和高速缓存控制器,但由于它们是采用在同一片硅材料上一次制造出CPU 内核和 L2Cache、高速缓存控制器的方法制造,所以它们的体积较小并能采用 PGA 方式进行封装。不过赛扬采用 PGA 封装的主要原因是降低生产成本,而 K6-采用 PGA封装的主要原因则是因为 Intel 对其开发的 Slot1、Slot 2 和 Socket 370 插座进行专利保护,所以 A MD 只能沿用 Socket 7 架构和采用 PGA 封装方式生产 K6-。目前 Slot 架构的 CPU 有两种制造方法,一是将分别制造的 CPU 内核芯片、高速 Cache 控制器芯片和 L2Cache 芯片安装在一块 PCB(电路板上,然后再安装上单边接插盒和风扇以完成CPU 的最终制作。采用这类结构和方法制作的 CPU 有 Intel 的 P、P和 AMD的 K7。二是将完整的 CPU(内含 CPU 内核、高速 Cache 控制器芯片和 L2Cache 芯片芯片安装在电路板上,此时电路板纯粹只起 Slot接口的安装作用。最后同样再安装单边接插盒和风扇也就形成完整的 CPU。采用这种结构和方法制作的 CPU 只有 Intel 公司的部分赛扬。Slot 与 Socket:CPU 插槽简介Slot1 是 Intel P等 CPU 同主板的接口方式,采用的是 SEC(单边接触插槽接口。Slot2 是近期才出现的专用于 P服务器的一种 CPU 同主板的接口。Socket7 是目前 Pentium、Pentuim MMX、AMD K6、Cyrix6x86 以及 IDT 的 WinChip 等处理器广泛使用的接口方式。Super7 是 AMD 公司提出的一种新的 CPU 接口,支持 100MHz 的总线频率和AGP 技术,并与 Socket7 完全兼容。主要用于配合 AMD 的 K6-2 及最新推出的K6-3CPU。Socket370 是 INTEL 专为赛扬配备的具有 370 条针状引线(与 Socket 7 插座不兼容的 CPU 插槽。SlotA 是 AMD 一种同 Intel P在尺寸和结构上兼容的接口方式,与 AMD 推出的 K7 处理器配合。奔腾 IV 处理器架构剖析P4 处理器硬件架构这次正式零售版本的 P4 处理器全部为防静电袋单颗封装,产地是哥斯达黎加在处理器表面有大大的淡金黄“Pentium4”的蚀刻字样,处理器表面全部字体如下:1.4GHzIntel(R Pentium(R 4 1.4GHZ/256/400/1.7V SL4SG COSTA RICA3039A662-0437 i(M(c“00 4039A6331.5GHzIntel(R Pentium(R 4 1.5GHZ/256/400/1.7V SL4SH COSTA RICA3038A605-0285 i(M(c“00 4039A506P4 处理器采用了 Socket423 接口,因此不能用在现有的 PIII 主板上,从实物图中我们可以看出来,P4 处理器内核的上方和外表面有一层金属板覆盖,主要是散热之用。整个处理器的尺寸要现在的 PIII 铜矿 FCPGA 封装的处理器大不少。如果大家仔细观察一下 P4 处理器的表面金属散热片,就可以发现在其表面右下方有一个圆形小孔,通过向多家 P4 散热风扇生产厂商的询问,我们大致可以得到两类答案,一种说法是当使用者涂抹好散热膏,安装好散热风扇并开机运行之后,由于挤压作用和受热膨胀,部分的散热膏将进入处理器表面右下角这个小孔,在处理器内腔和散热片之间形成粘合作用,有助于更好的散热。另外一种说法是这个小孔在处理器运行的时候, 有助于平衡处理器内腔和外部的气压, 帮助热量从处理器向外对流。 由于部分的散热膏含有银,铜等帮助散热的金属微 粒,具有导电能力,让这种散热膏进入处理器内腔的后果不堪设想,因此 P4 处 理器表面小孔的后一种解释比较有说服力, 因此在使用含有金属微粒的散热膏时 一定要注意涂抹的范围,不能让这种散热膏进入小孔。 技术前沿:芯片集成的未来趋势 整个有关如何在系统芯片(SoC 方案中集成知识产权(IP 模块的争论 中,多数讨论都集中在 IP 的设计和传递机制上。很明显,IP 是未来 SoC 设计的 核心,但还必须考虑一个重要的问题基础硅芯片制造技术本身。 目前,多数的注意力都集中在选择单层多元而又成熟的 CMOS 技术做为 SoC 器件的传递机制。确实,CMOS 技术近期仍将是主导技术。CMOS 技术适用的 范围不断改变, 深亚微米技术和硅工艺设计以及封装技术的革新使器件密度达到 了前所未有的高度。 为在一块硅片(或封装单元内实现一个电子系统所有功能的 梦想提供新的机遇。 硅技术优化 在这一领域常问的一个关键问题是, 硅芯片的工艺设计和开发过程是否 有区别。在深亚微米技术的世界里,所有的方法最终都会融合成“标准”工艺, 这些工艺的面市时间取决于关键的制造工具是否具备,特别是在光刻领域。 这种看法忽略了半导体技术发展的另一个关键因素如何选择为达到目 标应用的关键功能所需的半导体技术。 考虑一个深亚微米 CMOS 晶体管设计时面临的选择会使我们对这一问题 有较好的理解。 从这幅复杂的图片中可以得到一个明显的结论。不可能在大驱动 电流的情况下同时得到低的亚阈值漏电流。低的亚阈值漏电流(即晶体管关断时 的电流消耗对用电池供电的器件来说是至关重要的。以系统术语来说,这一电 流直接与器件备用电流相关,因此也直接影响电池寿命。与此对比,对要求内部 时钟速度优化的设计来说, 驱动电流应尽可能高。因为对驱动深亚微米金属互连 线的高金属负载来说,大驱动电流有内在的优点。 因此如何开发可以同时适用这两种类型?