【教学课件】第四部分Intel网络处理器.ppt
《【教学课件】第四部分Intel网络处理器.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第四部分Intel网络处理器.ppt(122页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四部分 Intel网络处理器主要内容pIntel网络处理器概述pXScale核p微引擎p其它功能单元p编程模型p参考设计Internet eXchange Architecture(IXA)pIXA:泛指Intel网络处理器架构以及相关的支持芯片,包括网络处理器硬件及软件体系结构。pIXA包括控制面和数据面处理,定义了硬件抽象、应用编程接口和互连机制,但没有给出细节。pIXA的三个重要组成部分:n微引擎(Microengine,ME):Intel网络处理器的核心部件,在其它功能单元的支持下执行快路径上的操作。nXScale Core:Intel网络处理器的高层控制和管理单元,负责控制面及异常
2、包处理,运行嵌入式实时操作系统。nIXA可移植框架:为基于Intel网络处理器的软件开发提供应用编程接口和硬件抽象。IXA的特性p灵活性:n微引擎完全可编程,在低层硬件设备的支持下可实现许多复杂的网络处理功能,具有较好的功能灵活性。p高性能(高可扩放性):n使用多个可并行操作的微引擎,通过增加微引擎的数目、提高微引擎及XScale核的时钟频率、采用各种减小访存延迟的技术及增加专用的硬件功能单元,可支持高达OC-192的高端处理速度。p可移植性:nIXA可移植框架提供了应用编程接口和硬件抽象,使得基于该框架开发的软件与底层硬件实现松耦合,具有良好的可移植性和重用性。Internet eXchan
3、ge Processor(IXP)pIXP:指实现了IXA架构的网络处理器芯片。pIXP典型地包括:n一个XScale核n多个微引擎n片上存储单元n若干硬件功能单元n与各种外部连接的接口n内部总线第二代IXP网络处理器pIXP2400:8个微引擎,主要面向网络接入和边缘网应用,可用于WAN多服务交换、DSLAM、基站控制器和网关、47层交换、VoIP网关、多服务接入平台等。pIXP2800:16个微引擎,主要面向边缘网和核心网应用,可用于骨干网的路由与交换、无线设备、10Gbps的企业交换和路由等。pIXP2850:在IXP2800的基础上增加了加密单元,可达到10Gb/s的加解密速度,用于I
4、PSec、VPN、QoS Router等场合。pIXP2xxx:泛指任何一种第二代IXP网络处理器芯片。IXP2xxx的主要部件p一个IXP网络处理器是一块独立的芯片,包含一组复杂的可编程及不可编程的处理器和功能单元:n一个嵌入式RISC处理器(XScale Core)n8到16个可编程包处理器(微引擎)n多条独立的片上总线:提供芯片内部各功能单元之间的高速通道n处理器同步机制n共享和不共享的片上存储器n一个低速串行接口:连接到XScale Core,用于控制和管理n多个外部存储器接口:连接外部SRAM、DRAM及ROM等n多个外部I/O总线接口n计算哈希和加密的协处理器n其它功能单元 IXP
5、的外部连接p串行接口:连接到XScale Core,用于控制和管理。pPCI总线接口:连接I/O设备及传统CPU。pMSF接口:连接外部物理层设备及交换结构,是数据出入IXP的窗口。pDRAM总线接口:提供1条或多条DRAM总线。pSRAM总线接口:提供多条SRAM总线。p慢端口连接:访问ROM/FlashROM等外部硬件单元。IXP2400外部连接的速度IXP2xxx的内部组件数量数量组件组件目的目的1嵌入式RISC处理器控制、高层协议和例外处理8/16包处理引擎I/O、基本包处理和包转发1+SRAM访问单元协调对外部SRAM总线的访问1+DRAM访问单元协调对外部DRAM总线的访问1MSF
6、访问单元协调对外部I/O设备的访问1PCI总线访问单元协调对外部PCI总线的访问1SHaC单元存储中间结果、计算哈希值等1加密单元加/解密操作1系统底盘(chassis)提供内部控制及数据传输通道 IXP2xxx的概念组织IXP2400硬件结构框图硬件体系结构:多主控+系统底盘+多目标IXP2400硬件结构特征p采用了多主控+系统底盘+多目标的分布式硬件体系结构,增强了IXP2400的并行处理能力。p具体而言,n采用分立的内部总线结构,将不同存储单元的数据总线、数据读/写总线分开,可以同时对不同存储单元进行双向读/写操作。n引入命令总线仲裁器对各主控单元发出的命令进行排队判优,保证指令的优先级
7、,避免指令的冲突和拥塞。n采用分布式的硬件结构(即多主控+多目标),不同的硬件功能单元各司其职,负责专门的数据处理,可以并行操作。n采用多微引擎并行的硬件结构,所有微引擎可同时工作;而且微引擎被进一步分成两个簇,每个簇使用独立的SRAM数据总线,有效地缓解了总线冲突。IXP2xxx的处理器体系 处理器类型处理器类型 是否在芯片上?是否在芯片上?是否可编程?是否可编程?通用处理器否是嵌入式RISC处理器是是I/O处理器是是协处理器是否物理接口硬件 否否p通用处理器(GPP):不是IXP2xxx的一部分,用于执行整体控制和管理功能。p物理接口硬件:不是IXP2xxx的一部分,Intel提供专门的芯
8、片实现第一层和第二层的处理。IXP2xxx处理器体系(续)p嵌入式RISC处理器(XScale Core):不是快路径的一部分,用于管理微引擎、提供一个可以下载程序和配置芯片的接口、处理高层协议及例外的包,运行常规嵌入式操作系统。pI/O处理器(MicroEngine):只提供少量基本指令的低级设备,不运行操作系统,用于处理I/O设备与存储器之间的低层数据传输及基本包处理,是快路径处理的基础。p协处理器和功能单元:有一些构成了快路径的一部分,如SHaC单元、加/解密单元等。IXP2xxx使用的存储器存储器类型存储器类型最大容量最大容量是否在是否在典型用途典型用途芯片上?芯片上?GP Regis
9、ters2564bytes 是中间运算Inst.Cache32Kbytes 是最近使用过的指令Data Cache32Kbytes 是最近使用过的数据Mini Cache2Kbytes 是重用过一次的数据Write buffer未指定 是写缓冲区Local memory2560bytes/微引擎 是本地缓存Scratchpad16Kbytes 是进程间通信和同步Inst.Store4Kbytes/微引擎 是存放微引擎指令FlashROM未指定 否用于启动SRAM64Mbytes/通道 否存放表或包头DRAM2Gbytes/通道 否存储包四种主要存储器的特性类型类型 访问单位访问单位 相对访问相
10、对访问 特性特性 (字节)(字节)延时延时Local4 1 用LM_ADDR寄存器访问Scratchpad4 10 支持原子操作、进程间通信、微引擎之间的 通信SRAM4 150 支持原子操作、队列和环、比特操作DRAM8 300 连接到XScale、微引擎和PCI总线控制器pLM:提供最小的访存时间pScratchpad和SRAM:支持原子操作,可用来同步并行处理器pSRAM:支持队列和环,适合于存放包头或包链表pDRAM:有对I/O设备的直接传输路径,容量大,带宽高,适合存放包。数据访问单位p每种物理存储器都定义了访问单位的长度(也称可寻址数据单位):n字(word):2字节的单位(16比
11、特)n长字(longword):4字节的单位(32比特)n四倍长字(Quadword):8字节的单位(64比特)p尽管微引擎和XScale可以为每个字节产生地址,但是底层机制总是一次读/写一个访问单位长度的数据。p程序员必须了解存储器的组织,仔细规划数据的布局以最小化访存时间。基于IXP2xxx的典型系统结构单片IXP2xxx的系统架构主要内容pIntel网络处理器概述pXScale核p微引擎p其它功能单元p编程模型p参考设计IXP2xxx在网络系统中的使用方法 两种可能的网络系统设计方法嵌入式处理器的作用p嵌入式RISC处理器可以被分配以下一些或全部的任务:n自举:包括片上存储器和处理器的初
12、始化n控制微引擎:如启动/停止包处理n内存分配n诊断和日志n交互程序调试(Interactive debugging)n用户接口和/或到通用处理器的接口n其它管理功能:如创建/修改微引擎使用的数据结构,维护本地转发表,描述配置细节(如每个网络接口的地址)等。n异常处理:不匹配任何分类规则的包,产生出错消息的包n高层协议处理:负责处理发给本地系统的包(如TCP)n应用程序(需要的话)XScale的主要特性p精简指令集计算(RISC):n包含较少的指令,指令被设计为能够很快执行,依靠寄存器获得高速度,保证每个时钟周期能够完成一条指令。p可配置大端/小端模式的的32位算术运算:n处理器引导时配置端模
13、式。p由协处理器提供的矢量浮点运算p字节可寻址内存:n接口硬件按照底层存储器的访问单元长度存取,当与处理器通信时只传输需要的字节。XScale使用的地址空间p虚拟存储支持:n所有的外部存储器及部分片上存储器、PCI总线、其它存储器映射的I/O设备均被映射到一个大小为232字节的线性地址空间,XScale硬件包括一个提供虚存的存储管理单元。n有一些存储器是XScale和微引擎共享的,如Scratchpad、SRAM、DRAM,可以用来在XScale和微引擎之间传递数据。n微引擎不使用XScale的地址空间,XScale必须处理所有的地址转换。p其它I/O:nXScale可以访问设备的CSR,可以
14、访问和控制PCI总线上的任何一个设备XScale的主要特性(续)p内部外设单元(只能由XScale使用):n作为控制台设备的串口n四个32位倒计数定时器:这意味着XScale必须处理所有涉及超时的协议处理任务。n四个通用I/O管脚:通过MSF访问,连接到另外的硬件或用于调试nSlowport接口:用于系统引导p支持内核化操作系统的硬件设施p系统控制协处理器15:n只能由XScale使用,用于配置和控制IXP2xxx上的几个硬件单元,如MMU、读/写缓冲器、时钟、高速缓存等。p性能监视单元:n监视指令cache不命中率、TLB不命中率、指令流水线中的停顿、软件引起的分支指令数目。主要内容pInt
15、el网络处理器概述pXScale核p微引擎p其它功能单元p编程模型p参考设计微引擎的用途p在IXP2xxx的处理器体系中,微引擎构成了最低层的可编程处理器。p微引擎被设计用来执行快路径上的处理,包括Ingress和Egress协议处理任务:n从物理层硬件接收包 n检查校验和n包头处理和分类n包缓存n查表和转发n包头修改n校验和计算n从物理层硬件发送包微引擎架构的特点p一种可编程微控制器(微引擎不是一个传统的CPU)p采用RISC设计p本地的控制存储器:微引擎的指令存储器p执行数据通路(Execution Datapath):微引擎的指令执行单元n一个算术逻辑单元ALUn一个16入口的CAM,每
16、个入口32比特n8个线程和上下文切换的硬件支持p数据通道寄存器n256个通用寄存器n512个传输寄存器n128个Next Neighbor寄存器n640个字的本地内存p一个CRC计算单元p可直接访问片上各种功能单元微序列控制器p微引擎不是一个传统的CPU,而是一个可编程微控制器。p微引擎不包含每一种操作的本地指令,运行在微引擎上的程序控制和使用芯片上的功能单元来完成指令。p例1:算术运算n传统CPU上的指令:add R2,R3n微引擎上的指令:alu dest,A_op,alu_op,B_op nalu_op包括12种运算符(+、+16、+8、+carry、B-A、B、B、AND、AND、AN
17、D、OR、XOR)p例2:内存引用n传统CPU上的指令:load R3,Xn微引擎上的指令:sram cmd,xfer,src_op1,src_op2,ref_cnt,opt_tok 微引擎指令集p微引擎指令集的操作码不到64个,分为以下四类:n通用指令:算术,循环,移位n分支和跳转指令:某一位置位/清零跳转,字节相等/不等跳转,根据事件状态跳转,nCAM指令:查找,清除入口,读标签/状态,写标签/状态 nI/O和线程交换指令:读/写DRAM,读/写SRAM,读/写队列描述符(SRAM),入队/出队,存储器环操作,访问Scratchpad,分离的存储器地址空间p微引擎硬件不将存储器或I/O设备
18、映射到一个线性地址空间,程序必须说明数据传输所涉及的存储器,因此每一类存储器和每一类I/O设备都有专门的指令。p例如:nsram cmd,xfer,src_op1,src_op2,ref_cnt,opt_tokndram cmd,xfer,src_op1,src_op2,ref_cnt,sig1,sig2nscratch cmd,xfer,src_op1,src_op2,ref_cnt,opt_tokp程序员必须为每个数据项选择将要放入的存储器。执行流水线pRISC架构:RISC处理器将一个指令的执行分成若干个阶段,通过同时执行几条指令的不同阶段来重叠多条指令的执行。p执行流水线:重叠不同阶段
19、执行的硬件。指令执行在各个级的划分执行流水线停顿p指令间的相互依赖可能导致执行流水线停顿,如:K:alu R2,R2,+,R1K+1:alu R3,R3,+,R2p条件分支也可能造成执行流水线停顿。通常情况下,微引擎硬件继续取下一条指令装入流水线,就好像没有分支一样。微引擎的执行数据通道p微引擎的指令执行单元也称执行数据通道(Execution Data Path),可执行移位、加/减、逻辑运算、乘法、字节对齐、比特操作、CAM查找等。p微引擎要执行的代码存放在本地的控制存储器中,源/目标操作数均为微引擎内部的存储单元(称数据通道寄存器)。p执行数据通道采用5级流水线结构:取指令、指令译码、取
20、操作数、指令运算、写运算结果。p控制存储器和数据通道寄存器均位于微引擎内部,取指令或取操作数都在单个时钟周期内完成,所以执行数据通道执行一条指令只需要一个时钟周期。微引擎的执行数据通道(续)p字节对齐:从连续的8个字节中取出任意偏移量(03)的连续4个字节。pCAM用于快速查找:n16个入口n每个入口包括32位标签(查找关键字)和4位状态n可以写CAM中的任意一行,可以分别写标签和状态n程序提供一个32比特的查找关键字,CAM硬件报告查找结果(015的值):cam_lookupdest_reg,src_reg,其中src_reg为查找关键字,结果放在dest_reg中。CRC单元pCRC单元不
21、是执行数据通道的一部分,它与执行数据通道并行工作。p支持16比特和32比特的CRC运算。p用于计算ATM或以太网等2层数据包的校验和。存储器访问延迟和多线程6?6?p存储器访问对系统性能影响很大,一次外部存储器访问相当于微引擎执行上百条指令。p隐藏存储器访问延迟的最好方法是使用多线程。硬件线程和上下文切换p每个微引擎支持8个执行线程p硬件为每个线程维护不同的状态信息(如一个程序计数器,一组信号事件)p硬件可以在线程之间迅速切换而不需要软件的支持,上下文切换为零开销或最多一个时钟周期的开销p概念上,微引擎线程就像传统操作系统中的线程一样操作。线程状态转移p未激活状态:不执行任何操作。p执行状态:
22、正在执行控制存储器中的程序,同一时刻最多只有一个上下文处于该状态。p就绪状态:具备了继续执行数据处理任务的所有外部条件,等待获得微引擎的控制权。p休眠状态:等待某个外部事件的到来。p上下文切换由软件控制,处于执行状态的线程执行一条线程交换指令后转入休眠状态,微引擎对当前处于就绪状态的所有上下文进行仲裁判优,将控制权交给优先级最高的上下文。事件信号pIXP2xxx使用称为事件信号的软件机制同步微引擎的内部操作和外部事件的完成。p可以在指令中指定事件信号,令从属单元在完成指令规定的操作后向微引擎发送该事件信号,如:nsram cmd,xfer,src_op1,src_op2,ref_cnt,opt
23、_tokndram cmd,xfer,src_op1,src_op2,ref_cnt,sig1,sig2p每个线程可以使用15个事件信号,这些信号将线程从休眠状态唤醒。p每个线程有两个本地寄存器,分别记录需要等待的事件信号和已经到来的事件信号。p在线程交换指令中,可以使用AND、OR等逻辑运算符指令线程需要等待的多个事件信号。指令存储器(控制存储器)pIXP2xxx使用单独的存储器系统(即不使用SRAM和DRAM)存储微引擎指令。p指令存储器的组织方式:n共享指令存储器:代码共享,节省空间,但有竞争。n专用指令存储器:无竞争,要求较多空间。pIXP2xxx提供折衷方案:n每个微引擎使用一个私有
24、的指令存储器,避免竞争。n每个指令存储器的容量限制为4096条指令,避免使用较多的空间。p控制存储器属于微引擎的内部存储资源,因而可单周期地读取其中的程序指令。p控制存储器中的程序从IXP2xxx的ROM中读入,在XScale控制下完成。数据通道寄存器p微引擎需要与许多硬件设备交互,许多交互是通过硬件寄存器发生的。p微引擎使用的数据通道寄存器包括:n通用寄存器n传输寄存器n邻居寄存器n本地存储器通用寄存器(GPR)p每个微引擎有256个通用寄存器,每个为32比特,一般用作指令的源和目的寄存器。p通用寄存器的两种使用方法:n8个线程共享整个寄存器组:需要处理互斥。n每个线程分配32个专用的寄存器
25、:不需要互斥。p寄存器寻址方式:n绝对寻址:唯一指定一个寄存器。n相对寻址:指定当前上下文的一个寄存器。p通用寄存器分为两个bank,绝对和相对寄存器地址都必须指明bank及bank中的一个寄存器。p指令的两个源操作数分别来自A Bank 和 B Bank。寄存器绝对编址传输寄存器p微引擎使用传输寄存器缓存与外部设备交换的数据,以协调微引擎与外部设备之间的速度差异。p每个微引擎有512个传输寄存器,按外部总线和传输方向分为四类:nD Xfer in reg及D Xfer out reg:用作微引擎与DRAM控制器的数据交换窗口。nS Xfer in reg及S Xfer out reg:用作微
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件 教学 课件 第四 部分 Intel 网络 处理器
限制150内