运营商智能网卡需求场景白皮书-23页.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《运营商智能网卡需求场景白皮书-23页.pdf》由会员分享,可在线阅读,更多相关《运营商智能网卡需求场景白皮书-23页.pdf(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1运营商智能网卡需求场景白皮书ODCC-2022-05002分布式存储技术与产业分布式存储技术与产业分析报告分析报告编号 ODCC-2022-05002运营商智能网卡需求场景白皮书开放数据中心标准推进委员会开放数据中心标准推进委员会2022-04 发布发布每日免费获取报告1、每日微信群内分享7+最新重磅报告;2、每日分享当日华尔街日报、金融时报;3、每周分享经济学人4、行研报告均为公开版,权利归原作者所有,起点财经仅分发做内部学习。扫一扫二维码关注公号回复:研究报告加入“起点财经”微信群。I运营商智能网卡需求场景白皮书ODCC-2022-05002版权版权声声明明ODCC(开放数据中心委员会)
2、发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。II运营商智能网卡需求场景白皮书ODCC-2022-05002编制说明编制说明本报告由中国移动通信研究牵头撰写,在撰写过程中得到了多家单位的大力支持,在此特别感谢以下参编单位和参编人员:参编单位(排名不分先后):中国移动通信研究院、中国电信研究院、锐捷网络股份有限公司、中兴通讯股份有限公
3、司、华为技术有限公司、弘协网络科技(北京)有限责任公司参编人员(排名不分先后):王瑞雪,秦凤伟、吴林泽、吴航、阎松明、赵宝鑫、郭力军、刘红巧、曾宏宽项目经理:王瑞雪 III运营商智能网卡需求场景白皮书ODCC-2022-05002前言前言数据中心作为数字经济领域基础设施,成为 5G、人工智能、大数据等新兴信息技术应用的核心载体。算力时代,数据中心从聚集业务弹性伸缩灵活部署向聚焦超大规模、多样性的数据处理转变,提升单位时间单位能耗下的运算能力及质量成为核心诉求。业务快速发展驱动数据中心网络向高带宽和新型网络协议发展,数据增长驱动网卡端口速率从 10G快速向 25G和 100G+演进,由于摩尔定律
4、放缓,CPU算力增长无法匹配 IO 数据带宽增长的需求。同时边缘计算及虚拟化技术的发展不断驱动运营商核心设备云化部署,给算力资源处理效率带来巨大挑战。由于CPU不适合处理大量并行固定模式的计算,导致算力资源消耗与网络及业务性能提升难成比例,将这些服务卸载在专用硬件的需求迫在眉睫。网卡作为连通算力资源和网络的核心部件,成为最理想的卸载位置。智能网卡是一种专注于加速网络、存储、安全等业务的专用处理器,除具备标准网卡的数据转发能力外,还引入网络加速、硬件卸载以及可编程能力,支持将不适合主机 CPU处理的高性能数据处理卸载到硬件芯片执行,提升业务处理性能,充分释放算力资源。由于时间仓促,水平所限,错误
5、和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系 。IV运营商智能网卡需求场景白皮书ODCC-2022-05002目录目录版权声明.I编制说明.II前言.III一、智能网卡产业现状分析.1(一)智能网卡类型.1(二)智能网卡产业及应用情况.2二、运营商引入智能网卡场景分析.3(一)OVS 卸载.3(二)弹性裸金属.5(三)存储卸载.6(四)虚拟网元业务加速.71 vDPI.82 vFW.83 vLB.9(五)高性能无损网络.11(六)端到端可视化运维能力卸载.12三、总结与展望.13(一)标准化现状及推进思路.13(二)国产化现状及推进思路.14(三)业务需求差异性与网卡通用性的
6、取舍博弈.14四、参考文献.15V运营商智能网卡需求场景白皮书ODCC-2022-05002五、缩略词.16一、一、智能网卡产业现状分析智能网卡产业现状分析智能网卡经过多年探索与实践,应用场景及产业发展前景已逐渐清晰,但智能网卡的技术架构仍然处在发展完善之中,包括上游的芯片厂家推出不同芯片解决方案,中游的智能网卡厂家针对不同的应用场景开发了不同的智能网卡产品,提出了在不同场景下的解决方案。(一)(一)智能网卡类型智能网卡类型智能网卡一方面受计算平台芯片产业发展的影响,另一方面也受到智能网卡市场需求推动,目前衍生了不同的技术架构。其中主要有 SoC、FPGA、NP、ASIC 四种基本类型。SoC
7、:SoC 是广泛采用多核 CPU 片上系统,具有较高的性价比和非常强的编程灵活性,但存在功耗高、转发性能低的劣势。SoC 提供了性能和可操控性的平衡,可用于各种场景的功能卸载。FPGA:FPGA 被广泛用于各种网络、通信设备中,具有很好的可编程特性,功能扩展灵活,但存在成本略高、高性能 FPGA 开发周期长的劣势。FPGA 兼具性能和灵活性,适用于智能网卡需求尚未完全明确、功能没有完全固化的阶段,功耗低于 SoC 卡,通过 FPGA 迭代开发来应对智能网卡应用场景需求的变化。NP 具有功耗较低、开发效率较高等特点,处理性能基本接近 ASIC。由于采用硬件技术解决了多核并发带来的资源互斥问题,同
8、等功能的网络特性用NP 微码开发要简单很多,能效比更是远高于通用 CPU。但 NP 的技术门槛高,生态上不成熟,主要用于数通产品,适合转发加速。ASIC 具有功耗低、性能强、效率高的优势,但其定制开发成本高、生产周期长,由于逻辑处理被 ASIC 硬件固化,因此功能扩展和灵活性方面有较大限制,主要功能固定。ASIC 卡适合大规模使用,很难应对复杂的应用场景。基于以上四种基本架构可对智能网卡进行简单分类,但实际上单一芯片架构通常难以满足复杂多样的场景需求。SoC 通过 CPU 做业务功能加速,虽然具备编程灵活、功能强大的优点,但性能和功耗方面存在瓶颈。FPGA、NP、ASIC性能方面比较强,但编程
9、灵活性方面存在短板。因此,除了 SoC 片上系统 CPU加速外,智能网卡主要以 SoC+FPGA、SoC+NP、SoC+ASIC 增强形态出现,同时也因基础架构的不同而适用于不同场景。(二)(二)智能网卡产业及应用情况智能网卡产业及应用情况智能网卡首先由国外互联网云商进行先期探索,并验证了智能网卡能够有效提升云数据中心效能。国内阿里巴巴、腾讯等互联网企业也积极研发智能网卡产品,降低其硬件投入和运营能耗,提升其云数据中心产品及服务的竞争力。Amazon 的 AWS 在 2013 研发了 Nitro 产品,将数据中心开销(为虚机提供远程资源,加密解密,故障跟踪,安全策略等服务程序)全部放到专用加速
10、器上执行。随后基于 Nitro 项目,Amazon 于 2013 年推出第一代智能网卡 AWSNitro C3,主要解决了服务器虚拟化层 Hypervisor 的卸载分担问题,把Hypervisor 层削薄,把一部分能力转移到智能网上。微软在 2015 年将第一代 Azure SmartNIC 部署在计算服务器中。微软选择了 FPGA 方案,能够不消耗主机 CPU 核资源,满足 SRIOV 硬件的延迟、吞吐量和利用率要求,并支持 SDN 功能,具备高可维护性,即可适应新功能的可编程性,又能利用定制硬件的性能和效率。阿里巴巴集团在 2016 年启动了 X-Dragon 神龙项目,明确提出虚拟机性
11、能损失应降为 0。X-Dragon 芯片可以让部署神龙芯片的设备完全具有虚拟机的特性,包括虚拟机的接口,实现裸金属和虚拟机同样的扩展和管理功能,和现有的云环境可以通过私有接口或 Open API 无缝集成。腾讯在 2020 年推出第一代水杉智能网卡,实现了云主机的 vSwitch 功能下沉到智能网卡,物理机网络功能也下沉到智能网卡,在提升了服务器内网络性能的同时,也使云主机和物理机具有相同的硬件架构。二、二、运营商引入智能网卡场景分析运营商引入智能网卡场景分析从运营商角度来说,云化 NFV 的发展从最初的大区集中式的 10G 网络的数据中心需求变成分布式数据中心,集中大区数据中心带宽由 10G
12、 已经发展到了25G,并朝着 100G 发展。而边缘数据中心则承载着更高带宽、更低时延的视频、工业互联网等业务,对网络带宽、存储性能都有着极其严苛的需求。传统的DPDK/SPDK 在消耗了足够的 CPU 资源的基础上已经无法满足更大带宽(25G 以上)以及更高存储性能(50MPPS)的需求。此外,受限于裸金属架构及虚拟化平台能力,导致裸金属服务器无法像虚拟机一样弹性部署,资源调度不灵活。同时,一些新的技术,如无损以太网、RDMA 等技术应运而生,以数据为中心的处理器-智能网卡(Data Processing Unit)架构也由此诞生。(一)(一)OVSOVS 卸载卸载网络流量激增及业务需求演进
13、推动数据中心网络向高带宽和新型传输体系发展。云服务商为租户提供虚拟机租赁业务,并依赖虚拟交换机(vSwitch)收发数据包。中国移动云数据中心普遍采用 NFV/SDN 架构,虚拟交换机 vSwitch采用开源组件 OVS(Open vSwitch)进行增强开发;同时在每台计算节点上为OVS 预留固定的物理核资源,实现计算节点 vSwitch 转发。由于 CPU 不适合处理并行固定模式计算,导致 vSwitch 转发性能提升与算力资源消耗难成比例,无法满足高速率网卡限速转发要求。且后摩尔定律时代,算力增长速度与数据中心网络传输速率增长速度不匹配,且差距持续增大,将网络功能卸载到专用硬件芯片的需求
14、愈发急迫。将 vSwitch 卸载到智能网卡,实现网络功能硬件卸载和加速,释放主机算力资源用于其它业务处理。根据网卡芯片能力及场景成熟度,存在转发面卸载及全卸载两种模式。转发面卸载模式:仅将非常消耗 CPU 资源的转发面卸载到网卡,控制面仍运行在主机中,转发面卸载模式具有如下特征:转发功能卸载到网卡上,从而降低 OVS 计算服务器上的资源占用,释放转发面算力资源,计算节点可部署更多的虚拟机。通过将现有 OVS+DPDK 的快速流表查找转发卸载到智能网卡,流量优先匹配智能网卡的流表,完成快速查表转发,并完成 VxLAN 封装解封装,CAR 限速等功能;通过上述方式,即可以减少转发时 CPU 资源
15、的消耗,也能提升转发性能及表项规格。全卸载模式:将控制面和转发面一起卸载到网卡上,实现对主机侧算力资源零消耗,全卸载模式具有如下特征:控制面和转发面同时卸载到网卡上,全面释放转发面和控制面算力资源,计算节点可部署更多的虚拟机。由于控制面业务逻辑复杂,对网卡有额外算力要求,依赖板载 CPU 支持。图1 vSwitch全卸载模式架构此外,当前 SDN vSwitch 实现的软转发功能面临如下挑战:通过物理 CPU 绑核实现的 vSwitch 软转发通过软件实现转发,可支撑的带宽有限。控制面网元所需转发带宽在 10GE15GE 之间,可通过 OVS 绑核预留资源实现。但随着服务器计算密度变大,所需
16、OVS 转发带宽变大导致 OVS预留资源随之增加也无法满足数据面高转发要求,故需要使用 OVS 卸载,即通过硬件网卡实现 OVS 转发。SDN vSwitch 实现转发技术需要在 vSwitch 内创建流表五元组(源目的 IP地址、源目的端口号、协议类型),以实现消息包的快速转发,但是在现网中,有些网元如 VoLTE、SBC、5G 消息等需要连接上千用户,这些用户产生的大规模流表达到 2000 万以上,无法通过 OVS 绑核实现,导致现网同时建设增强二层(部署 VoLTE SBC、5G 消息等大流表网元)、SDN 2 种类型的资源池,引入 OVS 卸载后可解决流表问题,统一资源池组网到 SDN
17、,实现更高的资源共享度及利用率、减少规划建设复杂度。(二)(二)弹性裸金属弹性裸金属运营商网络为满足不同业务部署需求,除提供虚机资源外,也提供裸金属服务器,通过将虚拟化软件、操作系统和应用直接安装在硬件上,让租户独享主机资源,具有强大的安全隔离特性,性能可媲美传统物理主机。但受限于裸金属架构及虚拟化平台能力,导致裸金属服务器无法像虚拟机一样弹性部署,开通管理成本高、交付运维效率低,资源调度不灵活;同时,由于主机侧缺少虚拟化软件,租户无法使用云盘功能,降低了存储网络灵活性和安全性。为了克服裸金属服务器的上述缺点,裸金属硬件加速很快走进了我们的视野,使得裸金属变为云化裸金属。云化裸金属服务基于现有
18、虚拟化云平台的新型计算类服务,兼容虚拟机的弹性和物理机的性能及功能特征,与传统的虚拟化技术相比,云化裸金属服务不仅保留了普通云服务器的弹性体验,而且保留了物理机的性能与特性,同时拥有物理机级别的资源隔离优势,特别适合上云部署传统非虚拟化场景的应用,此外支持嵌套虚拟化技术。云化裸金属服务通过将传统虚拟化平台中的管理、网络和存储等模块卸载到智能网卡上,为用户提供与虚拟机一样体验的弹性服务,实现裸机与虚拟机统一的发放与管理流程,实现虚拟化与裸金属统一部署,具有以下特征:裸金属服务器全自动化发放,满足分钟级弹性伸缩能力。通过控制台自助申请,无需人工介入,即可完成自动化镜像安装、网络配置、云盘挂载等功能
19、,简化客户配置;完全兼容虚拟化平台云盘系统,支持云盘启动能力,免操作系统安装,满足租户按需进行云硬盘的挂载和卸载,满足弹性存储的要求,减少本地盘成本,也使得存储网络无需暴露给用户操作系统,减少网络攻击等安全隐患,同时兼容虚拟机镜像系统;兼容虚拟机 VPC 网络,实现裸金属服务器和虚拟机网络互通,支持自定义网络实现裸金属服务器之间互通,实现灵活组网。图2 弹性裸金属卸载架构(三)(三)存储卸载存储卸载近年来越来越多视频、数据库等业务上云,对云存储的性能需求越来越高,原有采用内核态 ISCSI 或存储厂商自研的平台协议,其性能受制于内核本身性能模块,无法满业务需求。因此 SPDK 应运而生,但 S
20、PDK 本质是采用 CPU 换性能的策略,随着存储 IO 性能的不断提高,消耗的 CPU 资源也越来越多,导致COST 服务器本身的资源利用率不断下降。因此,将存储网络协议栈或存储客户端卸载到智能网卡上,可以减少主机侧 CPU 的开销,提高主机侧 CPU 资源利用率,同时在裸金属场景下也可以避免存储网络协议栈在客户 OS 暴露而引发的存储网络安全风险。在后端存储平台上一般会支持不同的存储介质,从 SATA 的 HDD,SATA 的 SSD 和 NVMe SSD,从而构建出面向不同应用的存储服务。智能网卡中的存储卸载主要包括两部分内容:1ISCSI 或 RBD 存储客户端卸载智能网卡上拥有 AR
21、M 或者 x86 的 CPU,因此可以在智能网卡上实现 ISCSI或 RBD 客户端,配合 SPDK 用户态加速框架提升存储转发性能带宽。2NVMe-oF 的卸载随着存储介质的发展和高性能存储需求的提升,存储接口正在由传统的ISCSI 向 NVMe 演进。采用 NVMe-oF(NVMe over Fabric)协议可以把 NVMe 协议在系统中提供的高性能、低延迟和低协议负担的优势进一步发挥到基于高速网络的 NVMe 共享存储系统互联结构中,NVMe-oF 可以使用不同的高速的网络传输协议来实现 NVMe 功能,即可以支持多种类的 Fabric 网络,包括 FC(FibreChannel)、I
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运营商 智能 网卡 需求 场景 白皮书 23
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内