2022年CPU行业发展现状分析.docx
2022年CPU行业发展现状分析1 .国产CPU孰能率先崛起国产CPU的“后发劣势”明显,在“十五”期间启动发展国 产CPU的泰山计划,2006年正式启动的“核高基专项”让国 产CPU快速发展。在国家支持下,孵化出鳏鹏、飞腾、龙芯、 兆芯、海光、申威等批优质国产CPU公司。我们选取其中 较为成熟的海光CPU为例,介绍CPU设计过程中的核心和关 键,结合之前的回顾,以及对现有国产CPU的理解,回答以 下三个问题:国产CPU有哪些路线?国产CPU短板在何处? 国产CPU每条路应该怎么走?1.1 CPU是如何设计的?基本构成:一般来讲,CPU根据不同的产品规格定义, 需要在块基板上封装1至4颗裸片。裸片的内部结构非常 复杂,主要功能模块包括处理器核心(Core)、片上网络、各类 接口控制器等;除硬件电路外,裸片中还集成了复杂的程序 代码(“微码系统”)。图10 : CPU基本构成以海光CPU为例,各部分功能如下:1)处理器核心。 每颗“裸片具有8个处理器核心(含高速缓存),不同规格的海 光CPU包含1至4颗裸片,进而具有数量不等的处理器核心。 处理器核心是CPU的关键的控制、计算部件,决定了 CPU 最主要的技术特征。2)片上网络。片上网络是CPU内部数 据传输的通道,包括控制网络和数据网络。片上网络的带宽、 延时对多核处理器的性能影响较大。3)接口控制器。不同的 接口控制器用于连接CPU所搭载、控制的不同外部设备。例 如:内存控制器用于访问DDRSDRAM内存,PCIe控制器用于 连接PCIe设备,USB控制器用于访问USB设备,SATA控 制器用于读写SATA设备等。4)微码系统。微码系统由微码 程序和对应的执行硬件组成。通过微码程序的运行,将复杂 的X86指令翻译成相对简单、规整的微码指令。微码系统直 接影响处理器的安全,包括变更安全算法(国密密钥)、利用微码系统修复些安全漏洞、扩展安全指令集等。5) HMI/xHMI多片互联控制器。HMI/xHMI具有高带宽、低延时 特点,可以完成裸片间和处理器间的高速互联,从而实现 MCM和Chiplet的片上封装,以及双路服务器架构设计。图n : cpu设计流程频酶来管库以海光CPU为例,需要经过以下设计步骤:1)架构设 计。处理器系统架构设计包括处理器功能逻辑设计和微结构设 计,对处理器功能、性能和生态至关重要。在架构设计环节 中,功能逻辑设计是指基于对产品预期和产品定义,规划出处 理器产品的模块架构、功能逻辑,以及指令集、数据结构、 接口协议等;微结构设计是规划出集成电路裸片的具体实现 方式,包括流水线设计、逻辑单元设计、高速缓存结构、片上 网络、接控制器设计等。2)电路设计。电路设计是将处理 器芯片各个功能模块用硬件语言设计出来,形成可供晶圆代 工厂使用的电路版图。处理器核心的微结构精巧,流水线级数 多,主频高,电路代码设计复杂。3)微码系统设计。微码系 统设计包括微码软件编程、微码执行硬件研发。微码软件包 括微码程序、微码编译器和微码补丁。微码系统设计贯穿处理 器设计全过程,通过微码补丁形式还可以修复部分硬件设计 缺陷。4)安全模块设计。安全模块设计包括处理器安全架构、 专用硬件、软件、密钥管理等,贯穿处理器设计全过程,在 处理器量产后仍需要为可能出现的安全漏洞提供及时、有效的 修复方案。5)仿真模拟。仿真模拟是指利用专用软件、高性 能仿真模拟器对处理器核心和电路设计进行模拟验证。海光 高端处理器电路规模大,必须使用仿真加速专用硬件来提高仿 真模拟的效率。6)产品设计。产品设计根据终端应用需求, 规划公司具体产品配置及内部构成。产品设计过程还需要考 虑基板开发、后端设计、工程样机系统设计、产品测试、测试 板卡和工具软件开发等工作。7)流片工艺优化。晶圆代工厂基于公司提供的电路版图 进步设计出掩膜,然后经过复杂的雕刻过程生产出裸片。 公司流片工艺团队需要和公司芯片设计、晶圆代工厂工程团 队形成深度的技术互动,不断升级芯片雕刻工艺,验证流片 艺流程,提升晶圆制造良率。流片艺优化环节可分为流片 工艺升级、晶圆加工流程验证、晶圆级测试等环节。8)基板 及封测艺开发。公司将处理器封测工作委托给外部封测代 厂完成,但是基板开发、封装工艺流程验证、测试程序开发 等仍需要公司完成。9)硅后验证。处理器完成封装以后,需 要进行大量的测试工作,统称为硅后验证。硅后验证工作量 较大,需要进行工程样机系统设计、产品测试、测试板卡和 具软件开发等大量支持产品市场应用的验证测试工作。1.2 国产CPU各条路怎么样?目前国产CPU的服务器主要应用于电信运营商、金融、 互联网等领域,例如,电信运营商云服务资源池系统支撑云 业务应用,银行和证券公司查询、交易系统,互联网的搜索、 计算服务、存储等应用;国产CPU的工作站主要应用场景为 工业设计和应用、图形图像处理,例如VR、AR图形渲染场 景,以及智能工厂数字李生应用等。当前,国产CPU公司根 据使用的架构走出三条不同的道路:1)X86架构:兆芯、海光。此种模式属于IP内核授权 的模式,目前是仅内核层级的授权,优点是技术门槛低、性 能起点高、没有生态壁垒,缺点是自主可控的程度低,且购 买授权的成本较高。以这条路线发展,不存在生态壁垒,可以 借鉴本文1.3中AMD崛起的路线和策略,在技术上通过不断 迭代逐步缩小差距。但是这种购买授权的方式,没有从根本 上解决自主可控的需求,在中美关系不明朗的背景下,确实面 临授权中断的风险,市场上一些激进的声音甚至认为使用 X86的不能称为“国产芯片”。2) ARM架构:飞腾、鳏鹏。此种模式为指令集架构授 权,自主化程度相对较高,ARM主要有三种授权等级:其中 指令集层级授权等级最高,企业可以对ARM指令集进行改造 以实现自行设计处理器,此前海思、飞腾已经获得ARMV8 永久授权,今年4月Arm确认Armv9架构不受约束,华为海思 可获授权。以这条路线发展,存在较高的技术门槛,ARM架 构目前在桌面和服务器端的生态远不如X86,但是指令集架构 的永久授权,一定程度上满足了自主可控的需求,但是依然 存在未来更新版本被断供的风险。图12 :服务器端X86架构销售量占比绝对领先3) MIPS等自主架构:龙芯、申威。此种模式是自主研 制的指令集,高度自主可控,但是技术门槛高,生态构建极 其困难。以这条路线发展,最大的困境是生态上的建设,如 何在落后的情况下,建立起可靠可持续的生态,是重要课题。 CPU的下游应用市场主要分为:政务及重点行业市场、企业 级市场、消费级市场。其中,政务及重点行业市场对安全性 以及自主可控要求最高,同时对生态的要求相对最低,是与 国产CPU前期发展水平相匹配的,因此这部分市场是国产 CPU成长的根基所在。未来,随着产品性能不断优化,生态 逐步趋于完善,企业级市场将为国产CPU提供巨大市场空间。基于目前国产CPU替代市场的主要特征,我们认为,使 用ARM架构的国产CPU,将在短期内受益于重点领域信创 市场的快速增长;使用自主架构的国产CPU,生态建立需要 一定的时间,中长期看,有望实现党政及特殊领域的大面积甚 至全面替代;使用X86架构的产品,性能和生态显著较好, 短期内可利用成本优势打开一部分企业市场,但长期看受外 部影响较大,存在较大的不确定性。1.3 国产CPU到底弱在哪?想要探讨国产CPU未来的走势,就必然要面对个十分 现实的问题:国产CPU到底弱在哪里?我们认为,国产CPU 与全球领先水平的差距主要概括为:性能差距、生态差距。 性能上,国产CPU存在明显劣势。表3 :国产PC芯片性能差距较大!厂商Mr CPU指令集授权方式内核主频艺合作方资方谣3A5OOOLoongArch自研4核2.3-2.5GHZ12nm中科院申威SW42MSW-64自研4核2.0GHz28nm江南计算所獭D2000ARMv8指令集构授权8核2.0-2.6GHZ14nm国防科大海光Hygon3250X86IP核授权8核2.8GHz14nmAMD/中科陽光,囲KX-U6880AX86IP醴权8核3.0GHz16nm,VIA/上海国资委Intel酷有 i9-12900KSX86自研16核5.5GHzlOnm釆为I库1、单核性能不行还是核数不够多?目前国产CPU的关键问题还是在于单核的性能较弱。Intel还在做4核产品的时候,国内核高基计划就已经实现了 8核产品的研制,但是整体性能完全劣后于Intel同期产品。2、艺不行还是设计能力不行?目前国产CPU的主要差距在于设计能力上。以Intel和 完全自主的龙芯对比,Intel在130nm艺就做到了主频3.8G, 而龙芯的3A1000在同等工艺和核数前提下,主频只有1G, 如果将Intel产品降到1G,性能是龙芯的5倍。纵向对比看, 同样以龙芯为例,其第二代产品3A2000在没有提升主频的前 提下,通过设计能力的改进,性能提升了 2.5倍;3A3000提 升至28nm制程后,主频提升至1.5G,性能提升1.6倍;3A4000在原工艺基础上,通过设计提升性能2倍;3A5000提 升至14nm制程,性能提升1.6倍;目前在研的3A6000,据龙 芯介绍,其性能已经达到了 Intel在14nm的性能水平。从纵 向发展历程来看,相同工艺条件下,设计能力提升带来的产品 性能提升十分显著,在fabless模式下,设计能力的差距显得 尤为重要。3、产品性能完全决定用户体验?产品性能是影响用户体验的重要因素,但是系统优化同 样重要。例如,在2010年iPad就风靡全球,但当时的CPU 性能只有!ntel的1/2到1/3左右,但是用户体验和评价都很 好,就是得益于苹果的系统优化。而国产CPU由于积累不够, 即使在产品性能已经能满足某些重点领域信创的要求的情况 下,用户体验依然比Intel差些。性能差距只是外在表现,我们认为造成这种差距的内因, 主要有以下几点:1、微架构设计能力存在显著差距。所谓微架构,即在指 令集架构体系之内的种结构设计,是CPU内部晶体管的一 种排列方式,属于指令集架构体系的框架之内,例如Intel的Icelacke. Broadwel! Intel和AMD不断更新微架构,实现性 能的不断迭代提升,国产CPU的微架构在乱序执行、高速缓 存、多核互联等技术上,由于起步较晩,都与先进水平有一 定差距。表4 : Intel与AMD近年微架构迭代Intel CPU 年代代号与艺(nm )AMD CPU 年代 !代号与艺(nm )2023Sapphire Rapid72022Genoa52021Icelake102019Rome72017Skylake142017Naples14122015Broadwell142014Kaveri282013Haswell222012Piledriver322012Ivy Bridge222011Bullduzer322011Sandy Bridge322011Llano322008-2010Nehalem322007-2009K10452006-2008Conroe452003-2007K865651999-2004 K7桑釆皆)库2、定制化水平差导致精细度不足。Intel针对特定领域和 客户,会采用高度定制化的设计,例如人工设计版图、采用 锁存器Latch替换触发器flipflop、全定制设计关键单元等方 案。定制化的实现需要多年的技术积累和人力投入,目前国产 CPU很难实现,基本还是采用传统的EDA工具生成版图和 做版图优化的方式,精细度远低于定制化产品。3、使用通用EDA工具缺乏协同。Intel等欧美大厂许多 都有自研的EDA工具或拓展,以及成熟的flow,设计过程中 出现的问题可以与EDA部门直接协同解决,显著提升了设计 效率和设计能力,不断拓展边界,而国产CPU厂商目前普遍 采用的是外购的EDA工具,缺少与设计工具的协同,且国产 EDA工具竞争力较弱,这环节也难以实现自主可控。4、与Foundry配合不够密切。在生产模式上,Intel是典 型的IDM厂商,AMD虽然是Fabless厂商,但与之前分拆出 去的Global Foundries保持密切联系,两者都能实现设计与制 造环节的密切配合与协同。国产CPU由于起步晩、规模小以 及国内芯片制造能力弱,都是Fabless模式,难以与Foundry 实现密切配合,限制了产品技术发展的速度。落后的软硬件生态系统是制约国产CPU发展的另一瓶颈。 X86是目前桌面和服务器领域的绝对主流架构,所以选用 X86架构的受影响最小,可以直接使用Windows系统及软件, ARM架构的生态在全球范围内逐渐完善,而使用自主架构的 面临巨大挑战。生态系统很重要的一点是能够吸引全球程序 员共同参与的各类应用软件开发的盈利模式、知识产权分享 机制等制度安排。以龙芯自主研制的LoongArch架构为例, 需要耗费大量时间和人开发编译器,芯片流片成功后,还 需要移植Linux内核、Android系统等,后期系统的软件也涵 盖了驱动层、中间层到应用层,还需要不断针对这种架构进行 迭代优化。前期即使大量投入,如果软件上适配和推广不足,销量受限,软件开发者便会激励不足,用户更少,引起恶性 循环,商业模式便会出现问题。1.4 每条路线关键是什么?X86:专注技术,师夷长技,形成自身迭代能力对于使用X86架构的公司来说,基于良好的技术基础以 及继承X86完整的生态,可以通过模仿先进产品及技术路线, 率先实现非关键领域的国产替代,并在此基础上尽快吸收关 键技术,形成自身的迭代能力。以海光信息为例,AMD仅提 供技术授权以及针对技术授权的部分服务支持,不会提供后 续更新技术,相关技术面临迭代风险。海光按照协议和AMD 同时在该技术授权的基础上进行产品研发,在2016年推出的 第一代典型CPU系海光185,与AMD基于该技术的第一代 产品AMD EPYC 7551有少许差距,但差距较小,不存在代际 差异;19年受到美国商务部影响后,海光推出海光二号,并 为适应国内用户使用需求,增加了国密算法等安全增值功能, 证明了公司已经完成了对AMD授权技术的消化吸收。海光三 号成功流片、海光四号完成了电路设计和性能模拟,证明了 公司全面掌握了高端处理器设计技术,具备了产品迭代研发 能力。表5 :海光芯片部分IP核已能实现国产替代IP核名称IP工具提供方所属功能模块获取情况后续替代情况E12G PHY公司6SERDES外采DDR4/3 PHY公司6DDR外采可以通过武汉芯动等国内USB3/USB2 PHY公司6USB外采IP提供商逬行替代USB控制器公司6USB外采SATA控制器AMDSATAAMD授权PCIE控制器AMDPCIEAMD授权自研替代DDR控制器AMDDDRAMD授权豆元来管库ARM:短期内抓住行业机会,发展已获授权指令集202I年苹果发布了 M!芯片,与以往选用X86架构不同, M!芯片采用基于Arm-ISA的内部处理器和CPU微体系结构, 是苹果首款针对Mac设计的SoC,根据苹果的的宣传材料, 在10W的功耗限制下,Ml芯片可提供传统X86笔记本处理 器2倍以上的CPU性能。苹果Ml 一经上市受到广泛关注, 其性能也被用户认可。但苹果Ml的成功,不足够说明ARM 在桌面和服务器端已经可以超越X86。苹果Ml性能的高水平 的表现主要是基于苹果微架构上的优势以及工艺上的领先。 微架构方面,采用了“疯狂堆料”的方式,并采用了台积电的 5nm艺。这部分的优势显著,并且在能耗方面显著优于X86, 至于类似视频剪辑等功能,可以直接交给解码、编码的硬件 单元完成,使用体验更佳,但是这种方式的问题在于,成本 过高,苹果可以用很高的整机利润去摊平这部分处理器成本, 但是国产CPU显然难以复制。自主指令集:产品性能+生态融合,协调步伐除本身的性能要求需要符合用户基本需求外,生态融合 也是需要同步跟进的关键点,否则只能面向些软件需求极 低的下游,市场空间局限性大。破局之计以龙芯为例,自研 指令集LoongArch充分考虑了兼容需求,可以通过“指令系统 创新+二进制翻译”的方式,运行其他平台上的二进制应用程 序,从而达到生态融合的目的。为支持芯片销售及应用,龙 芯还开发了基础版操作系统及浏览器、Java虚拟机、基础库 等重要基础软件,并以两种方式免费提供给客户。2 .国产CPU量价拐点已现2.1 价:逐渐市场化CPU定价策略已经较为成熟:阶梯价格+项目特价。考 虑到芯片行业的特点并参照国际同行业领先芯片企业的定价 模式,CPU行业主要采用阶梯价格策略,接受针对项目的单 独特价申请。阶梯价格主要适用于服务器厂商客户的日常采购 (根据采购数量区间阶梯变动),特价一般用于战略级竞争 项目(最主要)、产品适配导入项目、产品促销等。以海光 芯片为例,CPU价格已经逐渐市场化。2018年,公司研发的首款海光一号产品刚刚面世,初期 产量较小,研发适配工作量大,公司主要比照同行业领先厂商 竞品价目表的价格进行定价,定价策略较为保守,产品平均 单价较高。2019年下半年开始,公司形成了阶梯价格与特价 相结合的定价机制,并稳定执行至今,产品销售均价较2018 年整体下调。2020年以后,全球芯片行业供应链相对紧张, 原材料价格呈现上涨趋势,公司对新代际产品较上一代产品 定价有所上涨。表6 :海光芯片价格逐渐市场化(元)!项目2021 年 1-6 月2020年度2019年度2018年度 7000系列8952.077494.226913.3211507.247100系列5192.055206.516913.3211507.247200系列11926.8015687.72-5000系列6702.627721.514189.835570.525100系列468.432830.704189.835570.525200系列7872.529363.17-3000系列1231.40963.771250.45-3100系列-833.671250.45-3200系列1231.401402.33-热先弟皆库2.2 量:弹性极大CPU的下游应用市场主要分为:政务及重点行业市场、 企业级市场、消费级市场。其中,政务及重点行业市场对安 全性以及自主可控要求最高,同时对生态的要求相对最低, 是与国产CPU前期发展水平相匹配的,因此这部分市场是国 产CPU成长的根基所在。测算CPU市场规模,实际应该分 为:测算整体市场规模(可参考历史静态数据)、可国产替 代市场规模。从整机形态,可分为PC、服务器两个方向。整 体静态市场,2021年,根据IDC数据,全球PC出货近3.5亿 台,全球服务器出货超过1300万台。考虑国产CPU未来较 长一段时间主要聚焦国内市场,国内出货量更有代表性。整体市场,PC CPU需求超过5000万颗/年,服务器CPU 需求约800万颗/年。根据行业惯例,一台PC对应颗CPU, 2021年中国PC出货量超过5000万台,则整体PC CPU需求 超过5000万颗。根据IDC数据,服务器市场超过85%的服务 器为2路服务器,即一台服务器对应2颗CPU,则中国区整 体服务器CPU需求约为800万颗。假设PC CPU价格为!000 元/颗,服务器CPU为8000元/颗,则PC CPU市场规模超过 500亿元,服务器CPU静态市场规模约640亿元。图17 : 202I年中国PC出货超过5000万台(百万台)中国PC出货量一左元来智库yoy-右中短期看,确定性最高的是,可国产化市场规模。国产PC CPU年化市场规模约为200亿元。考虑PC采购不同机构 性质,分为核心替代(公务员群体)、重点替代(事业编制 群体)、逐步替代(国有企业群体)、可选替代(一般企业 工作人员),假设四类替代群体,稳定期后,国产PC采购比 例分别为80%、60%、40%、10%。根据国际统计局数据,可 得四类群体整体人员数量。假设单科PC CPU价格为!000元, 则PC CPU整体规模为1020亿元。假设PC5年完成折旧,则 国产PC CPU年化市场规模约为200亿元。国产服务器CPU静态市场规模约为139亿元。根据IDC 服务器数据统计,可知党政、通信、金融等重点行业2021年 服务器出货量,假设党政、通信、金融、其他行业国产服务 器采购比例分别为80%/40%/30%/10%,参照服务器CPU市场 价格,假设服务器CPU价格为8000元/颗,保守假设国产服 务器全部为2路服务器(一台服务器配置2颗CPU),则国 产服务器CPU年化市场规模约为139亿元。国产服务器CPU动态市场规模超过200亿元。值得注意 的是,拉长10年维度看,PC市场整体出货量相对稳定,服务 器市场出货量随数据量、云计算催化,长期依然是增量市场。 考虑以上测算仅为静态数据,若考虑动态空间,假设服务器市 场未来5年维持复合10%增速,则2026年,国产服务器 CPU市场规模将超过200亿元。