(11)--CPU处理器未来技术演进方向.doc
《(11)--CPU处理器未来技术演进方向.doc》由会员分享,可在线阅读,更多相关《(11)--CPU处理器未来技术演进方向.doc(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、CPU处理器未来技术演进方向选自“2022年国产服务器CPU研究框架”。后摩尔定律时代,单靠制程工艺的提升带来的性能受益已经十分有限,Dennard Scaling规律约束,芯片功耗急剧上升,晶体管成本不降反升;单核的性能已经趋近极限,多核架构的性能提升亦在放缓。1)从通用到专用:面向不同的场景特点定制芯片,XPU、FPGA、DSA、ASIC应运而生。2)从底层到顶层:软件、算法、硬件架构。架构的优化能够极大程度提升处理器性能,例如AMDZen3将分离的两块16MB L3 Cache合并成一块32MB L3 Cache,再叠加改进的分支预测、更宽的浮点unit等,便使其单核心性能较Zen2提升
2、19%。3)异构与集成:苹果M1 Ultra芯片的推出带来启迪,利用逐步成熟的3D封装、片间互联等技术,使多芯片有效集成,似乎是延续摩尔定律的最佳实现路径。主流芯片厂商已开始全面布局:Intel已拥有CPU、FPGA、IPU产品线,正加大投入GPU产品线,推出最新的Falcon Shores架构,打磨异构封装技术;NVDIA则接连发布多芯片模组(MCM,Multi-Chip Module)Grace系列产品,预计即将投入量产;AMD则于近日完成对塞灵思的收购,预计未来走向CPU+FPGA的异构整合。此外,英特尔、AMD、Arm、高通、台积电、三星、日月光、Google云、Meta、微软等十大行
3、业主要参与者联合成立了Chiplet标准联盟,正式推出通用Chiplet的高速互联标准“Universal Chiplet InterconnectExpress”(通用小芯片互连,简称“UCIe”)。在UCIe的框架下,互联接口标准得到统一。各类不同工艺、不同功能的Chiplet芯片,有望通过2D、2.5D、3D等各种封装方式整合在一起,多种形态的处理引擎共同组成超大规模的复杂芯片系统,具有高带宽、低延迟、经济节能的优点。以多核提升性能功耗比:多核处理器把多个处理器核集成到同一个芯片之上,每个单元的计算性能密度得以大幅提升。同时,原有的外围部件可以被多个CPU系统共享,可带来更高的通信带宽和
4、更短的通信时延,多核处理器在并行性方面具有天然的优势,通过动态调节电压/频率、负载优化分布等,可有效降低功耗,提升性能。以多线程提升总体性能:通过复制处理器上的结构状态,让同一个处理器上的多个线程同步执行并共享处理器的执行资源,可以极小的硬件代价获得相当比例的总体性能和吞吐量提高。微架构的改进众多算数单元、逻辑单元、寄存器在三态总线和单项总线,以及各个控制线的连接下共同组成CPU微架构。不同的微架构设计,对CPU性能和效能的提升发挥着直观重要的作用。微架构的升级,一般涉及到指令集拓展、硬件虚拟化、大内存、乱序执行等等一系列复杂的工作,还涉及到编译器、函数库等软件层次的修改,牵一发而动全身。摩尔
5、定律放缓摩尔定律于上世纪60年代提出,直至2011年前,计算机元器件的小型化是提升处理性能的主要因素。2011年后,摩尔定律开始放缓,制硅工艺的改进将不再提供显著的性能提升。“Tick-Tock”模式失效自2007年开始,英特尔开始实施“Tick-Tock”发展模式,以两年为周期,在奇数年(Tick)推出新制成工艺,在偶数年(Tock)推出新架构的微处理器。在14nm转10nm接连推迟后,英特尔自2016年起宣布停止 “Tick-Tock”处理器升级周期,改为处理器升级的三步战略:制程工艺(Process)-架构更新(Architecture)-优化(Optimization)。后摩尔时代,顶
6、层优化或更为重要新的底层优化路径被提出,例如3D堆叠、量子计算、光子学、超导电路、石墨烯芯片等,技术目前仍处于起步阶段,但后续有望突破现有想象空间。根据MIT在Science发布的文章,后摩尔定律时代,算力提升将更大程度上来源于计算堆栈的顶层,即软件、算法和硬件架构。通用指令集为了覆盖更多应用,往往需要支持上千条指令,导致流水线前端设计(取指、译 码、分支预测等变得十分复杂),对性能功耗会产生负面影响。领域专用指令集可大大减少指令数量,并且能够增大操作粒度,融合访存优化,实现数量级提高性能功耗比。新兴场景出现,CPU从通用向专用发展1972年,戈登贝尔(Gordon Bell)提出,每隔10年
7、,会出现新一类计算机(新编程平台、 ,新网络连接、新用户接口,新使用方式且更廉价),形成新的产业。1987 年, 原日立公司总工程师牧村次夫(Tsugio Makimoto) 提出,半导体产品未来可能将沿着“标准化”与“定制化”交替发展的路线前进,大约每十年波动一次。经历了桌面PC、互联网时代和移动互联网时代后,“万物智联”已成为新的风向标,AIoT正掀起世界信息产业革命第三次浪潮。而AIoT最明显的特征是需求碎片化,现有的通用处理器设计方法难以有效应对定制化需求。通用与性能,难以兼得CPU是最通用的处理器引擎,指令最为基础,具有最好的灵活性。Coprocessor,是基于CPU的扩展指令集的
8、运行引擎,如ARM的NEON、Intel的AVX、AMX扩展指令集和相应的协处理器。GPU,本质上是很多小CPU核的并行,因此NP、Graphcore的IPU等都和GPU处于同一层次的处理器类型。FPGA,从架构上来说,可以用来实现定制的ASIC引擎,但因为硬件可编程的能力,可以切换到其他ASIC引 擎,具有一定的弹性可编程能力。DSA,是接近于ASIC的设计,但具有一定程度上的可编程。覆盖的领域和场景比ASIC要大,但依然存在太多的领域需要特定的DSA去覆盖。ASIC,是完全不可编程的定制处理引擎,理论上最复杂的“指令”以及最高的性能效率。因为覆盖的场景非常小,因此需要数量众多的ASIC处理
9、引擎,才能覆盖各类场景。后摩尔定律时代,展望CPU未来发展之路不可逆转的SoC集成:由于集成电路集成度不断提高,将完整计算机所有不同的功能块一次直接集成于一颗芯片上的 SoC 片上就成为整个半导体行业发展的一个趋势,可以显著降低系统成本和功耗,提高系统可靠性。M1 并不是传统意义上的 CPU,而是一颗SoC。CPU采用了8核心,包括4个高性能核心和4个高能效核心。每个高性能核心都提供出色的单线程任务处理性能,并在允许的范围内将能耗降至最低。异构能力的大幅提升:M1还采用了统一内存架构(UMA),CPU、GPU、神经引擎、缓存、DRAM内存全部通过Fabric高速总线连接在一起,得益于此,SoC
10、中的所有模块都可以访问相同的数据,而无需在多个内存池之间复制数据,带宽更高、延迟更低,大大提高了处理器的性能和电源效率。此外,最新一代的M1 Ultra本质上是两个M1 MAX的有效组合,通过UltraFusion架构,提供高达128G统一内存,相较M1的GPU性能提高8倍。苹果M1处理器完成了一次从多芯片走向一体化的过程,这也是苹果打造完整PC生态链的必经之路,让我们看见了CPU未来发展的更多可能性。后摩尔时代,异构与集成海外芯片巨头积极布局异构计算:英特尔现已布局CPU、FPGA、IPU、GPU产品线,并接连公布Alder Lake、Falcon Shores等新架构;英伟达接连发布多芯片
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 CPU 处理器 未来 技术 演进 方向
限制150内