英伟达研究报告:从硬件GPU设计到软件CUDA+ Omniverse开发.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《英伟达研究报告:从硬件GPU设计到软件CUDA+ Omniverse开发.docx》由会员分享,可在线阅读,更多相关《英伟达研究报告:从硬件GPU设计到软件CUDA+ Omniverse开发.docx(57页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、英伟达研究报告:从硬件GPU设计到软件CUDA+ Omniverse开发1. 公司历史及业务简介1.1. GPU 简介多核心的并行结构 GPU 比少核心串行结构的 CPU 更适合处理图形图像(矩阵结 构)信息。CPU(Central Processing Unit,中央处理器)的功能主要是解释计算机指令以 及处理计算机软件中的数据,是计算机的核心大脑,可以处理计算机遇到的所有指令。 GPU(Graphics Processing Unit,图形处理器)是图形计算的重要元件, 主要用来处理 与与图形图像相关的数据,在高端 PC 中通常会有独立 GPU,以获得更好的视觉体验。 他们二者的区别主要是
2、,CPU 通常有 4 个、8 个或 16 个强力 ALU 核心(arithmetic logic unit,算术逻辑单元),适合做复杂的通用串行任务;而 GPU 可能有数千个简单 ALU 核 心,适合做简单特定的并行任务。我们通过以下的例子来说明 CPU 和 GPU 的差异:CPU 就像一个大学生,可以进行微积分等复杂计算,但若要在短时间内完成几万道加减算数 问题,也是很难办得到的;而 GPU 就像几百个小学生,虽然都不会微积分等复杂计算 的能力,但人数多,可以在很短时间内完成几万道加减算数问题。也有例子把 CPU 比 作跑车,GPU 比作大卡车,对于将少量货物从 A 运到 B 来说,是作为跑
3、车的 CPU 更 快;但如果货物非常多,那么作为跑车的 CPU 需要往返的次数远远多于作为货车的 GPU, 作为货车的 GPU 虽然完成一次任务较慢,但是可以携带更多的货物,其效率会高于 CPU。 总而言之,对于复杂的单个计算任务来说, CPU 的执行效率更高,通用性更强;而对 于图形图像这种矩阵式多像素点的简单计算,更适合用 GPU 来处理,但通用性较弱。GPU 按接入方式分为独立 GPU 和集成 GPU;按照应用端划分为移动 GPU、服务 器 GPU 和 PC GPU。GPU 是图形处理单元,在 PC(个人电脑)早期,图形数据较为简 单,主要都是由 CPU 来进行图形处理。随着图形显示规模
4、的增加,CPU 已经很难分出 更多精力来处理图形信息,而且 CPU 的架构决定了其处理图形信息的效率是偏低的, 因此逐渐发展出了专门处理图形信息的 GPU。英伟达专做 GPU,开发了独立于 CPU 的 GPU;英特尔作为 CPU 的霸主,开发了寄生于 CPU 芯片上的 GPU 单元,被称为集成 GPU。通常来讲,独立 GPU 的性能都要优于集成 GPU,在对图形实时处理要求不高的日常办公领域,使用普通的集成 GPU 即可;在对图形实时处理能力要求很高的游戏及 设计领域,一般都需要使用独立 GPU。随着移动设备的发展,GPU 也从 PC 端扩展到了 移动端,高通骁龙以及苹果的 A 系列芯片都开发
5、了相应的 GPU 芯片模块。随着 AI 以及云计算的兴起,具有并行计算架构的 GPU 具有更高的效率,这也使 得 GPU 被应用到 AI 及云计算等数据处理之中。这是一个全新的领域,拥有巨大的成长 空间。值得一提的是,市场上还存在着比 GPU 专用程度更高的芯片,包括 FPGA(Fieldprogrammable gate array,可编程逻辑阵列)和针对某一类 AI 计算的 ASIC(Applicationspecific integrated circuit,特定场景芯片),包括谷歌推出的 TPU(张量计算单元)和特 斯拉推出的 NPU(神经网络计算单元),虽然在某些特定计算上效率更高,
6、但目前这些 芯片的使用场景比较单一,市场规模还较小。1.2. 英伟达发展历史英伟达(NVIDIA)是一家以 GPU(Graphics Process Unit,图形处理单元)芯片 设计起家的人工智能计算公司。公司创立于 1993 年,总部位于美国加利福尼亚州圣克 拉拉市。美籍华人 Jensen Huang(黄仁勋)是创始人兼 CEO。1999 年,NVIDIA 定义了 GPU,GPU 的出现被业界视为现代计算机图形技术的开端。英伟达于 1999 年 1 月在纳 斯达克挂牌上市,在 2000 年它收购了曾经在 90 年代称霸图形显示市场的 3dfx 公司的 知识产权,逐渐占据图形显示市场的优势地
7、位。到 2021 年为止,在消费 PC 领域,能够 量产 GPU 的公司只有英伟达、AMD 和英特尔,其中英特尔主要是以集成 GPU 为主,AMD 既有集成 GPU 也有独立 GPU,英伟达主要是独立 GPU。在独立 GPU 领域,英伟 达 2021Q1 占据 81%的市场份额,处于绝对的领先地位。公司 20 多年来始终引领 GPU 行业的发展,将 GPU 的主要应用场景从游戏以及画图等 图像显示扩展到了以 AI、云计算等大数据相关的并行计算领域。英伟达保持着两年升级一 次 GPU 架构的步伐,不断提高 GPU 的性能。在英伟达 GTC 2020 主题演讲中,NVIDIA 宣 布推出安培(Am
8、pere)架构,这是 NVIDIA 发布的第八代 GPU 架构,包含超过 540 亿个晶体 管,性能相较于前代提升了高达 20 倍,也是 NVIDIA 8 代 GPU 历史上最大的一次性能飞跃。 安培架构的最新一代 RTX30 系列游戏 GPU 和 AI 计算 GPU A100 作为各自领域的代表产品, 继续推动着相关领域的发展。1.3. 英伟达业务简介按照 FY2022(对应公历 2021.12022.1)的年报分法,英伟达有消费者(游戏)业务 Gaming、数据中心业务 Data Center、汽车业务 Auto、专业解决方案业务 Professional Visualization 以及
9、 OEM 和其他业务 OEM&Others,英伟达主要为这些领域提供 GPU 芯片 及相应的软件工具链。从消费者行为来看,在 PC 端购买独立 GPU 的主要目的是为了体验 高性能游戏,因此英伟达将 PC 端 GPU 的销售业务称之为游戏业务。游戏业务一直是英伟 达的主营业务,在各板块中营收排名领先;随着 AI 和云计算的不断兴起,英伟达逐渐将 GPU 打造为 AI 和云计算提供算力的底层芯片,这部分与 AI 和云计算相关的业务被称为数据中 心业务。英伟达数据中心业务营收从 2020 年以来迎来迅速增长,我们预计在 2025 年左右将 成为营收规模最大的板块;汽车智能化对算力需求的提高,英伟达
10、也将 GPU 芯片装入车辆 中为其提供高算力。随着汽车智能化的不断提速,我们预计英伟达汽车业务营收也会快速增 长,成为公司的一个重要板块。2. 传统业务:消费者(游戏)相关业务保持稳定增长2.1. 英伟达 GPU 五年来持续占据 PC 独显六成以上市场由于疫情导致的居家时间延长,公司 GPU 量价齐升,FY2022Q2 游戏相关营收同比大 增 85%,单季收入首次超过 30 亿美元。英伟达的 GPU 在 PC 端是以独立显卡的形式存在, 通过独立显卡可以实现高帧率高分辨率 3A 游戏、专业绘图等应用。独显领域是一个壁垒极 高的市场,经过 20 多年的充分竞争后,目前仅有英伟达、AMD 可以推出
11、相关产品,而英伟 达占据绝对的领先优势。2021Q1 英伟达在 PC 独显 市场占据 81%的市场份额(2020 全年为 77%)。以每两年更新一次架构、每半年性能翻倍的速度,持续引领消费级 GPU 市场。2020年 9 月 2 日,英伟达发布了新一代显卡 RTX30 系列,与前一代 RTX20 系列相比,采用 了全新的安培架构,在核心数、显存、频率等性能都有了大幅度提升。RTX30 的高算力 加上英伟达的 DLSS(Deep Learning Super Sampling,深度学习超采样)技术,大大提高 实际场景的运算力(在算力不变的情况下提高帧率),使得英伟达显卡深受游戏玩家的 喜爱。在中
12、国,RTX30 系列中的 RTX3080 由发售价的 5499 元人民币被一路炒高至 18000 元左右,足见其火爆程度(虽然部分原因是受到数字货币“挖矿”抢货的影响)。英伟达 以半年性能提升一倍的“黄氏定律”牢牢占据 GPU 的领导者地位。截止到 2021 年 3 月, 英伟达的各系列 GPU 在性能排行的前 20 名中占据了包括第一名在内的 14 个席位,可 以看出英伟达在 GPU 领域的霸主地位。2.2. 借助 Bluefield 能力,发力云游戏 Geforce Now 业务云游戏是以云计算为基础的游戏方式,在云游戏的运行模式下,所有游戏都在服务 器端运行,并将渲染完毕后的游戏画面压缩
13、后通过网络传送给用户。在客户端,用户的 游戏设备不需要任何高端处理器和显卡,只需要基本的视频解压能力就可以,因此其市 场潜力很大,据 Newzoo 2021 年 3 月发布的报告预测,2023 年全球云游戏市场收入可 能达到 51 亿美元。但目前主要受限于网络延迟以及服务器延迟等方面,市场尚处于初 期阶段。除英伟达外,目前还有微软、谷歌、索尼、腾讯以及网易等也在拓展云游戏业 务。英伟达云游戏平台 Geforce Now 采用 Bluefield 架构,解决云游戏服务器的延迟问 题。对于云游戏来说,延迟是最亟待解决的问题。而控制延迟的关键,不仅需要良好的 通信网络能力,更为重要的是对云端服务器的
14、数据处理特别是图形相关的处理速度。英 伟达利用其在数据中心的经验,优化了服务器架构,推出了英伟达云游戏平台 Geforce Now,采用 RTX 服务器来实现更低延迟(整体延迟小于 100ms),使云游戏体验得到了 优化。由于目前云游戏仍受限于网络延迟,整个市场尚不成熟,但随着基础设施的不断 发展,此项业务将为英伟达带来未来全新增长空间。3. 成长业务:数据中心成为云和 AI 领域基础设施,营收迅速扩大英伟达成为云计算和 AI 这个未来“金矿”行业的芯片及服务器等“铲子”工具 GPU 的主要供应商,2020 年以来以 AI 和云计算为主要服务对象的数据中心业务营收 规模已经和游戏业务相当。英伟
15、达创始人、CEO 黄仁勋于 2021 年 6 月份在接受第一财 经的采访中表示,“数据中心规模计算的时代已经来临。我们想成为一家数据中心企业, 数据中心正在占据我们业务越来越重要的地位。”他说道,“而各种新兴技术的汇聚,比 如云计算、人工智能、加速计算、工业 5G 等,将会成为解决计算时代重要问题的最后 几块拼图。”英伟达在数据中心上布局很早,利用在 GPU 中积累的芯片设计经验,推广 到了数据中心业务。从英伟达近一年的财报中也可以看出,英伟达在数据中心的业务收 入已经和游戏业务比肩,且有超越游戏业务的潜力。从 2021 年 6 月举办的国际超级计 算大会 ISC 上公布的超级计算榜单可以看出
16、,TOP10 中有 8 台使用英伟达的技术, TOP500 中有 342 台使用英伟达的技术,可见英伟达在数据中心业务的优势。英伟达在 数据中心领域的成功离不开硬件(A100、DGX A100、InfiniBand)以及相关软件(CUDA) 等的支持,英伟达在云与数据中心领域形成了一整套完整的生态系统,成为云和 AI 领 域基础算力及算法工具链等基础工具的供应商,在 AI 的布局中拥有不可替代的位置。3.1. 采用并行计算的 GPU 天生适合 AI 领域的运算AI 算法多为并行结构。AI 领域中用于图像识别的深度学习、用于决策和推理的机 器学习以及超级计算都需要大规模的并行计算,更适合采用 G
17、PU 架构。我们以深度学 习中的神经网络算法来举例说明 GPU 架构的优势。神经网络是一种模拟人脑的以期能够实现人工智能的机器学习技术,适合采用并行 计算的 GPU 架构。一个经典的神经网络分为输入层、隐藏层和输出层,通常隐藏层的 数量越多,神经网络模拟的结果越精确,但相应的计算量会呈指数的增长。最初人们使 用 CPU 来模拟多层神经网络需要很长时间;随后科学家认为,输入层到输出层的计算 关系是矩阵形式,与 GPU 对图像像素处理的架构类似,都是并行计算为主,因此产生 了使用 GPU 来进行神经网络计算的想法。2010 年时,Google 负责人工智能的吴恩达为 了训练神经网络来识别猫,最初使
18、用了 16000 台计算机的 CPU 完成了训练,但为了搭 建庞大的 CPU 耗费巨大;随后他与英伟达公司探讨了这件事情,英伟达仅采用 12 个 GPU 就完成了训练,使人们看到了 GPU 对神经网络的优势。随着神经网络的复杂程度 逐渐提高,用 GPU 来训练神经网络成为了更优的选择。在输入通道上滑动的底部有一个 阴影的卷积滤波器,还有一个绿色的输出通道。卷积算法流程如下:蓝色(底部) 输 入通道 阴影(覆盖在蓝色上) 3x3 的卷积过滤器 绿色(顶部)输出通道。对 于蓝色输入通道上的每个位置,3x3 过滤器进行计算,将蓝色输入通道的阴影部分映射 到绿色输出通道的相应阴影部分。每个计算都是独立
19、于其他计算的,这意味着任何计算 都不依赖于任何其他计算的结果,所有这些独立的计算都可以在 GPU 上并行进行,虽 然单个卷积计算要比 CPU 慢,但是对于整个任务来说,CPU 要逐个依次完成,速度要 大大慢于 GPU。因此,卷积运算可以通过使用并行编程方法和 GPU 来加速。3.2. 英伟达全面布局数据中心硬件市场CPU+GPU+DPU 形成产品矩阵,全面发力数据中心市场。自从 2021 年 GTC 大会 上英伟达宣布推出第一款 CPU Grace 以来,英伟达已经涉足了与 AI 和云计算相关的数 据中心市场的大部分领域。利用 GPU 在 AI 领域的先天优势,英伟达借此切入数据中心 市场。针
20、对芯片内部带宽以及系统级互联等诸多问题,英伟达推出了 Bluefield DPU 和 Grace CPU,提升了整体硬件性能。在 2021 年 GTC 大会上,英伟达公布了 GPU、CPU 和 DPU 的发展规划,每年都会有新产品问世;英伟达在数据中心硬件市场的不断升级, 推动了数据中心以及 AI 整个产业的发展步伐。3.2.1. 基于安培架构的 A100 系列,为数据中心打造高性能算力基础作为安培架构的代表,A100 GPU 在在深度学习、数据分析、能效方面都获得了前 所未有的优化,被广泛应用于自然语言识别、大数据分析、科学计算领域。在 GTC2020 大会上,英伟达推出了安培架构的首款超算
21、 GPUA100。A100 引入了有着里程碑式 意义的 Tensor Cores 双精度计算技术,这使得 A100 的算力比前一代 V100 提高了 175%。 NVIDIA A100 Tensor Core GPU 针对 AI、数据分析和 HPC(high performance computing, 高性能计算)等应用上,实现了更强的加速,针对极其严峻的计算挑战上有了更大作为。 作为 A100 GPU 系列中的最新力作,在架构特性上有如下特点:采用第三代 Tensor Core 核心。通过全新 TF32,将上一代 Volta 架构的 AI 吞吐 量提高多达 20 倍。通过 FP64,将 H
22、PC 性能提升了 2.5 倍。通过 INT8,将 AI 推理性能提高多达 20 倍,并且支持 BF16 数据格式。采用更大、更快的 HBM2e GPU 内存。从而使内存容量增加一倍,在业内率先实现 2TB/s 以上的内存带宽。采用 MIG(Multi-Instance GPU,多实例 GPU)技术,将单个独立实例的内存增 加一倍,可最多提供七个 MIG,每个实例具备 10GB 内存。采用结构化稀疏技术,将推理稀疏模型的速度提高两倍。第三代 NVLink 和 NVSwitch,相较于上一代互连技术,可使 GPU 之间的带宽增 加至原来的两倍,将数据密集型工作负载的 GPU 数据传输速度提高至 6
23、00 GB/s。A100 被广泛应用于大数据分析、天气预报、量子化学以及材料模拟等领域,推动 了相关领域的发展。基于以上算力、内存以及数据交互上的优化,A100 在自然语言识 别、大数据分析、科学计算领域提供了更强的硬件实力。对于如 RNNT 等自动语言识 别模型的 AI 推理,单个 A100 MIG 实例可处理更大规模的批量数据,将生产中的推理 吞吐量提高 1.25 倍。在 TB 级零售大数据分析基准上,A100 将其性能提高了 2 倍,使 其成为可对最大规模数据集进行快速分析的理想平台。随着数据的动态更新,企业可以 实时做出关键决策。对于科学应用,A100 可为天气预报和量子化学等领域提供
24、巨大的 加速。材料模拟软件 Quantum Espresso 采用单节点 A100 实现了近 2 倍的吞吐量提升。除了高性能的 A100 系列外,英伟达还在在功耗、性能上做了优化与调整,推出了 A10、A30 等产品,旨在面向中小型客户。英伟达的一系列产品满足了不同用户的需求。3.2.2. DGX A100 数据中心及 DGX SuperPOD 解决方案,使英伟达保持超算领域优势一体式 AI 数据中心 DGX Station A100,使 AI 超算中心的搭建更为方便。以 A100 GPU 为核心的数据中心 DGX Station A100,AI 性能可以达到 2.5 Petaflops,通过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 英伟达研究报告:从硬件GPU设计到软件CUDA+ Omniverse开发 英伟 研究 报告 硬件 GPU 设计 软件 CUDA Omniverse 开发
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内