深度学习芯片(共17页).docx

上传人：飞****2

文档编号：13536261

上传时间：2022-04-30

格式：DOCX

页数：17

大小：1.54MB

( 4.5 )

《深度学习芯片(共17页).docx》由会员分享，可在线阅读，更多相关《深度学习芯片(共17页).docx（17页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上AI芯片分类：功能： 1.Training(训练) 2. Inference(推理)两个环节；应用场景: 1. Cloud/DataCenter(云端)2. Device/Embedded(设备端)技术架构发展类型：1、通用类芯片，代表如GPU、FPGA；2、基于FPGA的半定制化芯片，代表如深鉴科技DPU、百度XPU等；3、全定制化ASIC芯片，代表如谷歌TPU、寒武纪 Cambricon-1A等；4、类脑计算芯片，代表如IBM TrueNorth、westwell、高通Zeroth等。类型比对一、 GPU 优点：具有数以千计的计算核心可实现 10-100倍应用吞吐

2、量支持对深度学习至关重要的并行计算能力比传统处理器更加快速加快了训练过程目前最普遍采用的深度学习运算单元之一。局限性：1. 应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节，GPU在深度学习算法训练上非常高效，但在应用时一次性只能对于一张输入图像进行处理，并行度的优势不能完全发挥2. 硬件结构固定不具备可编程性。深度学习算法还未完全稳定，若深度学习算法发生大的变化，GPU无法灵活的配置硬件结构。能耗虽然 GPU要好于 CPU，但其能耗仍旧很大二、 FPGAFPGA，即现场可编辑门阵列，是一种新型的可编程逻辑器件，由于其具有静态可重复编程和动态在系统重构的特性，

3、使得硬件的功能可以像软件一样通过编程来修改。FPGA作为人工智能深度学习方面的计算工具，主要原因就在于其本身特性：可编程专用性，高性能，低功耗。北京大学与加州大学的一个关于FPGA 加速深度学习算法的合作研究。展示了 FPGA 与 CPU 在执行深度学习算法时的耗时对比。在运行一次迭代时，使用 CPU耗时 375 毫秒，而使用 FPGA 只耗时 21 毫秒，取得了 18 倍左右的加速比。根据瑞士苏黎世联邦理工学院（ETHZurich）研究发现，基于FPGA的应用加速比CPU/GPU方案，单位功耗性能可提升25倍，而时延则缩短了50到75倍，与此同时还能实现出色的I/O集成。而微软的研究也表明，

4、FPGA的单位功耗性能是 GPU 的 10倍以上，由多个 FPGA 组成的集群能达到 GPU 的图像处理能力并保持低功耗的特点。根据英特尔预计，到 2020年，将有 1/3 的云数据中心节点采用 FPGA 技术。三、不可估量的 ASICASIC（Application Specific Integrated Circuits，专用集成电路），是指应特定用户要求或特定电子系统的需要而设计、制造的集成电路。ASIC用于专门的任务，比如去除噪声的电路，播放视频的电路，但是 ASIC明显的短板是不可更改任务。但与通用集成电路相比，具有以下几个方面的优越性：体积更小、功耗更低、可靠性提高、性能提高、保

5、密性增强、成本降低。从算力上来说，ASIC产品的计算能力是 GK210 的 2.5 倍。功耗上，ASIC 功耗做到了 GK210（NVIDIA）的 1/15。当然ASIC是能效最高的，但目前，都在早期阶段，算法变化各异。想搞一款通用的ASIC适配多种场景，还是有很多路需要走的。但从比特币挖矿机经历的从CPU、GPU、FPGA到最后 ASIC 的四个阶段来推论，ASIC将是人工智能发展的重要趋势之一。另外，在通信领域，FPGA曾经也是风靡一时，但是随着 ASIC 的不断发展和蚕食，FPGA的份额和市场空间已经岌岌可危。四、 NPU：为深度学习而生的专业芯片从技术角度看，深度学习实际上是一类多层

6、大规模人工神经网络。它模仿生物神经网络而构建，由若干人工神经元结点互联而成。神经元之间通过突触两两连接，突触记录了神经元间联系的权值强弱。每个神经元可抽象为一个激励函数，该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。为了表达特定的知识，使用者通常需要（通过某些特定的算法）调整人工神经网络中突触的取值、网络的拓扑结构等。该过程称为“学习”。在学习之后，人工神经网络可通过习得的知识来解决特定的问题。由于深度学习的基本操作是神经元和突触的处理，而传统的处理器指令集（包括x86和ARM等）是为了进行通用计算发展起来的，其基本操作为算术操作（加减乘除）和逻辑操作（与或非），往往需要数

7、百甚至上千条指令才能完成一个神经元的处理，深度学习的处理效率不高。因此谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络。因此，传统的处理器（包括x86和ARM芯片等）用于深度学习的处理效率不高，这时就必须另辟蹊径突破经典的冯诺伊曼结构。以中国的寒武纪为例，DianNaoYu指令直接面对大规模神经元和突触的处理，一条指令即可完成一组神经元的处理，并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。另外，神经网络中存储和处理是一体化的，都是通过突触权重来体现。而冯诺伊曼结构中，存储和处理是分离的，分别由存储器和运算器来实现，二者之间存在巨大的差异。当用现有

8、的基于冯诺伊曼结构的经典计算机（如X86处理器和英伟达GPU）来跑神经网络应用时，就不可避免地受到存储和处理分离式结构的制约，因而影响效率。这也就是专门针对人工智能的专业芯片能够对传统芯片有一定先天优势的原因之一。用数字来说话，CPU、GPU与NPU相比，会有百倍以上的性能或能耗比差距以寒武纪团队过去和Inria联合发表的DianNao论文为例DianNao为单核处理器，主频为0.98GHz，峰值性能达每秒4520亿次神经网络基本运算，65nm工艺下功耗为0.485W，面积3.02平方毫米mm。在若干代表性神经网络上的实验结果表明DianNao的平均性能超过主流CPU核的100倍，但是面积和功

9、耗仅为1/10，效能提升可达三个数量级；DianNao的平均性能与主流GPU相当，但面积和功耗仅为主流GPU百分之一量级。AI芯片产业生态：全球AI芯公司：国内AI芯片公司已成熟、权威的芯片厂商（一）英伟达JetsonTX1芯片方案 (GPU)2015年相继为Parrot及其竞争对手大疆提供芯片，针对无人机市场，英伟达开发了Jetson TX1芯片方案，可以胜任各类图像图形识别和高级人工智能任务，使用它的无人机可以在空中停留更长时间。（二）英特尔处理器英特尔把无人机作为其处理器产品的一大新兴应用加以推广，而且更愿意看到其这两年主打的RealSense实感技术即3D摄像头的无人机应用有所突破

10、。采用英特尔实感技术的Yuneec Typhoon H，具有防撞功能，具有方便起飞、配备4K摄像头和360度万向接头，以及遥控器内置显示屏等特点，内置了高达6个英特尔的“Real Sense”3D摄像头，采用了四核的英特尔凌动（Atom）处理器的PCI-express定制卡，来处理距离远近与传感器的实时信息，以及如何避免近距离的障碍物。在无人机视觉方面。英特尔最大的优势在于其RealSense技术采用的红外激光，相较起高通的双目视觉技术，规避了计算机视觉识别物体的大量计算，并有效提高了精度。（三）三星Artik5芯片三星Artik芯片有三个型号，其中应用于无人机的主要是Artik5，Arti

11、k5尺寸为29x25mm，搭载1GHz ARM双核处理器（Mali 400 MP2 GPU），搭配的是512MB LPDDR3内存以及4GB eMMc闪存。支持Wi-Fi、低功耗蓝牙，支持802.11 b/g/n。此外，该芯片还能对解码H.264等格式720p 30fps的视频进行解码，并提供了TrustZone。（四）高通骁龙Flight平台骁龙Flight是一块高度优化的58x40mm开发板，专门针对消费级无人机和机器人应用而设计。骁龙Flight包含一颗骁龙801SoC（由四颗主频为2.26GHz的核心组成），支持GPS、4K视频拍摄、强劲的连接性以及先进的无人机软件和开发工具，双通道

12、Wi-Fi和蓝牙模块，支持实时飞行控制系统，拥有全球导航卫星系统（GNSS）接收器，支持4K视频处理，支持快速充电技术。腾讯的Ying、零零无限的小型无人机产品 hover camera 及零度智控的自拍无人机dobby的样机都用的是snapdragon flight。无人机设计平台 Snapdragon Flight 无人机芯片具有和智能手机相同的处理器对比目前主要的无人机芯片解决方案，高通snapdragon flight 的CPU 尺寸最小、主频最高。目前已应用于国内厂商零零无限的小型无人机产品hover camera 及零度智控的自拍无人机dobby 的样机。（五） Ambarell

13、a（安霸公司）位于加利福尼亚的视频压缩和图像处理芯片厂商，在今年的CES上发布了三款全新的芯片，计划将新一代影像带到汽车、无人机、VR以及运动相机中去。安霸公司高性能的压缩处理器芯片获得了全球厂商的高度认可。很多世界知名的公司都采用了该公司的方案，包括GoPro运动摄影机、大疆无人机、Google最新二四镜头VR相机。（六）大疆Manifold (GPU) 价格4699Manifold 妙算专为飞行平台设计的嵌入式机载电脑, 拥有PC独立显卡级别的绘图能力，支持DirectX 11、OpenGL 4.4，可让机器人实时进行复杂的图像处理。Manifold还支持NVIDIA CUDA，用于

14、开发最前沿的 GPU 加速应用，可将程序性能提升数倍。Manifold能广泛应用于计算机视觉、深度学习等人工智能领域，让你的设备具备环境感知、物体辨识和实时反应能力。便捷的开发环境强大的移动计算机 Manifold采用NVIDIA Tegra K1处理器，内含4+1 四核ARM - Cortex A15核心和192个GPU CUDA核心，最高主频达2.2GHz。NVIDIA 4-Plus-1 (4-Plus-1) 四核 ARM Cortex-A15低功耗 NVIDIA Kepler Geforce 图像处理器 GPU核心不仅能实现强大的图像处理能力，而且能高效地处理并行任务，浮点运算能力达32

15、6GFLOPS。Manifold能让你发挥创意，设计更智能的程序，把机器人应用在更广阔的领域。Manifold 妙算为开发者设计，它搭载了Ubuntu操作系统*，可便捷安装运行Linux软件，支持CUDA、OpenCV及ROS等，非常适合用在专业应用的研究和开发中。Manifold全面支持DJI Onboard SDK，可轻松获取飞行数据，并进行控制和数据分析，把你的创意和DJI飞行平台优秀的性能轻松结合。低功耗Manifold 妙算采用低功耗设计方案，可为你的机器人提供长久续航。其峰值功耗约15W，仅为普通笔记本电脑的四分之一，配备的TegraK1 CPU共有4个A15核心，可从容应对复杂的

16、计算任务， 1个附属核心负责简单任务的处理。其中，4个A15核心中的每一个核心均可根据工作负荷的繁重程度，独立而自动地启用和关闭，从而降低整体功耗。耗电量MAX 15W新型芯片厂商（七）寒武纪（国产 ASIC）寒武纪是全球第一个成功流片并拥有成熟产品的AI芯片公司，拥有终端AI处理器IP和云端高性能AI芯片两条产品线。2016年发布的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器，面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备，在运行主流智能算法时性能功耗比全面超越传统处理器。智能处理器IP（今年五月）MLU100采用寒武纪最新的MLUv

17、01架构和TSMC 16nm的先进工艺，可工作在平衡模式（1GHz主频）和高性能模式（1.3GHz主频）下，平衡模式下的等效理论峰值速度达每秒128万亿次定点运算，高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算，但典型板级功耗仅为80瓦，峰值功耗不超过110瓦。与寒武纪系列终端处理器一样，MLU100云端芯片仍然延续了寒武纪产品一贯出色的通用性，可支持各类深度学习和经典机器学习算法，充分满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下（如大数据量、多任务、多模态、低延时、高通量）的云端智能处理需求。（八）华为海思于2016年7月推出了华为海思无人机平台，即联手深圳

18、本土初创公司宙心科技，在华为海思芯片的基础上推出了一系列无人机解决方案。SOC基于SOC芯片组17年的成功研发经验，海思半导体能够提供最先进的SOC架构设计和实施。我们的SOC芯片组可以以最低的成本内存带宽和功耗实现最高性能。特别是对于智能相机产品，我们可以提供高性能和可销售的异构计算多核处理器架构，具有先进的CPU，视觉DSP，专用深度学习引擎和嵌入式GPU。在无人机领域，华为旗下全资子公司海思原先在安防摄像头市场有70%的市场份额，随后为了给这安防摄像头插上翅膀，于2016年7月推出了华为无人机平台，即联手深圳本土初创公司宙心科技，在华为海思芯片的基础上推出了一系列无人机解决方案。麒麟97

19、0概述：麒麟970采用最先进的TSMC 10纳米工艺技术制造，该技术在大约指甲大小的区域内集成了55亿个晶体管。麒麟970结合了八核CPU，12核GPU，双ISP，1.2 Gbps高速Cat.18 LTE调制解调器和创新的HiAI移动计算架构。麒麟970具有超快速连接，智能计算能力，高清视听效果和超长电池寿命。主要规格：HiAI架构：CPU / GPU / NPU / ISP / DSPCPU：4x A73 + 4x A53GPU：Mali-G72 MP12专用的NPU协处理器：i7传感器协处理器ISP：具有面部和运动检测功能的双ISP，4-Hybrid Focus弱光和动态拍摄内存：LPDD

20、R 4X调制解调器：LTE Cat18 / 13 1.2Gbps DL / 150 Mbps UL语音解决方案：双卡双待VoLTE音频：32bit 384 KHz高清音频，降低AI噪音视频：4K视频，HDR 10安全解决方案：inSE 2.0工艺：10nm强调：麒麟970是华为首款移动AI计算平台。凭借集成了专用神经网络处理单元（NPU）的新HiAI移动计算架构，麒麟970的性能提高了约25倍，效率提高了50倍，大大提高了图像识别，语音交互和智能摄影的功能。（九）深鉴科技DPU (FPGA)深鉴科技已经设计出一套基于DPU的一整套深度学习硬件解决方案，包括DPU的芯片架构、DPU编译器、硬件

21、模块（订制的PCB板）三部分。直接呈现的产品就是硬件模块，共有嵌入式端和服务器端两款，在性能超过同类产品的同时，功耗、售价都大幅下降。从官方提供的数据来看，嵌入式端的产品在性能超过Nvidia TK1􏰀 的同时，功耗、售价仅为后者的1/4左右。服务器端的产品，性能接近Nvidia K40 GPU ，但功耗只有35瓦左右，售价300美元以下，不足后者的1/10。产品功耗的降低和性能的提升主要依赖于算法上的创新和芯片结构的创新。深鉴科技的首席科学家韩松一直在研究“深度压缩”（Deep Compression）技术，可以将神经网络压缩数十倍而不影响准确度，可以使用片上存储来存储深度

22、学习算法模型，减少内存读取，从而大幅度减少功耗。这一研究也得到了学界的认可，已经被选为2016年ICLR两篇最佳论文之一（另一篇来自AlphaGo开发者谷DeepMind）。在芯片结构上，深鉴科技重新设计了产品的架构（见下图）。针对深度学习计算中的大规模频繁复用，设计了专门的DPU架构及编译器。用户可以正常通过GPU训练深度学习模型，并直接将模型编译到DPU指令集，指令直接下载到DPU上，使得深度学习算法的运行效率提高。（十） Google 谷歌TPU2.0 (ASIC) TPU（Tensor Processing Unit）即张量处理单元，是一款为机器学习而定制的芯片，经过了专门深度机器学习

23、方面的训练，它有更高效能（每瓦计算能力）。去年四月份，谷歌公布TPU相关论文，称“TPU 处理速度比当前 GPU 和 CPU 要快 15 到 30 倍”。新的 TPU 包括了四个芯片，每秒可处理 180 万亿次浮点运算。Google 还找到一种方法，使用新的计算机网络将 64 个 TPU 组合到一起，升级为所谓的TPU Pods，可提供大约 11500 万亿次浮点运算能力。除了速度，第二代 TPU 最大的特色，是相比初代 TPU 它既可以用于训练神经网络，又可以用于推理。弊端: 首先开发出新的芯片并不能保证 Google 成功，要使用 TPU 2.0，开发者要学习一种构建和运行神经网络的新方法

24、。它不仅仅是一个新的芯片，TPU 2.0 也是专门为 TensorFlow 设计。不同的是，谷歌不会将TPU直接出售，而是通过其新的云服务提供，这个新的TPU价格为每小时每单元6.50美元，而通过Kubernetes Engine租赁的GPU将按谷歌现有的每种支持芯片型号收费。（十一）全志R16平台小米去年发布的无人机采用的主控方案正是全志科技的R16平台。此前R16处理器曾被用在京东智能音箱、小鱼在家等产品上。这款产品，内置了双星GPS定位接收器，能够接收并解析GPS、GLONASS两个卫星定位系统的信号，以提高无人机收星定位能力，保障无人机的工作安全。（十二）联芯LC860模组走的是低价位的性价比路线，CPU采用6核 CortexA7，GPU采用2GHz 双核 Mali T628 GPU。大疆精灵Phantom 4就采用过联芯方案LC1860，零度智控还推出基于联芯LC1860的双目视觉整体解决方案。据悉，联芯还与小米合资成立松果电子，专注智能硬件领域专心-专注-专业

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 深度学习芯片 17

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：深度学习芯片(共17页).docx
链接地址：https://www.taowenge.com/p-13536261.html