深度学习芯片(共17页).docx
《深度学习芯片(共17页).docx》由会员分享,可在线阅读,更多相关《深度学习芯片(共17页).docx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上AI芯片分类:功能: 1.Training(训练) 2. Inference(推理)两个环节;应用场景: 1. Cloud/DataCenter(云端)2. Device/Embedded(设备端)技术架构发展类型:1、通用类芯片,代表如GPU、FPGA;2、基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;3、全定制化ASIC芯片,代表如谷歌TPU、寒武纪 Cambricon-1A等;4、类脑计算芯片,代表如IBM TrueNorth、westwell、高通Zeroth等。类型比对一、 GPU 优点:具有数以千计的计算核心可实现 10-100倍应用吞吐
2、量 支持对深度学习至关重要的并行计算能力 比传统处理器更加快速 加快了训练过程 目前最普遍采用的深度学习运算单元之一。局限性:1. 应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节,GPU在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行处理, 并行度的优势不能完全发挥2. 硬件结构固定不具备可编程性。深度学习算法还未完全稳定,若深度学习算法发生大的变化,GPU无法灵活的配置硬件结构。能耗 虽然 GPU要好于 CPU,但其能耗仍旧很大二、 FPGAFPGA,即现场可编辑门阵列,是一种新型的可编程逻辑器件,由于其具有静态可重复编程和动态在系统重构的特性,
3、使得硬件的功能可以像软件一样通过编程来修改。FPGA作为人工智能深度学习方面的计算工具,主要原因就在于其本身特性:可编程专用性,高性能,低功耗。北京大学与加州大学的一个关于FPGA 加速深度学习算法的合作研究。展示了 FPGA 与 CPU 在执行深度学习算法时的耗时对比。在运行一次迭代时,使用 CPU耗时 375 毫秒,而使用 FPGA 只耗时 21 毫秒,取得了 18 倍左右的加速比。根据瑞士苏黎世联邦理工学院(ETHZurich)研究发现,基于FPGA的应用加速比CPU/GPU方案,单位功耗性能可提升25倍,而时延则缩短了50到75倍,与此同时还能实现出色的I/O集成。而微软的研究也表明,
4、FPGA的单位功耗性能是 GPU 的 10倍以上,由多个 FPGA 组成的集群能达到 GPU 的图像处理能力并保持低功耗的特点。根据英特尔预计,到 2020年,将有 1/3 的云数据中心节点采用 FPGA 技术。三、 不可估量的 ASICASIC(Application Specific Integrated Circuits,专用集成电路),是指应特定用户要求或特定电子系统的需要而设计、制造的集成电路。ASIC用于专门的任务,比如去除噪声的电路,播放视频的电路,但是 ASIC明显的短板是不可更改任务。但与通用集成电路相比,具有以下几个方面的优越性:体积更小、功耗更低、可靠性提高、性能提高、保
5、密性增强、成本降低。从算力上来说,ASIC产品的计算能力是 GK210 的 2.5 倍。功耗上,ASIC 功耗做到了 GK210(NVIDIA) 的 1/15。当然ASIC是能效最高的,但目前,都在早期阶段,算法变化各异。想搞一款通用的ASIC适配多种场景,还是有很多路需要走的。但从比特币挖矿机经历的从CPU、GPU、FPGA到最后 ASIC 的四个阶段来推论,ASIC将是人工智能发展的重要趋势之一。另外,在通信领域,FPGA曾经也是风靡一时,但是随着 ASIC 的不断发展和蚕食,FPGA的份额和市场空间已经岌岌可危。四、 NPU:为深度学习而生的专业芯片从技术角度看,深度学习实际上是一类多层
6、大规模人工神经网络。它模仿生物神经网络而构建,由若干人工神经元结点互联而成。神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱。每个神经元可抽象为一个激励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。为了表达特定的知识,使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等。该过程称为“学习”。在学习之后,人工神经网络可通过习得的知识来解决特定的问题。由于深度学习的基本操作是神经元和突触的处理,而传统的处理器指令集(包括x86和ARM等)是为了进行通用计算发展起来的,其基本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需要数
7、百甚至上千条指令才能完成一个神经元的处理,深度学习的处理效率不高。因此谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络。因此,传统的处理器(包括x86和ARM芯片等)用于深度学习的处理效率不高,这时就必须另辟蹊径突破经典的冯诺伊曼结构。以中国的寒武纪为例,DianNaoYu指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。另外,神经网络中存储和处理是一体化的,都是通过突触权重来体现。 而冯诺伊曼结构中,存储和处理是分离的,分别由存储器和运算器来实现,二者之间存在巨大的差异。当用现有
8、的基于冯诺伊曼结构的经典计算机(如X86处理器和英伟达GPU)来跑神经网络应用时,就不可避免地受到存储和处理分离式结构的制约,因而影响效率。这也就是专门针对人工智能的专业芯片能够对传统芯片有一定先天优势的原因之一。用数字来说话,CPU、GPU与NPU相比,会有百倍以上的性能或能耗比差距以寒武纪团队过去和Inria联合发表的DianNao论文为例DianNao为单核处理器,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02平方毫米mm。在若干代表性神经网络上的实验结果表明DianNao的平均性能超过主流CPU核的100倍,但是面积和功
9、耗仅为1/10,效能提升可达三个数量级;DianNao的平均性能与主流GPU相当,但面积和功耗仅为主流GPU百分之一量级。AI芯片产业生态:全球AI芯公司:国内AI芯片公司已成熟、权威的芯片厂商(一) 英伟达JetsonTX1芯片方案 (GPU)2015年相继为Parrot及其竞争对手大疆提供芯片,针对无人机市场,英伟达开发了Jetson TX1芯片方案,可以胜任各类图像图形识别和高级人工智能任务,使用它的无人机可以在空中停留更长时间。(二) 英特尔处理器英特尔把无人机作为其处理器产品的一大新兴应用加以推广,而且更愿意看到其这两年主打的RealSense实感技术即3D摄像头的无人机应用有所突破
10、。采用英特尔实感技术的Yuneec Typhoon H,具有防撞功能,具有方便起飞、配备4K摄像头和360度万向接头,以及遥控器内置显示屏等特点,内置了高达6个英特尔的“Real Sense”3D摄像头,采用了四核的英特尔凌动(Atom)处理器的PCI-express定制卡,来处理距离远近与传感器的实时信息,以及如何避免近距离的障碍物。在无人机视觉方面。英特尔最大的优势在于其RealSense技术采用的红外激光,相较起高通的双目视觉技术,规避了计算机视觉识别物体的大量计算,并有效提高了精度。(三) 三星Artik5芯片三星Artik芯片有三个型号,其中应用于无人机的主要是Artik5,Arti
11、k5尺寸为29x25mm,搭载1GHz ARM双核处理器(Mali 400 MP2 GPU),搭配的是512MB LPDDR3内存以及4GB eMMc闪存。支持Wi-Fi、低功耗蓝牙,支持802.11 b/g/n。此外,该芯片还能对解码H.264等格式720p 30fps的视频进行解码,并提供了TrustZone。(四) 高通骁龙Flight平台骁龙Flight是一块高度优化的58x40mm开发板,专门针对消费级无人机和机器人应用而设计。骁龙Flight包含一颗骁龙801SoC(由四颗主频为2.26GHz的核心组成),支持GPS、4K视频拍摄、强劲的连接性以及先进的无人机软件和开发工具,双通道
12、Wi-Fi和蓝牙模块,支持实时飞行控制系统,拥有全球导航卫星系统(GNSS)接收器,支持4K视频处理,支持快速充电技术。腾讯的Ying、零零无限的小型无人机产品 hover camera 及零度智控的自拍无人机dobby的样机都用的是snapdragon flight。无人机设计平台 Snapdragon Flight 无人机芯片具有和智能手机相同的处理器 对比目前主要的无人机芯片解决方案,高通snapdragon flight 的CPU 尺寸最小、主频最高。目前已应用于国内厂商零零无限的小型无人机产品hover camera 及零度智控的自拍无人机dobby 的样机。(五) Ambarell
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 芯片 17
限制150内