CUDA基本介绍介绍.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《CUDA基本介绍介绍.ppt》由会员分享,可在线阅读,更多相关《CUDA基本介绍介绍.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、CUDA基本介绍基本介绍基于Nvidia GPU的通用计算开发张舒l电子科技大学 电子工程学院 06级硕士研究生l信号探测与获取技术专业l研究方向:合成孔径雷达成像与雷达目标像识别l信号处理与模式识别的算法与硬件实现研究GPU的优势的优势l强大的处理能力 GPU接近1Tflops/sl高带宽 140GB/sl低成本 Gflop/$和Gflops/w高于CPUl当前世界超级计算机五百强的入门门槛为12Tflops/sl一个三节点,每节点4GPU的集群,总处理能力就超过12Tflops/s,如果使用GTX280只需10万元左右,使用专用的Tesla也只需20万左右GPU/CPU计算能力比较计算能力
2、比较GPU/CPU存储器带宽比较存储器带宽比较GPU/CPU架构比较架构比较延迟与吞吐量延迟与吞吐量lCPU:通过大的缓存保证线程访问内存的低延迟,但内存带宽小,执行单元太少,数据吞吐量小 需要硬件机制保证缓存命中率和数据一致性lGPU:高显存带宽和很强的处理能力提供了很大的数据吞吐量 缓存不检查数据一致性 直接访问显存延时可达数百乃至上千时钟周期单核单核CPU已经走到了尽头已经走到了尽头l频率提高遇到了瓶颈 从p4时代至今主流处理器频率一直在2GHz-3GHz左右l架构上已无潜力可挖。超线程 多流水线 复杂的分支预测 大缓存等技术已经将性能发挥到了极致,但是通用计算中的指令级并行仍然偏低l上
3、述技术占用了芯片上的绝大多数晶体管和面积,目的却只是让极少数的执行单元能够满负荷工作GPU能够更好的利用摩尔定律提供的能够更好的利用摩尔定律提供的晶体管晶体管l图形渲染过程高度并行,因此硬件也是高度并行的l少量的控制单元,大量的执行单元l显存被固化在了PCB上,拥有更好的EMI性能,因此运行频率高于内存 通过更大的位宽实现了高带宽当前的单核并行计算产品当前的单核并行计算产品lIBM Cell 应用主要见于PS3lSUN Niarraga NPUlNV/ATI GPU 大规模应用lGPU最为常见,受市场牵引发展最快,性价比最高架构比较架构比较硬件硬件CPUCPUGPUGPUFPGAFPGAAES
4、-128AES-128解解密实测速度密实测速度(GByte/sGByte/s)0.1190.119(Core2E6700Core2E6700中单核)中单核)1.781.78(FX9800GTX+FX9800GTX+)1.021.02(互联网资料中单片互联网资料中单片FPGAFPGA最大最大值值)开发难度开发难度小小较小较小大大增加功能增加功能容易容易容易容易难难硬件升级硬件升级无需修改代码无需修改代码无需修改代码无需修改代码需要修改代码需要修改代码与主控端通信与主控端通信不需要不需要通过通过PCI-EPCI-E,实际速度一,实际速度一般为般为3G3G左右,通过左右,通过APIAPI实实现,较简
5、单现,较简单需要为需要为FPGAFPGA编写额外的驱动编写额外的驱动程序,实现通信协议需要额程序,实现通信协议需要额外的硬件资源外的硬件资源性能性能/成本成本高高低低高高片外存储器片外存储器内存,容量大,速度低内存,容量大,速度低显存,容量较大,速度显存,容量较大,速度高高FPGAFPGA板上内存,一般为板上内存,一般为DDRII,DDRII,速度低速度低开发周期开发周期短短短短长长CPU GPU FPGA实现比较实现比较当前的当前的GPU开发环境开发环境lCg:优秀的图形学开发环境,但不适合GPU通用计算开发lATI stream:硬件上已经有了基础,但只有低层次汇编能够使用所有资源。高层次
6、抽象Brook本质上是基于上一代GPU的,缺乏良好的编程模型lOpenCL:联合制定的标准,抽象层次较低,对硬件直接操作更多,代码需要根据不同硬件优化lCUDA:目前最佳选择未来的发展趋势未来的发展趋势lGPU通用计算进一步发展:更高版本的CUDA,OpenCLl新产品涌现:Nvidia和AMD的下一代产品,Intel的LarraBeelCPU+GPU产品:减少了CPU-GPU通信成本,但存储器带宽和功耗面积等可能将制约集成度。在较低端的应用中将有用武之地。CUDA的硬件架构适合通用计算的硬件架构适合通用计算lG8x系G9x系GT200系列l标量机架构提高了处理效率,更加适合通用计算l增加了s
7、hared memory和同步机制,实现线程间通信l以通用的处理器矩阵为主,辅以专用图形单元GTX280性能性能l933 Gflops(MAD)单精度 116 Gflops双精度(MAD)l512bit位宽ddr3显存,提供了140GB/s的带宽l1G的显存GT200框图框图TPC3 SMInstruction and constant cacheTextureLoad/storeSMROPROPl对DRAM进行访问lTEXTURE机制l对global的atomic操作微架构比较微架构比较执行流水线执行流水线工作在通用计算模式下的工作在通用计算模式下的GT200SM架构架构DUAL-Issue
8、 并发并发l每二周期可以发射 一次指令lFPU和SFU指令延迟 是四周期l某些情况下可以让FPU和SFU并发执行,实现超标量l理论处理能力峰值没有计算dual-issuel双精度浮点计算不能dual-issueCUDA架构架构GPU硬件特点硬件特点l硬件资源模块化,根据市场定位裁减l高度并行 存在TPC SM 两层 每个SM又有8SPlSM内存在高速的shared memory和同步机制l原子操作有利于实现通用计算中的数据顺序一致性lshared memory Texture cache constant cache等高速片内存储器有助于提高数据访问速度,节省带宽如何选购硬件如何选购硬件l目前
9、(2008.12)只有CUDA能够完全发挥新一代GPU的全部计算能力。Nvidia的G80以上的GPU能够支持CUDA。lGT200系列不仅性能更强,而且具有很多实用的新特性lTesla专用流处理器拥有更大的显存和更高的核心频率,通过降低显存频率,屏蔽不需要的图形单元和改善散热获得了更好的稳定性,适合服务器或者集群使用适合的应用适合的应用lGPU只有在计算高度数据并行任务时才能发挥作用。在这类任务中,需要处理大量的数据,数据的储存形式类似于规则的网格,而对这写数据的进行的处理则基本相同。这类数据并行问题的经典例子有:图像处理,物理模型模拟(如计算流体力学),工程和金融模拟与分析,搜索,排序。l
10、在很多应用中取得了1-2个数量级的加速不适合的应用不适合的应用l需要复杂数据结构的计算如树,相关矩阵,链表,空间细分结构等,则不适用于使用GPU进行计算。l串行和事务性处理较多的程序l并行规模很小的应用,如只有数个并行线程l需要ms量级实时性的程序l需要重新设计算法和数据结构或者打包处理CUDA 执行模型执行模型 l重点是将CPU做为终端(Host),而GPU做为服务器(Server)或协处理器(Coprocessor),或者设备(Device),从而让GPU来运行一些能够被高度线程化的程序。lCUDA的基本思想是尽量得开发线程级并行(Thread Level Parallel),这些线程能够
11、在硬件中被动态的调度和执行。CUDA执行模型执行模型l调用核程序时CPU调用API将显卡端程序的二进 制代码传到GPUlgrid运行在SPA上lblock运行在SM上lthread运行在SP上grid block threadlKernel不是一个完整的程序,而只是其中的一个关键并行计算步lKernel以一个网格(Grid)的形式执行,每个网格由若干个线程块(block)组成,每一个线程块又由最多512个线程(thread)组成。grid block threadl一个grid最多可以有65535*65535个blockl一个block总共最多可以有512个thread,在三个维度上的最大值分
12、别为512,512和64grid block threadlgrid之间通过global memory交换数据lblock之间不能相互通信,只能通过global memory共享数据,不要让多个block写同一区段内容(不保证数据一致性和顺序一致性)l同一block内的thread可以通过shared memory和同步实现通信lblock间粗粒度并行,block内thread细粒度并行warplWarp是硬件特性带来的概念,在CUDA C语言中是透明的(除vote函数),但应用中不能忽略l一个warp中有32个线程,这是因为SM中有8个SP,执行一条指令的延迟是4个周期,使用了流水线技术l一
13、个half warp中有16个线程,这是因为执行单元的频率是其他单元的两倍,每两个周期才进行一次数据传输SIMT编程模型编程模型lSIMT是对SIMD(Single Instruction,Multiple Data,单指令多数据)的一种变形。l两者的区别在于:SIMD的向量宽度是显式的,固定的,数据必须打包成向量才能进行处理;而SIMT中,执行宽度则完全由硬件自动处理了。(每个block中的thread数量不一定是32)l而SIMT中的warp中的每个线程的寄存器都是私有的,它们只能通过shared memory来进行通信。分支性能分支性能l与现代的微处理器不同,Nvidia的SM没有预测执
14、行机制-没有分支预测单元(Branch Predicator)。l在需要分支时,只有当warp中所有的线程都计算出各自的分支的地址,并且完成取指以后,warp才能继续往下执行。l如果一个warp内需要执行N个分支,那么SM就需要把每一个分支的指令发射到每一个SP上,再由SP根据线程的逻辑决定需不需要执行。这是一个串行过程,此时SIMT完成分支的时间是多个分支时间之和。存储器模型存储器模型lRegisterlLocallsharedlGloballConstantlTexturelHost memorylPinned host memory寄存器与寄存器与local memoryl对每个线程来说
15、,寄存器都是线程私有的-这与CPU中一样。如果寄存器被消耗完,数据将被存 储 在 本 地 存 储 器(local memory)。Local memory对每个线程也是私有的,但是local memory中的数据是被保存在显存中,而不是片内的寄存器或者缓存中,速度很慢。线程的输入和中间输出变量将被保存在寄存器或者本地存储器中。Shared memoryl用于线程间通信的共享存储器。共享存储器是一块可以被同一block中的所有thread访问的可读写存储器。l访问共享存储器几乎和访问寄存器一样快,是实现线程间通信的延迟最小的方法。l共享存储器可以实现许多不同的功能,如用于保存共用的计数器(例如计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CUDA 基本 介绍
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内