谷歌新研究:基于数据共享的神经网络快速训练方法.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《谷歌新研究:基于数据共享的神经网络快速训练方法.docx》由会员分享,可在线阅读,更多相关《谷歌新研究:基于数据共享的神经网络快速训练方法.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、谷歌新研究:基于数据共享的神经网络快速训练方法|GoogleBrain译者|凯隐责编|夕颜出品|AI科技大本营ID:rgznai100导读神经网络技术的普及离不开硬件技术的开展GPU以及TPU等硬件型训练加速器带来的高算力极大的缩短了训练模型需要的时间使得研究者们能在短时间内验证并调整想法进而快速得到理想的模型。然而在整个训练流程中只有反向传播优化阶段在硬件加速器上完成而其他的例如数据载入以及数据预处理等经过那么不受益于硬件加速器因此逐渐成为了整个训练经过的瓶颈。本文应用数据分享以及并行流水线的思想在一个数据读入以及预处理周期内屡次重复使用上一次读入的数据进展训练有效降低模型到达一样效果所需的
2、总epoch次数在算法层面实现对训练经过的加速。网络训练的另一个瓶颈网络训练速度的提升对神经网络的开展至关重要。过去的研究着重于怎样在GPU以及更专业的硬件设备上进展矩阵以及张量的相关运算进而代替CPU进展网络训练。GPU以及TPU等相关专业计算硬件的通用性不像CPU那么广泛但是由于特殊的设计以及计算单元构造可以在一些专门的任务中具有大幅超越CPU的表现。由于GPU相关硬件擅长进展矩阵以及张量运算因此通常用于训练中的反向传播计算经过也就是参数优化经过。然而一个完好的网络训练流程不应该只包含反向传播参数优化经过还应该有数据的读入以及预处理的经过后者依赖于多种硬件指标包括CPU、硬盘、内存大小、内
3、存带宽、网络带宽而且在不同的任务中细节也不尽一样很难专门为这个概念广泛的经过设计专用的硬件加速器因此其逐渐成为了神经网络训练经过中相对于方向传播经过的另一个瓶颈。因此假如要进一步提升训练速度就需要考虑优化非硬件加速的相关任务而不仅仅是优化反向传播经过这一优化可以从两个方面来进展 (1)提升数据载入以及预处理的速度类似于提升运算速度 (2)减少数据载入以及预处理的工作量其中第一个思路更多的需要在硬件层面进展改良而第二个思路那么可以通过并行计算以及数据分享重复利用的方法来实现。并行化问题在解析详细的训练优化方法之前我们需要知道神经网络训练经过中的典型步骤并做一些合理假设。下列图是一个典型的神经网络
4、训练流程图1一种典型的神经网络训练流程包含了5个步骤readanddecode表示读入数据并解码例如将图片数据重新resize成相应的矩阵形式Shuffle表示数据打乱即随机重新排列各个样本augmentation表示对数据进展变换以及增强batch对数据按照batchsize进展打包ApplySGDupdate表示将数据输入到目的网络中并利用基于SGD的优化算法进展参数学习。不同的任务中或者许会增加或者减少某些环节但大致上的流程就是由这5步构成的。此外网络采用的学习优化算法也会有不同但都是基于SGD算法的因此一律用“SGDupdate来表示。这个流程每次运行对应一个epoch因此其输入也就是
5、整个训练数据集。可并行化是这个经过的重要特点也是对其进展优化的关键所在。不同的epoch流程之间的某些环节是可以同时进展的例如在上一个epoch训练时就可以同步的读入并处理下一个epoch的数据。进一步地将该流程划分为两个局部上游upstream经过以及下游downstream经过。其中上游经过包含数据载入以及局部的数据预处理操作而下游经过包含剩余的数据预处理操作以及SGDupdate操作。这个划分并不是固定的不同的划分决定了上游以及下游经过的计算量以及时间开销。这样划分后可以简单地将并行操作理解为两个流水线并行处理如下列图图1根底并行操作idle表示空闲时间上面的流水线处理上游经过下面的处理
6、下游经过。为了更好地表示对应关系我在原图的根底上添加了一个红色箭头表示左边的上游经过是为右边的下游经过提供数据的他们共同构成一个epoch的完好训练流程并且必须在完成这个epoch的上游经过后才可以开场其下游经过而与左侧的上游经过竖直对应的下游经过那么隶属于上一个epoch了。从图中可以看到上游经过需要的时间是比下游经过更长的因此在下游经过的流水线中有一局部时间红色局部是空闲的等待时间这也是本文中的主要优化对象。此处做了第一个重要假设上游经过的时间消耗大于下游经过这使得训练所需时间完全取决于上游经过。假如是小于关系那么优化的重点就会放到下游经过中而下游经过中主要优化内容还是反向传播经过。因此这
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 谷歌新 研究 基于 数据 共享 神经网络 快速 训练 方法
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内