书签分享收藏举报版权申诉 / 18

立即下载

当前位置：首页 > 技术资料 > 工程图纸 > 2017年AI技术盘点：关键进展与趋势.docx

2017年AI技术盘点：关键进展与趋势.docx

上传人：安***

文档编号：73269427

上传时间：2023-02-17

格式：DOCX

页数：18

大小：29.19KB

( 4.5 )

《2017年AI技术盘点：关键进展与趋势.docx》由会员分享，可在线阅读，更多相关《2017年AI技术盘点：关键进展与趋势.docx（18页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、2017年AI技术盘点：关键进展与趋势 /*版权声明可以任意转载转载时请标明文章原始出处以及信息.*/ 张俊林本文2018年度发表于?程序员?杂志1月刊人工智能最近三年度开展如火如荼学术界、工业界、投资界各方一起发力硬件、算法与数据共同开展不仅仅是大型互联网公司包括大量创业公司和传统行业的公司都开场涉足人工智能。2017年度人工智能行业延续了2016年度蓬勃开展的势头那么在过去的一年度里AI行业从技术开展角度有哪些重要进展将来又有哪些开展趋势本文从大众比拟关注的假设干领域作为代表来归纳AI领域一些方向的重要技术进展。从AlphaGo Zero到Alpha Zero 迈

2、向通用人工智能的关键一步 DeepMind携深度增强学习利器总是可以给人带来震撼性的技术创新 2016年度横空出世的AlphaGo彻底粉碎了普遍存在的“围棋领域机器无法战败人类最强手的执念但是毕竟李世石还是赢了一局不少人对于人类翻盘大逆转还是抱有祈望紧接着Master通过60连胜众多顶尖围棋高手彻底浇灭了这种期待。2017年度AlphaGo Zero作为AlphaGo二代做了进一步的技术晋级把AlphaGo一代虐得体无完肤这时候人类已经没有资格上场对局了。2017年度底AlphaGo的棋类游戏通用版本Alpha Zero问世不仅仅围棋对于国际象棋、日本将棋等其他棋类游戏 Alph

3、a Zero也以压倒性优势战胜包括AlphaGo Zero在内的目前最强的AI程序。图1 AlphaGo Zero的自己对弈及训练经过 AlphaGo Zero从技术手段上以及AlphaGo相比并未有本质上的改良主体仍然是MCST蒙特卡洛搜索树加神经网络的构造和深度增强学习训练方法但是技术实现上简单优雅很多参考图1 。主要的改动包含两处一处是将AlphaGo的两个预测网络策略网络以及价值网络合并成一个网络但是同时产生两类所需的输出第二处是网络构造从CNN构造晋级为ResNet。虽讲如此 AlphaGo Zero给人带来的触动以及启发丝毫不比AlphaGo少主要原因是Alph

4、aGo Zero完全放弃了从人类棋局来进展下棋经历的学习直接从一张白纸开场通过自己对弈的方式进展学习并仅仅通过三天的自己学习便获得了远超人类千年度积累的围棋经历。这引发了一个之前一般人很期待但是同时又认为很难完成的问题机器可以不依赖有监视方式的训练数据或极少的训练数据自己进化与学习吗假如真的可以做到这一点那么是否意味着机器会快速进化并淘汰人类第二个问题甚至会引起局部人的恐慌。但是其实这个问题本身问的就有问题因为它做了一个错误的假设 AlphaGo Zero是不需要训练数据的。首先 AlphaGo Zero确实做到了通过自己对弈的方式进展学习但是仍然需要大量训练数据无非这些训

5、练数据是通过自己对弈来产生的。而且更根本的一点是应该意识到对于AlphaGo Zero来讲其本质其实还是MCST蒙特卡洛树搜索。围棋之所以看着难度大难以克制主要是搜索空间实在太大单纯靠暴力搜索完全不可行。假如我们假设如今有个机器无限强大可以快速遍历所有搜索空间那么其实单纯使用MCST树搜索不依靠机器学习机器也能到达完美的博弈状态。AlphaGo Zero通过自己对弈和深度增强学习主要到达了可以更好地评估棋盘状态以及落子质量优先选择走那些赢面大的博弈途径这样可以舍弃大量的劣质途径进而极大减少了需要搜索的空间自己进化主要表达在评估棋面状态越来越准。而之所以可以通过自己对弈产

6、生大量训练数据是因为下棋是个规那么定义很明晰的任务到了一定状态就可以赢或输无非这种最终的赢或输来得晚一些不是每一步落子就能看到的现实生活中的任务是很难到达这一点的这是为何很多任务仍然需要人类提供大量训练数据的原因。假如从这个角度考虑就不会错误地产生以上的疑虑。 Alpha Zero相对AlphaGo Zero那么更进一步将只能让机器下围棋拓展到可以进展规那么定义明晰的更多棋类问题使得这种技术往通用人工智能的路上迈出了重要一步。其技术手段以及AlphaGo Zero根本是一样的只是去除掉所有跟围棋有关的一些处理措施以及技术手段只告诉机器游戏规那么是什么然后使用MCST树搜

7、索深度神经网络并结合深度增强学习自己对弈的统一技术方案以及训练手段解决一切棋类问题。从AlphaGo的一步步进化策略可以看出 DeepMind正在考虑这套扩展技术方案的通用性使得它可以使用一套技术解决更多问题尤其是那些非游戏类的真实生活中有现实价值的问题。同时 AlphaGo系列技术也向机器学习从业人员展示了深度增强学习的强大威力并进一步推动了相关的技术进步目前可以以看到深度增强学习在更多领域应用的实例。 GAN 前景广阔理论与应用极速开展中 GAN 全称为Generative Adversarial Nets 直译为“生成式对抗网络。GAN作为生成模型的代表自2021年度被I

8、an Goodfellow提出后引起了业界的广泛关注并不断涌现出新的改良模型深度学习泰斗之一的Yann LeCun高度评价GAN是机器学习界近十年度来最有意思的想法。 Ian Goodfellow提出的最初的GAN尽管从理论上证明了生成器以及判别器在多轮对抗学习后可以到达平衡态使得生成器可以产生理想的图像结果。但是实际上 GAN始终存在训练难、稳定性差和模型崩塌 Model Collapse 等问题。产生这种不匹配的根本原因其实还是对GAN背后产生作用的理论机制没有探究清楚。过去的一年度在怎样增加GAN训练的稳定性及解决模型崩塌方面有了可喜的进展。GAN本质上是通过生成器以及判别器进展对

9、抗训练逼迫生成器在不知晓某个数据集合真实分布Pdata的情形下通过不断调整生成数据的分布P去拟合逼近这个真实数据分布Pdata 所以计算当前训练经过中两个分布Pdata以及P的间隔度量标准就很关键。Wasserstein GAN的敏锐地指出了原始GAN在计算两个分布的间隔时采用的是Jensen-Shannon Divergence JSD 它本质上是KL Divergence KLD 的一个变种。JSD或KLD存在一个问题当两个分布交集很少时或在低维流形空间下判别器很容易找到一个判别面将生成的数据以及真实数据区分开这样判别器就不能提供有效的梯度信息并反向传导给生成器生成器就很

10、难训练下去因为缺乏来自判别器指导的优化目的。Wasserstein GAN提出了使用Earth-Mover间隔来代替JSD标准这很大程度上改良了GAN的训练稳定性。后续的Fisher GAN等模型又对Wasserstein GAN进展了进一步的改良这些技术陆续改善了GAN的训练稳定性。模型崩塌也是严重制约GAN效果的问题它指的是生成器在训练好之后只能产生固定几个形式的图片而真实的数据分布空间其实是很大的但是模型崩塌到这个空间的假设干个点上。最近一年度针对这个问题也提出了比方标签平滑、Mini-Batch判别器等启发式方法来解决生成器模型崩塌的问题并获得了一定效果。尽管在理论层

11、面针对GAN存在的问题业界在2017年度提出了不少改良方法对于GAN的内在工作机制也有了更深化的解析但是很明显目前仍然没有理解其本质工作机制这块还需要将来更有洞察力的工作来增进我们对GAN的理解。图2 使用CycleGAN将照片中的猫换成狗 GAN具备非常广泛的应用场景比方图像风格转换、超分辨率图像构建、自动黑白图片上色、图片实体属性编辑例如自动给人像增加胡子、切换头发颜色等属性变换不同领域图片之间的转换例如同一个场景春天的图片自动转换为秋天的图片或白天风光自动转换为夜间的风光甚至是图像实体的动态交换比方把一幅图片或视频中出现的猫换成狗参考图2 。在推动GAN应用

12、方面 2017年度有两项技术是非常值得关注的。其中一个是CycleGAN 其本质是利用对偶学习并结合GAN机制来优化生成图片的效果的采取类似思想的包括DualGAN和DiscoGAN等包括后续的很多改良模型例如StarGAN等。CycleGAN的重要性主要在于使得GAN系列的模型不再局限于监视学习它引入了无监视学习的方式只要准备两个不同领域的图片集合即可不需要训练模型所需的两个领域的图片一一对应这样极大扩展了它的使用范围并降低了应用的普及难度。另外一项值得关注的技术是英伟达采取“渐进式生成技术道路的GAN方案这项方案的引人之处在于使得计算机可以生成1024*1024大小的高清图片

13、它是目前无论图像明晰度还是图片生成质量都到达最好效果的技术其生成的明星图片几乎可以到达以假乱真的效果参考图3 。英伟达这项由粗到细首先生成图像的模糊轮廓再逐步添加细节的思想其实并非十分新颖的思路在之前的StackGAN等很多方案都采用了类似思想它的独特之处在于这种由粗到细的网络构造是动态生成的而非事先固定的静态网络更关键的是产生的图片效果十分好。图3 英伟达提出渐进生成式GAN产生的高清头像图片总而言之以GAN为代表的生成模型在2017年度无论是理论根底还是应用理论都产生了很大的技术进展可以预计的是它会以越来越快的速度获得研发人员的推动并在不远的将来在各个需要创造性的

14、领域获得广泛应用。 Capsule 有望取代CNN的新构造 Capsule今年度才以论文的形式被人称“深度学习教父的Hinton老先生发表出来而且论文一出来就成为研究人员关注的焦点但是其实这个思想Hinton已经深化考虑了很久并且之前在各种场合宣传过这种思路。Hinton一直对CNN中的Pooling操作意见很大他曾经吐槽讲 “CNN中使用的Pooling操作是个大错误事实上它在实际使用中效果还不错但这其实更是一场灾难。那么 MaxPooling有什么问题值得Hinton对此深恶痛绝呢参照图4所示的例子可以看出其原因。图4 CNN图像分类在上面这张图中给出两张人像照片通过C

15、NN给出照片所属类别及其对应的概率。第一张照片是一张正常的人脸照片 CNN可以正确识别出是“人类的类别并给出归属概率值0.88。第二张图片把人脸中的嘴巴以及眼睛对调了下位置对于人来讲不会认为这是一张正常人的脸但是CNN仍然识别为人类而且置信度不降反增为0.90。为什么会发生这种以及人的直觉不符的现象这个锅还得MaxPooling来背因为MaxPooling只对某个最强特征做出反响至于这个特征出如今哪里和特征之间应该维持什么样的合理组合关系它并不关心总而言之它给CNN的“位置不变性太大自由度所以造成了以上不符合人类认知的判断结果。在Capsule的方案中 CNN的卷积层保存 M

16、axPooling层被拿掉。这里需要强调的是 Capsule本身是一种技术框架并不单单是详细的某项技术 Hinton论文给出的是最简单的一种实现方法完全可以在遵循其技术思路情况下创造全新的详细实现方法。要理解Capsule的思路或对其做一个新的技术实现其实也不困难只要理解其中的几个关键环节就能实现此目的。假如用一句话来讲明其中的关键点的话可以用“一个中心两个根本点来概括。这里的一个中心指的是Capsule的核心目的是祈望将“视角不变性才能引入图像处理系统中。所谓“视角不变性指的是当我们给3D物体拍照片的时候镜头所对的一定是物体的某个角度看上去的样子也就是2D照片反映3D物

17、体一定是表达出了镜头以及3D物体的某个视角角度而不是360度的物体全貌。那么要到达视角不变性就是祈望给定某个物体某个角度的2D照片当看到另外一张同一物体不同视角的2D照片时祈望CNN也能识别出其实这仍然是那个物体。这就是所谓的“视角不变性参照图5 上下对应的图片代表同一物体的不同视角这是传统的CNN模型很难做好的事情。图5 视角不变性至于讲两个根本点首先第一个根本点是用一维向量或二维数组来表征一个物体或物体的某个部件。传统的CNN尽管也能用特征来表征物体或物体的构成部件但是往往是通过不同层级的卷积层或Pooling层的某个神经元是否被激活来表达图像中是否具备某个特征。C

18、apsule那么考虑用更多维的信息来记载并表征特征级别的物体类似于自然语言处理中使用Word Embedding表征一个单词的语义。这样做的好处是描绘物体的属性可以更加细致比方可以将物体的纹理、速度、方向等作为描绘某个物体的详细属性。第二个根本点是 Capsule不同层间神经元之间的动态路由机制详细而言是低层神经元向高层神经元传递信息时的动态路由机制。低层特征向高层神经元进展动态路由本质上是要表达如下思想构成一个物体的组成部件之间会通过协同地互相加强的方式来表达这种“整体-组成局部的关系比方尽管图片的视角发生了变换但是对一个人脸来讲嘴以及鼻子等构成人脸的构件会协同地发生类似的视角

19、变换它们仍然组合在一起构成了从另外一个视角看过去的人脸。假如从本质上来讲动态路由机制其实是组成一个物体的构件之间的特征聚类通过聚类的方式把属于某个物体的组成局部动态地自动找出来并建立特征的“整体-局部的层级构成关系比方人脸是由鼻子、嘴、眼睛等部件构成。以上所述的三个方面是深化理解Capsule的关键。Capsule的论文发出来后引发了大量的关注以及讨论目前关于Capsule计算框架大局部人持赞赏的态度当然也有一些研究人员提出了质疑比方论文中采用的MINST数据集规模小不够复杂、Capsule的性能优势不明显、消耗较多内存计算速度慢等。但是无论这项新计算框架能否在将来取代C

20、NN标准模型抑或者它很快会被人抛弃并遗忘 Hinton老先生这种老而弥坚的求真治学态度和勇于推翻自己构建的技术体系的勇气这些是值得所有人敬仰以及学习的。 CTR预估向深度学习进展技术晋级 CTR预估作为一个偏应用的技术方向对于互联网公司而言应该是最重要也最关注的方向之一。道理很简单目前大型互联网公司绝大多数利润都来源于此因为这是计算广告方向最主要的技术手段。从计算广告的角度讲所谓CTR预估就是对于给定的用户User 在特定的上下文Context下假如展示给这个用户某个广告或产品Product 估算用户是否会点击这个广告或是否会购置某个产品即求点击概率P(Click|User

21、,Product,Context)。可以看到这是个适用范围很广的技术很多推荐场景和包括目前比拟火的信息流排序等场景都可以转换为CTR预估问题。 CTR预估常用的技术手段包括演进道路一般是按照:“LRGBDT等树模型FM因子分解机模型深度学习这个途径来开展的。深度学习在图像视频、语音、自然语言处理等领域最近几年度获得了飞速的进展但是最近一两年度学术界才开场比拟频繁地陆续出现深度学习怎样以及CTR预估相结合的文章。Google最早在几年度前就开场研究这方面的内容之后国内的大型互联网公司也开场跟进。 CTR预估场景有自己独特的应用特点而想要用深度学习解决CTR预估问题必须考虑怎样融入以及

22、表达这些特点。我们知道 DNN模型便于处理连续数值型特征而图像语音等天然知足这一条件但是CTR预估场景会包含大量的离散特征比方一个人的性别、毕业学校等都属于离散特征。所以用深度学习做CTR预估首先要解决的问题是怎样表征离散特征一种常见的方法是把离散特征转换为Onehot表示但是在大型互联网公司应用场景下特征维度都是百亿以上级别的假如采用Onehot表征方式意味着网络模型会包含过多参数需要学习。所以目前主流的深度学习解决方案都采用将Onehot特征表示转换为低维度实数向量 Dense Vector 类似于NLP中的Word Embedding 的思路这样可以大量降低参数规模。另

23、外一个CTR关注的重心是怎样进展自动特征组合的问题因为好的特征组合对于性能影响非常关键而深度学习天然具有端对端的优势所以这是神经网络模型可以自然发挥作用的地方可以无需人工参与自动找到好的特征组合这一般表达在深度CTR模型的Deep网络局部。图6 并行深度CTR网络构造图7 串行深度CTR网络构造除了更早一些的流传甚广的Wide Deep模型最近一年度出现了一些新的深度CTR模型比方DeepFM、DeepCross、NFM模型等。这些模型其实假如仔细进展分析会发现它们在网络构造上存在极大的相似性。除了在网络构造上表达上述的两个特点一个是Dense Vector表示离散特征

24、另外一个是利用Deep网络对特征组合进展自动建模外。另外一个主流的特点是将低维特征组合以及高维特征组合在网络构造上进展别离 Deep网络表达高维度特征组合而引入神经网络版本的FM模型来对两两特征组合进展建模。这三个网络构造特点根本囊括了目前所有深度CTR模型。图6以及图7是两种常见的深度CTR网络构造目前所有模型根本都采用了其中之一种构造。计算机视觉平稳开展的一年度计算机视觉是AI领域最重要的研究方向之一它本身又包含了众多的研究子领域包括物体分类与识别、目的检测与追踪、语义分割、3D重建等一些根底方向也有超分辨率、图片视频描绘、图片着色、风格迁移等偏应用的方向。目前计算机视觉

25、处理的主流技术中深度学习已经占据了绝对优势地位。对于物体识别、目的检测与语义分割等根底研究领域来讲 Faster R-CNN、SSD、YOLO等技术仍然是业界最先进最主流的技术手段。在2017年度新出现的重要技术中 Facebook的何恺明等提出的Mask R-CNN获得ICCV2017的最正确论文它通过对Faster R-CNN增加分支网络的改良方式同时完成了物体识别、目的检测与语义分割等根底任务这展示了使用同一套技术同时解决多个根底领域问题的可能性并会促进后续相关研究的继续深化探究而YOLO9000和同样是何恺明团队在论文“Learning to Segment Every

26、Thing提出的MaskX R-CNN那么表达了根底领域的另外一个重要开展趋势尝试通过技术手段自动识别出更多种类的物品终极目的是可以识别任何物体。目前MaskX R-CNN可以识别超过3000种类别物体而YOLO9000那么可以识别超过9000种物体类别。很明显目的检测要在各种现实领域大规模获得使用除了速度快、识别精准外可以大量识别各种现实生活中各种各样的物体类别也是至关重要的而最近一年度的研究在这方面产生了重要的进展。从网络模型构造来讲 2017年度并未产生类似之前ResNet这种产生宏大影响的新模型 ResNet因为其明显的性能优势已经广泛使用在视觉处理的各个子领域中。虽讲

27、DenseNet获得了CVPR2017最正确论文但它本质上是对ResNet的改良模型并非全新思路的新模型。除了上述所讲的视觉处理的根底研究领域假如对2017年度的新技术进展归纳的话在很多其他应用领域可以以看到如下的一些明显开展趋势首先增强学习与GAN等新技术开场被尝试用来解决很多其它的图像处理领域的问题并获得了一定进展比方Image-Caption、超分辨率、3D重建等领域开场尝试引入这些新技术。另外深度学习与传统方法怎样集成各自的优点并深度交融也是最近一年度来视觉处理的方向深度学习技术具有性能优异等优点但也存在黑箱不可解释和理论根底薄弱等缺点而传统方法具备理论完备等

28、优势结合两者来充分发挥各自优势克制自身缺点是很重要的。再次弱监视、自监视或无监视的方法在各个领域也越来越重要这是有现实需求的深度学习固然效果好但是对于大量标注训练数据是有要求的而这又需要大量的标注本钱在现实中往往不可行。而探究弱监视、自监视甚至无监视的方法有助于更快促进各个领域研究的快速开展。自然语言处理进展相对缓慢急需技术打破自然语言处理也是人工智能的重要方向之一最近两年度深度学习也已经根本浸透到了自然语言处理的各个子领域并获得了一定进展但是与深度学习在图像、视频、音频、语音识别等领域获得的强势进展相比深度学习带给自然语言处理的技术红利相对有限相比传统方法而言

29、其效果并未获得压倒性的优势。至于产生这种现象的原因其实是个值得深化讨论的问题关于其原因目前众讲纷纭但并未有十分有讲服力的解释可以被大多数人所承受。与一年度甚至两年度前相比目前在自然语言处理领域应用的最主流深度学习根本技术工具并未发生宏大变化最主流的技术手段仍然是以下技术组合大礼包 Word Embedding、LSTM 包括GRU、双向LSTM等、Sequence to Sequence框架和Attention注意力机制。可以在大量自然语言处理子领域看到这些技术构件的组合及其改良的变体模型。CNN在图像领域占据压倒性优势但是自然语言处理领域仍然是RNN主导的场面尽管Facebo

30、ok一直大力倡导基于CNN模型来处理自然语言处理除了在大规模分布式快速计算方面CNN确实相对RNN具备天然优势外目前看不出其具备取代RNN主导地位的其它独特优势。最近一年度深度学习在自然语言处理领域应用有以下几个值得关注的开展趋势。首先无监视模型与Sequence to Sequence任务的交融是个很重要的进展以及开展方向比方ICLR 2018提交的论文“Unsupervised Machine Translation Using Monolingual Corpora Only作为代表的技术思路它使用非对齐的双语训练语料集合训练机器翻译系统并到达了较好的效果。这种技术思路本质上

31、是以及CycleGAN非常类似的相信这种无监视模型的思路在2018年度会有大量的跟进研究。其次增强学习和GAN等最近两年度比拟热门的技术怎样以及NLP进展结合并真正发挥作用是个比拟有前景的方向最近一年度开场出现这方面的探究并获得了一定进展但是很明显这条路还没有走通这块值得继续进展深化探究。再次 Attention注意力机制进一步广泛使用并引入更多变体比方Self Attention和层级Attention等从Google做机器翻译的新论文“Attention is all you need的技术思路可以明显体会这个趋势。另外怎样将一些先验知识或语言学相关的领域知识以及神经网络进

32、展交融是个比拟流行的研究趋势比方将句子的句法构造等信息明确引入Sequence to Sequence框架中等。除此外神经网络的可解释性也是一个研究热点不过这一点不仅仅局限在NLP领域在整个深度学习领域范围也是非常关注的研究趋势。本文选择了假设干具有较高关注度的AI技术领域来阐述最近一年度来该领域的重要技术进展受才能和平常主要关注领域的限制难免挂一漏万很多方面的重要技术进展并未列在文中比方Google在力推的TPU为代表的AI芯片技术的快速开展让机器自动学习设计神经网络构造为代表的“学习一切和解决神经网络黑箱问题的可解释性等很多重要领域的进展都未能在文中提及或者展开这些都是非常值得关注的AI技术开展方向。过去的一年度AI很多领域发生了重大的技术进展也有不少领域前进步伐缓慢但是不管怎样本文相信AI在将来的假设干年度内会在很多领域产生颠覆目前人类想象力的技术进步让我们期待这一天早日到来张俊林boke

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

14.8 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2017 AI 技术盘点关键进展趋势

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2017年AI技术盘点：关键进展与趋势.docx
链接地址：https://www.taowenge.com/p-73269427.html