2017年AI技术盘点:关键进展与趋势.docx





《2017年AI技术盘点:关键进展与趋势.docx》由会员分享,可在线阅读,更多相关《2017年AI技术盘点:关键进展与趋势.docx(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2017年AI技术盘点:关键进展与趋势 /*版权声明 可以任意转载 转载时请标明文章原始出处以及信息.*/ 张俊林 本文2018年度发表于?程序员?杂志1月刊 人工智能最近三年度开展如火如荼 学术界、工业界、投资界各方一起发力 硬件、算法与数据共同开展 不仅仅是大型互联网公司 包括大量创业公司和传统行业的公司都开场涉足人工智能。2017年度人工智能行业延续了2016年度蓬勃开展的势头 那么在过去的一年度里AI行业从技术开展角度有哪些重要进展 将来又有哪些开展趋势 本文从大众比拟关注的假设干领域作为代表 来归纳AI领域一些方向的重要技术进展。 从AlphaGo Zero到Alpha Zero 迈
2、向通用人工智能的关键一步 DeepMind携深度增强学习利器总是可以给人带来震撼性的技术创新 2016年度横空出世的AlphaGo彻底粉碎了普遍存在的“围棋领域机器无法战败人类最强手的执念 但是毕竟李世石还是赢了一局 不少人对于人类翻盘大逆转还是抱有祈望 紧接着Master通过60连胜众多顶尖围棋高手彻底浇灭了这种期待。2017年度AlphaGo Zero作为AlphaGo二代做了进一步的技术晋级 把AlphaGo一代虐得体无完肤 这时候人类已经没有资格上场对局了。2017年度底AlphaGo的棋类游戏通用版本Alpha Zero问世 不仅仅围棋 对于国际象棋、日本将棋等其他棋类游戏 Alph
3、a Zero也以压倒性优势战胜包括AlphaGo Zero在内的目前最强的AI程序。 图1 AlphaGo Zero的自己对弈及训练经过 AlphaGo Zero从技术手段上以及AlphaGo相比并未有本质上的改良 主体仍然是MCST蒙特卡洛搜索树加神经网络的构造和深度增强学习训练方法 但是技术实现上简单优雅很多 参考图1 。主要的改动包含两处 一处是将AlphaGo的两个预测网络 策略网络以及价值网络 合并成一个网络 但是同时产生两类所需的输出 第二处是网络构造从CNN构造晋级为ResNet。虽讲如此 AlphaGo Zero给人带来的触动以及启发丝毫不比AlphaGo少 主要原因是Alph
4、aGo Zero完全放弃了从人类棋局来进展下棋经历的学习 直接从一张白纸开场通过自己对弈的方式进展学习 并仅仅通过三天的自己学习便获得了远超人类千年度积累的围棋经历。 这引发了一个之前一般人很期待但是同时又认为很难完成的问题 机器可以不依赖有监视方式的训练数据或极少的训练数据自己进化与学习吗 假如真的可以做到这一点 那么是否意味着机器会快速进化并淘汰人类 第二个问题甚至会引起局部人的恐慌。但是其实这个问题本身问的就有问题 因为它做了一个错误的假设 AlphaGo Zero是不需要训练数据的。首先 AlphaGo Zero确实做到了通过自己对弈的方式进展学习 但是仍然需要大量训练数据 无非这些训
5、练数据是通过自己对弈来产生的。而且更根本的一点是应该意识到 对于AlphaGo Zero来讲 其本质其实还是MCST蒙特卡洛树搜索。围棋之所以看着难度大难以克制 主要是搜索空间实在太大 单纯靠暴力搜索完全不可行。假如我们假设如今有个机器无限强大 可以快速遍历所有搜索空间 那么其实单纯使用MCST树搜索 不依靠机器学习 机器也能到达完美的博弈状态。AlphaGo Zero通过自己对弈和深度增强学习主要到达了可以更好地评估棋盘状态以及落子质量 优先选择走那些赢面大的博弈途径 这样可以舍弃大量的劣质途径 进而极大减少了需要搜索的空间 自己进化主要表达在评估棋面状态越来越准。而之所以可以通过自己对弈产
6、生大量训练数据 是因为下棋是个规那么定义很明晰的任务 到了一定状态就可以赢或输 无非这种最终的赢或输来得晚一些 不是每一步落子就能看到的 现实生活中的任务是很难到达这一点的 这是为何很多任务仍然需要人类提供大量训练数据的原因。假如从这个角度考虑 就不会错误地产生以上的疑虑。 Alpha Zero相对AlphaGo Zero那么更进一步 将只能让机器下围棋拓展到可以进展规那么定义明晰的更多棋类问题 使得这种技术往通用人工智能的路上迈出了重要一步。其技术手段以及AlphaGo Zero根本是一样的 只是去除掉所有跟围棋有关的一些处理措施以及技术手段 只告诉机器游戏规那么是什么 然后使用MCST树搜
7、索 深度神经网络并结合深度增强学习自己对弈的统一技术方案以及训练手段解决一切棋类问题。 从AlphaGo的一步步进化策略可以看出 DeepMind正在考虑这套扩展技术方案的通用性 使得它可以使用一套技术解决更多问题 尤其是那些非游戏类的真实生活中有现实价值的问题。同时 AlphaGo系列技术也向机器学习从业人员展示了深度增强学习的强大威力 并进一步推动了相关的技术进步 目前可以以看到深度增强学习在更多领域应用的实例。 GAN 前景广阔 理论与应用极速开展中 GAN 全称为Generative Adversarial Nets 直译为“生成式对抗网络。GAN作为生成模型的代表 自2021年度被I
8、an Goodfellow提出后引起了业界的广泛关注并不断涌现出新的改良模型 深度学习泰斗之一的Yann LeCun高度评价GAN是机器学习界近十年度来最有意思的想法。 Ian Goodfellow提出的最初的GAN尽管从理论上证明了生成器以及判别器在多轮对抗学习后可以到达平衡态 使得生成器可以产生理想的图像结果。但是实际上 GAN始终存在训练难、稳定性差和模型崩塌 Model Collapse 等问题。产生这种不匹配的根本原因其实还是对GAN背后产生作用的理论机制没有探究清楚。 过去的一年度在怎样增加GAN训练的稳定性及解决模型崩塌方面有了可喜的进展。GAN本质上是通过生成器以及判别器进展对
9、抗训练 逼迫生成器在不知晓某个数据集合真实分布Pdata的情形下 通过不断调整生成数据的分布P去拟合逼近这个真实数据分布Pdata 所以计算当前训练经过中两个分布Pdata以及P的间隔 度量标准就很关键。Wasserstein GAN的敏锐地指出了 原始GAN在计算两个分布的间隔 时采用的是Jensen-Shannon Divergence JSD 它本质上是KL Divergence KLD 的一个变种。JSD或KLD存在一个问题 当两个分布交集很少时或在低维流形空间下 判别器很容易找到一个判别面将生成的数据以及真实数据区分开 这样判别器就不能提供有效的梯度信息并反向传导给生成器 生成器就很
10、难训练下去 因为缺乏来自判别器指导的优化目的。Wasserstein GAN提出了使用Earth-Mover间隔 来代替JSD标准 这很大程度上改良了GAN的训练稳定性。后续的Fisher GAN等模型又对Wasserstein GAN进展了进一步的改良 这些技术陆续改善了GAN的训练稳定性。模型崩塌也是严重制约GAN效果的问题 它指的是生成器在训练好之后 只能产生固定几个形式的图片 而真实的数据分布空间其实是很大的 但是模型崩塌到这个空间的假设干个点上。最近一年度针对这个问题也提出了比方标签平滑、Mini-Batch判别器等启发式方法来解决生成器模型崩塌的问题并获得了一定效果。 尽管在理论层
11、面 针对GAN存在的问题 业界在2017年度提出了不少改良方法 对于GAN的内在工作机制也有了更深化的解析 但是很明显目前仍然没有理解其本质工作机制 这块还需要将来更有洞察力的工作来增进我们对GAN的理解。 图2 使用CycleGAN将照片中的猫换成狗 GAN具备非常广泛的应用场景 比方图像风格转换、超分辨率图像构建、自动黑白图片上色、图片实体属性编辑 例如自动给人像增加胡子、切换头发颜色等属性变换 不同领域图片之间的转换 例如同一个场景春天的图片自动转换为秋天的图片 或白天风光自动转换为夜间的风光 甚至是图像实体的动态交换 比方把一幅图片或视频中出现的猫换成狗 参考图2 。 在推动GAN应用
12、方面 2017年度有两项技术是非常值得关注的。其中一个是CycleGAN 其本质是利用对偶学习并结合GAN机制来优化生成图片的效果的 采取类似思想的包括DualGAN和DiscoGAN等 包括后续的很多改良模型例如StarGAN等。CycleGAN的重要性主要在于使得GAN系列的模型不再局限于监视学习 它引入了无监视学习的方式 只要准备两个不同领域的图片集合即可 不需要训练模型所需的两个领域的图片一一对应 这样极大扩展了它的使用范围并降低了应用的普及难度。另外一项值得关注的技术是英伟达采取“渐进式生成技术道路的GAN方案 这项方案的引人之处在于使得计算机可以生成1024*1024大小的高清图片
13、 它是目前无论图像明晰度还是图片生成质量都到达最好效果的技术 其生成的明星图片几乎可以到达以假乱真的效果 参考图3 。英伟达这项由粗到细 首先生成图像的模糊轮廓 再逐步添加细节的思想其实并非十分新颖的思路 在之前的StackGAN等很多方案都采用了类似思想 它的独特之处在于这种由粗到细的网络构造是动态生成的而非事先固定的静态网络 更关键的是产生的图片效果十分好。 图3 英伟达提出渐进生成式GAN产生的高清头像图片 总而言之 以GAN为代表的生成模型在2017年度无论是理论根底还是应用理论都产生了很大的技术进展 可以预计的是它会以越来越快的速度获得研发人员的推动 并在不远的将来在各个需要创造性的
14、领域获得广泛应用。 Capsule 有望取代CNN的新构造 Capsule今年度才以论文的形式被人称“深度学习教父的Hinton老先生发表出来 而且论文一出来就成为研究人员关注的焦点 但是其实这个思想Hinton已经深化考虑了很久并且之前在各种场合宣传过这种思路。Hinton一直对CNN中的Pooling操作意见很大 他曾经吐槽讲 “CNN中使用的Pooling操作是个大错误 事实上它在实际使用中效果还不错 但这其实更是一场灾难。那么 MaxPooling有什么问题值得Hinton对此深恶痛绝呢 参照图4所示的例子可以看出其原因。 图4 CNN图像分类 在上面这张图中 给出两张人像照片 通过C
15、NN给出照片所属类别及其对应的概率。第一张照片是一张正常的人脸照片 CNN可以正确识别出是“人类的类别并给出归属概率值0.88。第二张图片把人脸中的嘴巴以及眼睛对调了下位置 对于人来讲不会认为这是一张正常人的脸 但是CNN仍然识别为人类而且置信度不降反增为0.90。为什么会发生这种以及人的直觉不符的现象 这个锅还得MaxPooling来背 因为MaxPooling只对某个最强特征做出反响 至于这个特征出如今哪里和特征之间应该维持什么样的合理组合关系它并不关心 总而言之 它给CNN的“位置不变性太大自由度 所以造成了以上不符合人类认知的判断结果。 在Capsule的方案中 CNN的卷积层保存 M
16、axPooling层被拿掉。这里需要强调的是 Capsule本身是一种技术框架 并不单单是详细的某项技术 Hinton论文给出的是最简单的一种实现方法 完全可以在遵循其技术思路情况下创造全新的详细实现方法。 要理解Capsule的思路或对其做一个新的技术实现其实也不困难 只要理解其中的几个关键环节就能实现此目的。假如用一句话来讲明其中的关键点的话 可以用“一个中心 两个根本点来概括。 这里的一个中心 指的是Capsule的核心目的是祈望将“视角不变性才能引入图像处理系统中。所谓“视角不变性 指的是当我们给3D物体拍照片的时候 镜头所对的一定是物体的某个角度看上去的样子 也就是2D照片反映3D物
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2017 AI 技术 盘点 关键 进展 趋势

限制150内