基于VGG和LSTM网络的视觉问答系统研究与应用.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于VGG和LSTM网络的视觉问答系统研究与应用.docx》由会员分享,可在线阅读,更多相关《基于VGG和LSTM网络的视觉问答系统研究与应用.docx(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于VGG和LSTM网络的视觉问答系统研究与应用摘 要随着互联网的发展,人类可以获得的数据信息量呈指数型增长,我们能够从数据中获得的知识也大大增多,人工智能的研究和应用再一次焕发活力。随着人工智能应用的不断发展,近年来,产生了有关视觉问答(Visual Question answering,VQA)的研究,并发展成为人工智能应用的一大热门问题。视觉问答任务是一个多领域、跨学科的任务,以一张图片和一个关于图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出1。简单来说,VQA就是对给定的图片进行问答。本设计结合当前VQA的研究现状,基于深度学习理论,研究了VGG+LSTM网
2、络的视觉问答系统,即用VGG网络对图片进行特征提取,用LSTM网络对问题进行特征提取和系统输出答案的特征生成。最终将这一复杂的人工智能系统,转化为一个多分类问题,实现了对一张图片用自然语言句子进行提问,然后用自然语言的一个单词来回答。本设计的主要创新点是将深度学习领域内的计算机视觉和自然语言处理两个方向进行多模态融合2,将系统的输出转化为一个分类问题,达到了对图片进行一问一答的效果。关键词: VQA;视觉问答;VGG网络;LSTM网络;深度学习;人工智能Research And Application Of Visual Question Answering System Based On V
3、GG And LSTM NetworkABSTRACTWith the development of the Internet, the amount of data available to human beings has increased exponentially, and the knowledge we can obtain from the data has also increased greatly. The research and application of artificial intelligence have been revitalized again. Al
4、ong with the continuous development of artificial intelligence application, the research on Visual Question Answering has appeared in recent years and has developed into a hot spot. A VQA task is a multi-domain, interdisciplinary task, with a picture and a natural language question about the free an
5、d open form of pictures as input and the generation of a natural language answer as output. Briefly, VQA is a question-and-answer session on a given picture. This design combines the current research status of VQA, based on the theory of deep learning, to study the VQA system of VGG+LSTM network. It
6、 refers to use VGG network to extract the features of pictures and use LSTM network to extract the features of questions and generate the features of system output answers. It finally transforms this complex artificial intelligence system into a multi-classification problem, realizing the way of que
7、stioning a picture in a natural language sentence, and answering it in a natural language word. The main innovation of this design is to combine the two directions of Computer Vision and Natural Language Processing in the field of deep learning and transform the output of the system into a classific
8、ation problem, and achieve the question-and-answer effect.Key words: VQA;Visual q&a;VGG-Net;LSTM-Net;Deep learning;目 录1.绪论11.1 视觉问答系统11.2 VQA背景和研究现状31.2.1 VQA发展背景和研究意义31.2.2 VQA的发展历程和研究现状31.3 论文结构安排52. 相关工作准备72.1 图像特征提取72.2 文本特征提取82.3 输出分类器123. VQA数据集134. VGG+LSTM网络的视觉问答系统154.1 数据预处理154.1.1 图像数据归约15
9、4.1.2 文本数据处理154.2 VQA系统结构164.3 系统实现过程与验证结果174.3.1 系统运行环境174.3.2 系统参数选择174.3.3 系统评价标准和验证结果184.4 系统测试结果185. 总结和展望225.1 论文总结225.2 VQA的未来发展展望22参考文献23附 录25致 谢301. 绪论1956年夏,在美国达特茅斯学院,麦卡锡、明斯基等科学家开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(Artificial Intelligence,简称AI)”的概念,标志着人工智能学科的诞生。在过去的六十多年内,人工智能的发展历程跌宕起伏。从上世纪的九十年起,计算机
10、领域进入高速发展阶段,人工智能同样在算法(机器学习、深度学习)、算力(云计算)和算料(大数据)等“三算”方面取得了重要突破,使得人工智能在技术层面从“不能用”到“可以用”出现拐点。随着人工智能的不断发展,近年来,产生了视觉问答系统(visual question answering,VQA)这一课题,并且成为人工智能研究的一大热门问题。通俗的讲,一个合格的VQA系统是将图片和关于图片的内容信息的问题共同作为系统的输入,然后系统结合图片和问题的的信息特征,产生一条符合人类逻辑思维的自然语言作为输出。针对一张特定的图片,如果想要机器以一条自然语言句子来回答关于该图片的某一个特定问题,则需要让机器对
11、图片的内容、问题的含义和意图以及日常的逻辑思维和常识都有一定的理解能力。故就其任务本身而言,这是一个多学科,跨领域的研究问题。1.1 视觉问答系统视觉问答系统的定义:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是对给定的图片进行问答1。近来,开发出一个可以回答任意自然语言提问的计算机视觉系统可以说是一个充满挑战的目标,VQA的前身就是问答系统(Question Answering System, QA),问答系统同样也是人工智能和自然语言处理领域的热门研究问题。人工智能的研究过程就是将一个强AI的问题划分为
12、若干个弱AI的问题,对于VQA这样一个复杂困难、涉及多学科的问题,我们可以将这个复杂问题划分为图像识别和文本语义分析两个弱AI问题,于是本设计的VQA系统就是将深度学习(Deep Learning)领域内计算机视觉(CV)和自然语言处理两大研究方向进行了融合。一个成功的VQA系统应当是什么样子?接下来我们通过一张图片,来进一步理解VQA系统,以及VQA系统的主要解决问题。如图1-1图1-1 VQA问题描述图上图是理解VQA问题描述的经典例图,图中有一个人物主体和两条与图片相关的自然语言问问题,首先分析第一个问题,问图中女性的眼睛是什么颜色?对于这条问题,我们首先在NLP层面理解问题,可以提取到
13、两个关键的单词eyes和color;然后在CV层面提取图片的特征,针对图像的像素值,纹理特征或者卷积特征(convolution feature)等够准确找到眼睛的位置信息,并且能够提取到该区域一系列特征,包括颜色、纹理、形状等特征和空间关系等;最后根据NLP提问的颜色提问,给出对应的特征,然后由系统生成对应的自然语言词句作为回答。对于第二个问题,胡子的是由什么组成的?这个问题对于系统就要有更高的逻辑思维能力和常识意识。很明显,通过人为逻辑思维理解判断,问题并不是要问胡子的正常构成成分,而是希望得到的回答是香蕉,即在胡子的位置是什么物体?因为女性一般情况下是没有胡子的。所以,系统要有一定的常识
14、判断能力,再根据图像特征提取到图像的空间关系,文本语义信息处理,最后回答出正确的答案。1.2 VQA背景和研究现状1.2.1 VQA发展背景和研究意义随着自然语言处理技术的发展,许多研究逐渐转向了复杂、更智能化的问题。2015年,Aishwarya Agrawal和Devi Parikh等人发表文章,首次提出了VQA问题,并且给定了关于图像的图像和自然语言问题,任务是提供准确的自然语言答案。他们提供了一个包含0.25M大小的图像包,0.76M大小的问题包和10M大小的答案包的数据集,以及许多VQA的基线和方法,并与人类表现进行了比较。作为一种区别于传统卷积神经网络对图片的处理(目标检测、图像分
15、割、场景识别等),VQA更侧重与一种对图像的描述,即通过自然语言处理技术,将系统加入了更高层次的逻辑思维能力和常识思考能力。所以,VQA也进一步的促进了人机交互能力和强AI问题的发展。对于计算机多媒体领域的发展同样起到促进作用,对于海量图像文本信息检索和人工智能基础测试和图灵测试的发展也有帮助。在商业上,该系统的实现直接能够让视觉受损的用户受益,同样也可能改变传统的儿童智能早教行业。1.2.2 VQA的发展历程和研究现状(1)联合嵌入法:Joint embedding approaches来源于深度学习的NLP的发展。相较于看图说话,VQA则多了一步在两个模态间的进一步推理过程。一般的,图像表
16、示(image representations)用预训练的CNN模型,文本表示(Text representations)用预训练的词嵌入。词嵌入就是将单词映射到空间中,距离来度量语义相似度,然后将嵌入送到RNN中来处理语法和句子。具体的实现方法为:Malinowski et al等人提出了“Neural-Image-QA”模型3,文本特征提取用加入了LSTM网络的RNN来处理,图像特征用预训练的CNN来处理,然后将两个特征同时输入到第一个编码器LSTM中,再将生成的向量输入到第二个解码器LSTM中,最后会生成一个变化长度的答案,每次迭代产生一个单词,知道产生分词为止。结构如图1-2:图1-2
17、 联合嵌入法框架图联合嵌入法非常直接,是目前大多数VQA的基础,除了上边介绍的框架之外,还有许多使用联合嵌入法的框架,基本都是基于预训练CNN来提取图片特征和RNN来提取文本特征,只是在多模融合和答案生成时有所不同。目前该方法还有很大的提升空间。(2)注意力机制:Attention mechanisms上面提出联合嵌入法的模型,在视觉特征输入这里,都是提取的全局特征作为输入,会产生一些无关或者噪声信息来影响输出,而注意力机制就是利用局部特征来解决这个问题。注意力机制能够改善提取全局特征的模型性能4。最近的研究表明,注意力机制尽管能够提高VQA的总体精度,但是对于二值类问题却没有任何提升,一种假
18、说是二值类问题需要更长的推理,这类问题的解决还需要进一步研究。(3)合成模型:Compositional Models这种方法是对不同模块的连接组合,优点是可以更好的进行监督。一方面,能够方便转换学习,另一方面能够使用深度监督“deep supervision”。这里主要讨论的合成模型有两个,一个是Neural Module Networks (NMN),另一个是Dynamic Memory Networks (DMN)。Andreas et al等人提出了Neural Module Networks (NMN) 5,NMN的贡献在于对连续视觉特征使用了逻辑推理,而替代了离散或逻辑预测。模型的
19、结构框架如图1-3:图1-3 合成模型模型的输入和输出一共有三类:图像,图像注意力区域,标签。该方法比传统方法能更好的进行推理,处理更长的问题。但是局限性在于问题解析这里出现了瓶颈,此外,模块结合采用问题简化的方式,这就忽略了一些语法线索。(4)使用外部知识的模型:Models using external knowledge basesVQA在理解图像内容时,经常需要一些非视觉的先验信息,涉及范围可以从常识到专题,目前已有的外部知识库包括:DBpedia、Freebase、YAGO、OpenIE、NELL、WebChild、ConceptNet。Wang et al等人提出了基于DBpedi
20、a6的VQA网络命名为“Ahab”,首先用CNN提取视觉概念,然后结合DBpedia中相似的概念,再学习image-question到查询的过程,通过总结查询结果来获得最终答案。还有一种基于该方法的改进模型,叫FVQA。是Wu et al等人提出了一种利用外部知识的联合嵌入法,首先用CNN提取图像的语义属性,然后从DBpedia检索相关属性的外部知识,将检索到的知识用Doc2Vec嵌入到词向量中,最后将词向量传入到LSTM网络,对问题进行解释并生成答案。但这种方法同样存在性能和缺陷,一个问题就是这些模型的问题类型都有限。1.3 论文结构安排第一章,主要介绍视觉问答系统的定义和发展背景,以及VQ
21、A目前的发展前景和在未来商业上的潜在应用价值。最后总结了一下当前VQA的研究过程中,目前常用的四种研究方法。第二章,主要介绍本论文系统需要使用的相关技术,包括图像和问题的特征提取,以及最后系统生成回答的方法。其中重点讲解VGG和LSTM两个神经网络的原理和运用。第三章,介绍当前的VQA研究过程中主要使用的数据集,并且详细介绍本文中使用的数据集。第四章,主要介绍本论文中VQA系统的框架结构和训练验证结果。主要采用VGG+LSTM作为特征提取网络,最后使用softmax分类器作为系统的输出。在训练过程中数据的预处理,参数的选择和调节以及最后的系统性能的评价方案。第五章,总结本论文的主要工作,以及对
22、未来VQA发展进行展望。2. 相关工作准备本文采取VQA的研究方法是基于上边所介绍的联合嵌入法,同样是用预训练的CNN网络来提取图像的特征,使用RNN网络来进行文本的特征提取,然而当前并没有一个科学准确地评价自然语言句子精准度的标准,因此我们只能在有技术方法中,用一个单词作为VQA的输出答案,这样就可以把视觉问答任务转换成一个多分类问题,从而可以利用现有的准确度评价标准来度量系统性能。我们在开始构建模型框架之前,我们首先介绍用来进行图像特征提取的VGG网络和进行文本特征提取的LSTM网络,以及最后用来产生答案的分类7。2.1 图像特征提取卷积神经网络(CNN)最初设计被用来做图片分类工作,近来
23、也被用来做图像分割,图像风格迁移以及其他计算机视觉的工作;当然,也有被用来做NLP的例子。卷积神经网络是最能解释深度学习的模型之一,因为我们可以将它的表达特征可视化来理解它可能学习到的东西。VGG是Oxford的Visual Geometry Group的组提出的。该网络是在ILSVRC 2014上的首次被提出,主要工作是为了证明在保证模型具有相同大小的感受野的情况下,增加网络的深度能够在一定程度上提高网络最终的性能。常用到的VGG网络有两种,分别是VGG-16和VGG-19,两个网络并没有本质上的区别,只是网络深度不一样,VGG-16网络结构如图2-1。图2-1 VGG-16模型结构在用来处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 VGG LSTM 网络 视觉 问答 系统 研究 应用
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内