《知识图谱简介.pptx》由会员分享,可在线阅读,更多相关《知识图谱简介.pptx(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、知识图谱简介知识图谱简介背景介绍Web1.0时代Web2.0时代Web3.0时代文档互联知识互联数据互联 随着Web技术的不断演进与发展,人类先后经历了以文档互联为主要特征的“Web1.0”时代与数据互联为特征的“Web2.0”时代,正在迈向基于知识互联的崭新“Web3.0”时代。知识互联的目标是构建一个人与机器都可理解的万维网,使得人们的网络更加智能化。然而,由于万维网上的内容多源异质,组织结果松散,给大数据环境下的知识互联带来了极大的挑战。因此,人们需要根据大数据环境下的知识组织原则,从新的视角去探索既符合网络信息资源发展变化又能适应用户认知需求的知识互联方法,从更深层次上揭示人类认知的整
2、体性与关联性。知识图谱以其强大的语义处理能力与开放互联能力,可为万维网上的知识互联奠定扎实基础。使Web3.0提出的“知识之网”成为了可能。u知识图谱并非是一个全新概念,早在2006年,就提出了语义网的概念,呼吁推广、完善使用本体模型来形式化表达数据中的隐含语义,RDF模式和万维网本体语言(OWL)的形式化模型就是基于上述目的产生的。u随后掀起了一场语义网研究的热潮,知识图谱技术的出现正是基于以上相关研究,是对语义网标准和技术的一次扬弃与升华。u知识图谱于2012年5月17日被Google正式提出,其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。123456知识图谱应用知识图谱
3、适用场景知识图谱关键技术知识库介绍知识图谱架构知识图谱定义目录01知识图谱定义知识图谱定义Web中有多种类型的事物中国北京美国华盛顿英国事物间有多种类型的连接知识图谱在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。知识类型实体:指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物由具体事物组成,此指实体。如图中的“中国”、“美国”、“日本
4、”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。语义类(概念):具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。内容:通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达。属性(值):从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。如图中的“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值,例如960万平方公里等。关系:形式化为一个函数,它把k个点映射到一个布尔值。在知识图谱上,关系则是一个把k个图节点(实体、语义类
5、、属性值)映射到布尔值的函数。通用表示方式知识图谱架构知识图谱架构02知识图谱逻辑架构从逻辑上可以划分为2个层次:数据层和模式层。在知识图谱的数据层,知识以事实为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,所有数据构成庞大的实体关系网络。模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层。知识图谱体系架构知识图谱的体系架构是其指构建模式结构,如上图所示。其中虚线框内的部分为知识图谱的构建过程,也包含知识图谱的更新过程。知识图谱构建从最原始的数据出发,采用一系列自动或者半自动的技术手段,从原始数据库
6、和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这一过程包含以上四个阶段,每一次更新迭代均包含这四个阶段。知识抽取知识表示知识融合知识推理知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。自顶向下:指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。自底向上:指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的Knowledge Vault和微软的Sato
7、ri知识库。现在也符合互联网数据内容知识产生的特点。知识图谱构建方式知识库介绍知识库介绍03(a)“姚明出生于上海”(b)“姚明的身高是226cm”(c)“姚明是篮球运动员”以上就是一条条知识,把大量的知识汇聚起来就成为了知识库。我们可以从wikipedia,百度百科等百科全书获取到大量的知识。但是,这些百科全书的知识是由非结构化的自然语言组建而成的,这样的组织方式很适合人们阅读但并不适合计算机处理。知识库的表示形式 为了方便计算机的处理和理解,我们需要更加形式化、简洁化的方式去表示知识,那就是三元组。“姚明出生于中国上海”可以用三元组表示为(Yao Ming,PlaceOfBirth,Sha
8、nghai)。这里我们可以简单的把三元组理解为(实体entity,实体关系relation,实体entity)。如果我们把实体看作是结点,把实体关系(包括属性,类别等等)看作是一条边,那么包含了大量三元组的知识库就成为了一个庞大的知识图。上海中国姚明226cm男出生地国籍身高性别知识图示例:图中蓝色方块表示实体,橙色椭圆包括属性值,它们都属于知识库的实体;蓝色直线表示关系,橙色直线表示属性,它们都统称为知识库的实体关系,都可以用三元组刻画实体和实体关系。目前已有的大规模知识库:Freebase知识库是Google知识图谱的重要组成部分。Freebase中的数据主要由人工构建,另外一部分则主要来
9、源于维基百科、IMDB、Flickr等网站或者语料库。截止到2014年底,Freebase已经包含了6800万个实体,10亿条关系信息,超过24亿条事实三元组信息。Wikidata是Wikipedia、Wikivoyage、Wikisource中结构化数据的中央存储器,并支持免费使用。Wikidata中的数据主要以文档形式储存,目前已包含了超过1700万个文档。DBpedia是从多种语言的维基百科中抽取结构化信息,提供给在线网络应用、社交网站以及其他在线知识库,所以包含了众多领域的实体信息。截止至2014年底,DBpedia中的事实三元组数量已经超过了30亿条。同时自动与维基百科保持同步。Fr
10、eebaseWikidataDBpediaYAGO整合了维基百科、WordNet以及GeoNames等数据源,特别是将维基百科中的分类体系与WordNet的分类体系进行了融合,构建了一个复杂的类别层次结构体系。包含了超过1000万的实体以及超过1.2亿的事实。YAGO开放链接知识库IMDB是一个关于电影演员、电影、电视节目、电影明星、以及电影制作的资料库。截至2012年2月,IMDB共收集了2132383部作品资料和4530159名人物资料。其中资料是按类型机型组织的。对于一个具体的条目,又包含了详细的元信息。MusicBrainz是一个结构化的音乐维基百科,致力于收藏所有的音乐元数据,并向大
11、众用户开放。MusicBrainz可通过数据库或Web服务两种方式将数据提供给社区。ConceptNet是一个语义知识网络,主要由一系列的代表概念的结点构成,这些概念将主要采用自然语言或短语的表达形式,通过相互连接建立语义联系。IMDBMusicBrainzConceptNet垂直行业知识库知识图谱关键技术知识图谱关键技术04知识抽取知识表示知识融合知识推理解决知识质量良莠不齐、不同数据源的知识重复、知识间关联不够明确等问题。主要面向开放的数据连接,通过自动化的技术抽取可用的知识单元。知识表示是指把知识客体中的知识因子与知识关联起来,便于人们识别和理解知识。在已有的知识库基础上进一步挖掘隐含知
12、识,从而丰富、扩展知识库。关键技术关键技术 知识抽取主要是面向开放的链接数据,通常典型的输入是自然语言文本或者多媒体内容文档(图像或者视频)等。然后通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性三个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。4.1 知识抽取实体抽取关系抽取属性抽取 实体抽取也称为命名实体学习(named entity learning)或命名实体识别(named entity recognition),指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、
13、准确率、召回率等将直接影响到知识图谱构建的质量。因此,实体抽取是知识抽取中最为基础与关键的一步。实体抽取的方法分为三种:(a)基于规则与词典的方法;(b)基于统计机器学习的方法;(c)面向开放域的抽取方法。实体抽取(a)早期的实体抽取是在限定文本领域、限定语义单元类型的条件下进行的,主要采用的是基于规则与词典的方法,例如使用已定义的规则,抽取出文本中的人名、地名、组织机构名、特定时间等实体。然而,基于规则模板的方法不仅需要依靠大量的专家来编写规则或模板,覆盖的领域范围有限,而且很难适应数据变化的新需求。(b)鉴于基于规则与词典实体的局限性,为具更有可扩展性,相关研究人员将机器学习中的监督学习算
14、法用于命名实体的抽取问题上。单纯的监督学习算法在性能上不仅受到训练集合的限制,并且算法的准确率与召回率都不够理想。相关研究者认识到监督学习算法的制约性后,尝试将监督学习算法与规则相互结合,取得了一定的成果。(c)针对如何从少量实体实例中自动发现具有区分力的模式,进而扩展到海量文本去给实体做分类与聚类的问题。例如基于无监督学习的开放域聚类算法,其基本思想是基于已知实体的语义特征去搜索日志中识别出命名的实体,然后进行聚类。(1)基于统计机器学习方法:KNN算法+CRF模型,实现对文本数据中包含实体的识别。字典辅助下的最大熵算法,取得实体抽取准确率和召回率较高。(2)开放域的信息抽取方法:层次结构的
15、命名实体分类体系,将网络中所有的命名实体划分为150个分类。将实体类别进行分类,并基于CRF模型进行实体边界识别,最后采用自适应感知机算法实现了对实体的自动分类。(3)抽取具有相似特征实体,从而进行分类和聚类:根据已知的实体实例进行特征建模,利用该模型对处理海量数据集得到的新的命名实体列表,针对新实体建模,迭代地生成实体标注语料库。利用无监督学习算法,事先不给出实体分类,而是基于实体的语义特征从搜索日志中识别出命名实体,然后采用聚类算法对识别出的实体对象进行聚类。关系抽取的目标是解决实体间语义链接的问题,早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后,实体间的关系模型
16、逐渐替代了人工预定义的语法与规则。但是仍需要提前定义实体间的关系类型。针对这个问题,提出了两种方法。(a)开放式实体关系抽取;(b)基于联合推理的实体关系抽取。关系抽取(1)基于统计机器学习方法:利用自然语言中的词法、句法以及语义特征进行实体关系建模,通过最大熵方法实现了不借助规则硬编码的实体关系抽取。借助知网提供的本体知识库构造语义核函数,在开放数据集上对实体关系进行抽取。(2)基于Bootstrap算法的半监督学习方法,自动进行实体关系建模。基于Bootstrap算法思想,提出协同训练方法,引入N-Gram特征进行协同训练,实现了对弱监督关系抽取模型的强化。基于无监督学习方法,对实体间的雇
17、佣关系、位置关系以及生产关系等多元关系进行精准识别。关系抽取的几种具体方法(3)面向开放域的方法(无须预定义实体关系类型):提出了面向开放域的信息抽取方法框架(OIE),并发布了基于自监督学习方式的开放信息抽取原型系统。该系统采用少量人工标记数据作为训练集,得到一个实体关系分类模型,再依据该模型对开放数据进行分类,依据分类结果训练朴素贝叶斯模型来识别“实体-关系-实体”三元组。在OIE的基础上,发布了面向开放域信息抽取的WOE系统。该系统能够利用维基百科网页信息框(infobox)提供的属性信息,自动构造实体关系训练集。引入语法限制条件和字典约束,采用先识别关系指示词,然后再对实体进行识别的策
18、略。引入上下文分析技术,提出了一个支持非动词性关系抽取的OILLIE系统。(4)结合机器学习算法与开放域方法:基于条件随机场的关系抽取模型(H-CRF),在目标数据集中关系数量不大且有预先定义好的实体关系分类模型可用的情况下,采用传统机器学习算法进行关系抽取,而对于没有预先定义好的实体关系模型或者关系数量过多的情况,则采用开放域关系抽取方法。(5)当前OIE系统在关系抽取方面存在2个主要问题:研究的重点都是如何提高关系抽取的准确率和召回率,很少考虑现实生活中普遍存在的高阶多元实体关系。所采用的研究方法大多只关注发掘词汇或词组之间的关系模式,而无法实现对隐含语义关系的抽取。(6)针对上述问题提出
19、的方法:采用N元关系模型对OIE系统进行改进,提出KRAKEN模型。采用后期关系推理的方法,提高OIE系统对隐含实体关系的发现能力。属性提取的任务是为每个本体语义类构造属性列表(如城市的属性包括面积、人口、所在国家、地理位置等),而属性值提取则为一个语义类的实体附加属性值。属性和属性值的抽取能够形成完整的实体概念的知识图谱维度。常见的属性和属性值抽取方法包括从百科类站点中提取,从垂直网站中进行包装器归纳,从网页表格中提取,以及利用手工定义或自动生成的模式从句子和查询日志中提取。可采用以下两种方法。(a)将人物属性抽取问题转化为实体关系抽取问题,采用支持向量机算法实现了人物属性抽取与关系预测模型
20、;(b)基于规则和启发式算法的属性抽取算法,得到了扩展性良好的本体知识库。属性抽取 传统的知识表示方法主要是以RDF(Resource Deion Framework资源描述框架)的三元组SPO(subject,property,object)来符号性描述实体之间的关系。这种表示方法通用简单,受到广泛认可,但是其在计算效率、数据稀疏性等方面面临诸多问题。近年来,以深度学习为代表的以深度学习为代表的表示学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。4.2 知识表示
21、1.应用场景分布式表示旨在用一个综合的向量来表示实体对象的语义信息,是一种模仿人脑工作的表示机制,通过知识表示而得到的分布式表示形式在知识图谱的计算、补全、推理等方面将起到重要的作用:(a)语义相似度计算。由于实体通过分布式表示而形成的是一个个低维的实值向量,所以,可使用熵权系数法、余弦相似性等方法计算它们间的相似性。这种相似性刻画了实体之间的语义关联程度,为自然语言处理等提供了极大的便利。(b)链接预测。通过分布式表示模型,可以预测图谱中任意两个实体之间的关系,以及实体间已存在的关系的正确性。尤其是在大规模知识图谱的上下文中,需要不断补充其中的实体关系,所以链接预测又被称为知识图谱的补全。2
22、.代表模型(a)距离模型,其基本思想是:首先将实体用向量进行表示,然后通过关系矩阵将实体投影到与实体关系对的向量空间中,最后通过计算投影向量之间的距离来判断实体间已存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵,使得协同性较差。(b)单层神经网络模型:针对上述提到的距离模型中的缺陷,提出了采用单层神经网络的非线性模型(SLM),模型为知识库中每个三元组(h,r,t)定义了评价函数。单层神经网络模型的非线性操作虽然能够进一步刻画实体在关系下的语义相关性,但在计算开销上却大大增加。(c)双线性模型又叫隐变量模型,模型为知识库中每个三元组定义的评价函数。双线性模型主要是通过基于实体间关
23、系的双线性变换来刻画实体在关系下的语义相关性。模型不仅形式简单、易于计算,而且还能够有效刻画实体间的协同性。2.代表模型(d)神经张量模型,其基本思想是:在不同的维度下,将实体联系起来,表示实体间复杂的语义联系。模型为知识库中的每个三元组(h,r,t)定义了评价函数。神经张量模型在构建实体的向量表示时,是将该实体中的所有单词的向量取平均值,这样一方面可以重复使用单词向量构建实体,另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算。(e)矩阵分解模型,通过矩阵分解的方式可得到低维的向量表示,故不少研究者提出可采用该方式进行知识表示学习,其中的典型代表是RESACL模型。在RESCAL
24、模型中,知识库中的三元组集合被表示为一个三阶张量,如果该三元组存在,张量中对应位置的元素被置1,否则置为0。通过张量分解算法,可将张量中每个三元组(h,r,t)对应的张量值 分解为双线性模型中的知识表示形式 ,并使 尽量小。(f)翻译模型(TransE模型),即将知识库中实体之间的关系看成是从实体间的某种平移,并用向量表示。该模型的参数较少,计算的复杂度显著降低。与此同时,TransE模型在大规模稀疏知识库上也同样具有较好的性能和可扩展性。3.复杂关系模型知识库中的实体关系类型也可分为1-to-1、1-to-N、N-to-1、N-to-N4种类型47,而复杂关系主要指的是1-to-N、N-to
25、-1、N-to-N的3种关系类型。由于TransE模型不能用在处理复杂关系上,一系列基于它的扩展模型纷纷被提出,下面将着重介绍其中的几项代表性工作:(a)TransH模型尝试通过不同的形式表示不同关系中的实体结构,对于同一个实体而言,它在不同的关系下也扮演着不同的角色。模型首先通过关系向量lr与其正交的法向量wr选取某一个超平面F,然后将头实体向量lh和尾实体向量lt法向量wr的方向投影到F,最后计算损失函数。TransH使不同的实体在不同的关系下拥有了不同的表示形式,但由于实体向量被投影到了关系的语义空间中,故它们具有相同的维度。(b)TransR模型,由于实体、关系是不同的对象,不同的关系
26、所关注的实体的属性也不尽相同,将它们映射到同一个语义空间,在一定程度上就限制了模型的表达能力。所以,提出了TransR模型。模型首先将知识库中的每个三元组(h,r,t)的头实体与尾实体向关系空间中投影,然后希望满足 的关系,最后计算损失函数。(c)TransD模型,考虑到在知识库的三元组中,头实体和尾实体表示的含义、类型以及属性可能有较大差异,之前的TransR模型使它们被同一个投影矩阵进行映射,在一定程度上就限制了模型的表达能力。除此之外,将实体映射到关系空间体现的是从实体到关系的语 义联系,而TransR模型中提出的投影矩阵仅考虑了不同的关系类型,而忽视了实体与关系之间的交互。因此,提出了
27、TransD模型,模型分别定义了头实体与尾实体在关系空间上的投影矩阵。(d)TransG模型认为一种关系可能会对应多种语义,而每一种语义都可以用一个高斯分布表示。TransG模型考虑到了关系r 的不同语义,使用高斯混合模型来描述知识库中每个三元组(h,r,t)头实体与尾实体之间的关系,具有较高的实体区分。(e)KG2E模型,考虑到知识库中的实体以及关系的不确定性,提出了KG2E模型,其中同样是用高斯分布来刻画实体与关系。模型使用高斯分布的均值表示实体或关系在语义空间中的中心位置,协方差则表示实体或关系的不确定度。通过信息抽取,实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标
28、,然而,这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合。通过知识融合,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量。4.3 知识融合实体对齐知识加工知识更新 实体对齐也称为实体匹配或实体解析,主要是用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。在大数据的环境下,受知识库规模的影响,在进行知识库实体对齐时,主要会面临以下三个方面的挑战:1)计算复杂度。匹配算法的计算复杂度会随知识库的规模呈二次增长,难以接受;2)数据质量
29、。由于不同知识库的构建目的与方式有所不同,可能存在知识质量良莠不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题;3)先验训练数据。在大规模知识库中想要获得这种先验数据却非常困难。通常情况下,需要研究者手工构造先验训练数据。实体对齐 将步骤2与步骤3的结果结合起来,形成最终的对齐结果使用实体对齐算法进行实例融合利用相似度函数或相似性算法查找匹配实例将待对齐数据进行分区索引,以降低计算的复杂度第4步第3步第2步第1步知识库实体对齐的主要流程实体对齐算法 对齐算法可分为成对实体对齐与集体实体对齐两大类,而集体实体对齐又可分为局部集体实体对齐与全局集体实体对齐。(a)成对实体对齐方法基于传统概率
30、模型的实体对齐方法:该方法主要就是考虑两个实体各自属性的相似性,而并不考虑实体间的关系;基于机器学习的实体对齐方法主要是将实体对齐问题转化为二分类问题。根据是否使用标注数据可分为有监督学习与无监督学习两类,基于监督学习的实体对齐方法主要可分为成对实体对齐、基于聚类的对齐、主动学习。(b)局部集体实体对齐方法 局部集体实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度,算法为每个实体建立了名称向量与虚拟文档向量,名称向量用于标识实体的属性,虚拟文档向量则用于表示实体的属性
31、值以及其邻居节点的属性值的加权和值。为了评价向量中每个分量的重要性,算法主要使用TF-IDF为每个分量设置权重,并为分量向量建立倒排索引,最后选择余弦相似性函数计算它们的相似程度。该算法的召回率较高,执行速度快,但准确率不足。其根本原因在于没有真正从语义方面进行考虑。(c)全局集体实体对齐方法基于相似性传播的集体实体对齐方法:基于相似性传播的方法是一种典型的集体实体对齐方法,匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性,而这种相似性又会影响关联的其他实体;基于概率模型的集体实体对齐方法主要采用统计关系学习进行计算与推理,常用的方法有LDA模型、CRF模型、Markov逻辑网等
32、。通过实体对齐,可以得到一系列的基本事实表达或初步的本体雏形,然而事实并不等于知识,它只是知识的基本单位。要形成高质量的知识,还需要经过知识加工的过程,从层次上形成一个大规模的知识体系,统一对知识进行管理。知识加工主要包括本体构建与质量评估两方面的内容。本体是同一领域内不同主体之间进行交流、连通的语义基础,其主要呈现树状结构,相邻的层次节点或概念之间具有严格的“IsA”关系,有利于进行约束、推理等,却不利于表达概念的多样性。本体在知识图谱中的地位相当于知识库的模具,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。知识加工本体构建 本体可通过人工编辑的方式手动构建,也可通过数据驱动自
33、动构建,然后再经质量评估方法与人工审核相结合的方式加以修正与确认。数据驱动的本体自动构建过程主要可分为以下3个阶段:纵向概念间的并列关系计算。通过计算任意2个实体间并列关系的相似度,可辨析它们在语义层面是否属于同一个概念。计算方法主要包括模式匹配与分布相似度两种;实体上下位关系抽取。上下位关系抽取方法包括基于语法的抽取与基于语义的抽取两种方式;本体生成。对各层次得到的概念进行聚类,并为每一类的实体指定1个或多个公共上位词。基于主题层次聚类的方法构建了本体结构。与此同时,为了解决主题模型不适用于短文本的问题,提出了基于单词共现网络的主题聚类与上下位词抽取模型。质量评估 对知识库的质量评估任务通常
34、是与实体对齐任务一起进行的,其意义在于,可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效确保知识的质量。基于LDIF框架,提出了一种新的知识质量评估方法,用户可根据业务需求来定义质量评估函数,或者通过对多种评估方法的综合考评来确定知识的最终质量评分。例如Google 的Knowledge Vault项目则根据指定数据信息的抽取频率对信息的可信度进行评分,然后利用从可信知识库中得到的先验知识对可信度进行修正。实验结果表明:该方法可以有效地降低对数据信息正误判断的不确定性,提高知识的质量。人类的认知能力、知识储备以及业务需求都会随时间而不断递增。因此,知识图谱的内容也需要与时俱
35、进,不论是通用知识图谱,还是行业知识图谱,它们都需要不断地迭代更新,扩展现有的知识,增加新的知识。根据知识图谱的逻辑结构,其更新主要包括模式层的更新与数据层的更新。模式层的更新是指本体中元素的更新,包括概念的增加、修改、删除,概念属性的更新以及概念之间上下位关系的更新等。其中,概念属性的更新操作将直接影响到所有直接或间接属性的子概念和实体。通常来说,模式层的增量更新方式消耗资源较少,但是多数情况下是在人工干预的情况下完成的,例如需要人工定义规则,人工处理冲突等。因此,实施起来并不容易。数据层的更新指的是实体元素的更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值。由于数据层的更新一般
36、影响面较小,因此通常以自动的方式完成。知识更新 知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。在推理的过程中,往往需要关联规则的支持。由于实体、实体属性以及关系的多样性,人们很难穷举所有的推理规则,一些较为复杂的推理规则往往是手动总结的。对于推理规则的挖掘,主要还是依赖于实体以及关系间的丰富同现情况。知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中概念的层次结构等。知识推理方法主要分为两种:基于逻辑的推理 基于图的推理4.4 知识推理基于逻辑的推理 基于逻辑的推理方式主要包括一阶谓词逻辑、描述逻辑以及规则等。一阶谓词逻辑推理是以命题为基本进行推理,而命
37、题又包含个体和谓词。逻辑中的个体对应知识库中的实体对象,具有客观独立性,可以是具体一个或泛指一类,例如奥巴马、选民等;谓词则描述了个体的性质或个体间的关系。针对已有一阶谓词逻辑推理方法中存在的推理效率低下等问题,提出了一种基于谓词变迁系统的图形推理法,定义了描述谓词间与/或关系的谓词,通过谓词图表示变迁系统,实现了反向的推理目标。实验结果表明:该方法推理效率较高,性能优越。描述逻辑是在命题逻辑与一阶谓词逻辑上发展而来,目的是在表示能力与推理复杂度之间追求一种平衡。基于描述逻辑的知识库主要包括Tbox与ABox。通过TBox与ABox,可将关于知识库中复杂的实体关系推理转化为一致性的检验问题,从
38、而简化并实现推理。通过本体的概念层次进行推理时,其中概念主要是通过OWL本体语义进行描述的。OWL文档可以表示为一个具有树形结构的状态空间,这样一些对接结点的推理算法就能够较好地应用起来。例如以下两个算法:基于RDF和PD*语义的正向推理算法,该算法以RDF蕴涵规则为前提,结合了sesame算法以及PD*的语义,是一个典型的迭代算法,它主要考虑结点与推理规则的前提是否有匹配,由于该算法的触发条件导致推理的时间复杂度较高;ORBO算法,该算法从结点出发考虑,判断推理规则中第一条推理关系的前提是否满足,不仅节约了时间,还降低了算法的时间复杂度。基于图的推理 在基于图的推理方法中,path-cons
39、traint random walk,path ranking等算法较为典型,主要是利用了关系路径中的蕴涵信息,通过图中两个实体间的多步路径来预测它们之间的语义关系。即从源节点开始,在图上根据路径建模算法进行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系。关系路径的建模方法研究工作尚处于初期,其中在关系路径的可靠性计算、关系路径的语义组合操作等方面,仍有很多工作需进一步探索并完成。知识图谱适用场景知识图谱适用场景05类型多变的数据结构多变的数据关系复杂的数据知识图谱适合处理以下数据 作为数据融合与链接的纽带,知识图谱整合结构化、半结构化和非结构化数据,拥有如下的消费和数据场景。通常的二进制数据日志数据流式数据数据统计数据计算知识图谱的不适用场景如下:不适用的数据场景不适用的消费场景这些不适用场景都需要借助其它工具存储和处理,同时结合其它工具和方法使用,最终与知识图谱进行数据链接。知识图谱应用知识图谱应用06感谢您的观看感谢您的观看THANK YOU FOR YOUR WATCHING
限制150内