第四章 人工智能导论知识图谱.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第四章 人工智能导论知识图谱.pdf》由会员分享,可在线阅读,更多相关《第四章 人工智能导论知识图谱.pdf(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 知识图谱的提出和概念 知识图谱这一名词最早由google公司于 2012 年提出,名为知识图谱这一名词最早由google公司于 2012 年提出,名为 “Knowledge Graph ”。应用于其搜索引擎,目的是增强信息检“Knowledge Graph ”。应用于其搜索引擎,目的是增强信息检 索能力,为用户提供更加智能的检索结果。索能力,为用户提供更加智能的检索结果。 经过短短几年时间,知识图谱得到几乎所有搜索引擎企业的关注,经过短短几年时间,知识图谱得到几乎所有搜索引擎企业的关注, 并纷纷投入大力研究,形成了多种多样的技术和应用方案。并纷纷投入大力研究,形成了多种多样的技术和应用方案
2、。 在现阶段,知识图谱并没有严格、绝对的学术概念,但从功能上在现阶段,知识图谱并没有严格、绝对的学术概念,但从功能上 看,目前的知识图谱具有类似的功能,它们都看,目前的知识图谱具有类似的功能,它们都以结构化形式,描以结构化形式,描 述客观世界中存在的概念、实体、以及实体之间关系。因此,知述客观世界中存在的概念、实体、以及实体之间关系。因此,知 识图谱是这样一类知识表示和应用技术的总称。识图谱是这样一类知识表示和应用技术的总称。 3 知识图谱表现形式 在典型的知识图谱中,每个实体或概念用一个 ID 来标识,称为在典型的知识图谱中,每个实体或概念用一个 ID 来标识,称为 标识符标识符。实体通过若
3、干。实体通过若干属性属性来刻画内在特性,实体之间通过多种来刻画内在特性,实体之间通过多种 关系关系来连接。所有实体相互关联,形成复杂的“图”。来连接。所有实体相互关联,形成复杂的“图”。 比如,有“山东省”、“济南市”两个实体,两者各有自己的属比如,有“山东省”、“济南市”两个实体,两者各有自己的属 性,两者之间则存在“provincial_capital”两种关系。性,两者之间则存在“provincial_capital”两种关系。 山东省济南市 面积:60,657 mi 人口:10005.83万 省会:济南 人口:870万 别名:泉城 市花:荷花 provincial_capital 4
4、1960s,符号主义知识表示 之前我们介绍过,在人工智 能的第一次发展浪潮中: 采用符号主义表示知识采用符号主义表示知识 应用于专业领域的自动推理应用于专业领域的自动推理 典型的应用即专家系统,一 般由事实库、规则库、推理 机构成。 事实库中,以条目形式罗列事事实库中,以条目形式罗列事 实性知识实性知识 规则库中,以条目形式罗列推规则库中,以条目形式罗列推 理规则理规则 控制器 规则库事实库推理机 5 1960,语义网络( Semantic Network ) 在接近同时代,在1960年,认知科学家Collins、Quillian等人在接近同时代,在1960年,认知科学家Collins、Qui
5、llian等人 提出了语义网络(Semantic Network)的概念,目的是以网络的方提出了语义网络(Semantic Network)的概念,目的是以网络的方 式来描述概念之间的语义关系。式来描述概念之间的语义关系。 在该设想中,语义网络将概念作为节点,边表示关系,可以用来在该设想中,语义网络将概念作为节点,边表示关系,可以用来 描述语义关系。如下图例子:描述语义关系。如下图例子: 6 语义网络形式简单,容易理解但节点和关 系没有固定规范概念和实体没有严格区分 比如:哺乳动物哺乳动物是个抽象概念,世界上并 没有一种动物名字就是哺乳动物。 专家知识 vs 语义网络 专家系统知识库与语义网络
6、 专家系统往往面向专业领域,专业度高、扩展性差专家系统往往面向专业领域,专业度高、扩展性差 语义网络则更多面向常识、普遍概念,用途更加广泛语义网络则更多面向常识、普遍概念,用途更加广泛 专家系统强调知识的推理能力,对概念的表达能力不强专家系统强调知识的推理能力,对概念的表达能力不强 语义网络强调概念及其关系的表达,不具备推理能力,语义网络强调概念及其关系的表达,不具备推理能力, 两者的建立都比较随意,没有严格的语义理论支撑。两者的建立都比较随意,没有严格的语义理论支撑。 是否可以将两者结合,定义完美的语义理论,同时又具有 推理能力? 7 1970s-1980s,描述逻辑 从1970s开始,许多
7、学者开始研究语义理论的问题,代表性的工从1970s开始,许多学者开始研究语义理论的问题,代表性的工 作是描述逻辑(description logic)作是描述逻辑(description logic) 描述逻辑尝试将知识表示能力和推理计算能力结合,具有很强的描述逻辑尝试将知识表示能力和推理计算能力结合,具有很强的 表达能力,并且能保证推理能力。表达能力,并且能保证推理能力。 早期的描述逻辑包括Brachman 1980s提出的KL-ONE语言,它可以早期的描述逻辑包括Brachman 1980s提出的KL-ONE语言,它可以 刻画概念、属性、个体、关系等知识要素。刻画概念、属性、个体、关系等知
8、识要素。 8 1990s Web1.0时代 1990s后,描述逻辑成为知识表示领域的重要分支。但它 是一个纯理论工作,没有数据和应用支撑。恰好此时, 互联网进入应用阶段,web1.0诞生。1989,Web之父Tim Berners Lee将超文本链接与因特网嫁接,使得用户可以 通过超链接浏览互联网上的各类资源,发布自己的信息。 Web1.0诞生后,互联网上的网页数量迅速增加,网页之 间相互关联形成网络,其中蕴含着大量知识。但这种知 识的设计思想是面向人类阅读和理解的,无法被计算机 理解和计算。比如我们很容易知道两个网页内容相关, 但计算机很难理解网页的内容。 9 Tim Berners Lee
9、 1998,语义web兴起和发展 在1998年, Tim Berners Lee提出了“语义网(semantic web)”的概念,为 了与语义网络区分,也常直接称为语义web。 语义web旨在对互联网内容进行语义化表示,通过对网页进行语义描述,得到 网页的语义信息,从而使计算机能够理解、推理互联网信息。 这是个庞大的构想,不是简单的标注web页面,而是需要新的知识表示手段。 这样的背景下,语义web相继提出了“RDF资源描述框架”和“OWL网络本体语 言”等新的框架。 10 1997,RDF RDF是一种描述资源信息的框架,资源可以是任何东西,包括文档、人、物理对象和抽象概 念。一个RDF陈
10、述描述两个资源之间的关系,主语(subject)和宾语(object)分别指两 个资源,“predicate”表达了这个资源之间的关系。因为每个RDF陈述包含三个元素,因 此RDF陈述也被称作RDF三元组(triples)。 如下面几个例子: 根据这样的一些三元组我们就可以根据这样的一些三元组我们就可以 画出类似右图的知识图画出类似右图的知识图 11 2001,OWL RDF本身是从实践出发的描述框架。 2001年,W3C组织开始将描述逻辑引入语义web,尝试构建完美的知识表现语言, 称之为OWL,网络本体语言。 OWL以描述逻辑为理论基础,比RDF,具有更强的表达能力和推理能力。比如, OW
11、L可以描述“中国所有湖泊”、“美国所有4000米以上的高山”这样的类。 但OWL复杂度非常高,在逻辑接近完美,但工程上实现却太过复杂。 12 语义web技术栈 从2001到2006,随着RDF和OWL的提出, 语义web技术突飞猛进,各种标准不 断升级和复杂化,层次不断加深,形 成了技术堆栈。 在这一时代,语义web仍然沿袭着符 号主义的核心理念,尝试建立完美的 符号体系来囊括所有知识。 该阶段是从“弱语义”到“强语义” 的探索。 13 2006,linked data 到了2006年,Tim Berners Lee 逐渐意识到语义web的发 展遇到了瓶颈,体系结构日益 复杂,而工程实现难度越
12、来越 大,成本越来越高,各家单位 都各自为政开发语义网。 Lee提出“linked data”设想, 号召各家单位分享自己的知识 库,合并起来形成开放的语义 网。目前,该设想最大的项目 Linked Open Data,LOD项目 中已经包含了1000多个数据集。 Linked open data 计划现状 14 2006,linked data 在技术层面上,从linked data开始,语义web开始弱化“语义推理”的部分, 而更强调“Web”部分。因此linked data可以看作是语义web的一个简化集合。 在实现层面,linked data鼓励使用RDF三元组形式描述知识,而理论更完
13、备的 OWL系列方法则很少使用。 从linkded data开始,语义web开始进入“弱语义”的阶段,也正是从此开始, 语义web的体系结构开始向现如今的“知识图谱”过渡发展。 15 2012,谷歌知识图谱 2012,谷歌在收购语义web公司Freebase之后,进一步将其中基于 RDF的知识表示形式简化,升华为图数据,大大提升其应用性,称 之为“知识图谱”。 至此,现代的知识图谱正式登上时代舞台。谷歌知识图谱进一步弱 化了语义,仅保留了RDF三元组的基本形式,但这种简单的形式非 常适合工程应用,以及知识的自动化生成。因此近年来展现出蓬勃 的生命力。 16 专家 知识 语义 网络 描述 逻辑
14、OWL Linked data Web 1.0 语义 web RDF Google 知识图谱 百度知识图谱 搜狗知识图谱 1960s 理论起源 2010s,知识图谱,弱语义 1990s 语义web,强语义 (实体,关系,实体) (实体,关系,实体) 小结 17 从“强语义”到“弱语义” 知识图谱的发展几经变革,大致可以划分为“强语义”和“弱语知识图谱的发展几经变革,大致可以划分为“强语义”和“弱语 义”阶段。义”阶段。 在“强语义”阶段,研究重点是如何建立语义表示体系,知识库在“强语义”阶段,研究重点是如何建立语义表示体系,知识库 的构建往往依赖于的构建往往依赖于人工编辑、合作开发人工编辑、合
15、作开发的模式。的模式。 进入互联网时代后,知识图谱规模不断增大,开始向着更加实际进入互联网时代后,知识图谱规模不断增大,开始向着更加实际 的“弱语义”方法发展,不再强调语义,而是强调如何的“弱语义”方法发展,不再强调语义,而是强调如何利用互联利用互联 网知识自动构建网知识自动构建大规模知识图谱。大规模知识图谱。 2010后,弱语义,自动构建 2010前:强语义,人工建立 19 1984,CYC知识库 第一个例子,叫做Cyc,是早期知识库项目的代表。也是目前持第一个例子,叫做Cyc,是早期知识库项目的代表。也是目前持 续时间最长的知识库项目。CYC最早由续时间最长的知识库项目。CYC最早由Dou
16、glas LenatDouglas Lenat在1984年创在1984年创 建,并延续至今。建,并延续至今。 Cyc最初的目标是要建设人类最大的常识知识库,它认为,常识Cyc最初的目标是要建设人类最大的常识知识库,它认为,常识 可以通过“可以通过“实体实体”和“”和“断言断言”来描述。类似于“”来描述。类似于“每棵树都是植每棵树都是植 物”、“植物最终都会死亡物”、“植物最终都会死亡”。”。 这些知识以一阶谓词逻辑形式存储。这些知识以一阶谓词逻辑形式存储。 Cyc设想,当用户提出“树是否会死亡”的问题时,CYC推理引擎Cyc设想,当用户提出“树是否会死亡”的问题时,CYC推理引擎 可以通过自动
17、推理得到正确的结论。可以通过自动推理得到正确的结论。 20 Cyc介绍 Cyc项目的知识事实主要通过手工添加到知识库中,类似定理库。Cyc项目的知识事实主要通过手工添加到知识库中,类似定理库。 这使得CYC的推理效率很高,可以支持复杂推理。但缺点同样突这使得CYC的推理效率很高,可以支持复杂推理。但缺点同样突 出:构建成本太高,知识更新慢,推理死板适应性差。出:构建成本太高,知识更新慢,推理死板适应性差。 近几年,Cyc也开始通过机器学习来自动获取知识。截至目前,近几年,Cyc也开始通过机器学习来自动获取知识。截至目前, 该知识库仍在运行,目前已经包含了700万条人类定义的断言,该知识库仍在运
18、行,目前已经包含了700万条人类定义的断言, 涉及50万个实体,15000个谓词。涉及50万个实体,15000个谓词。 目前在其官网上还提供了免费的版本openCYC。有兴趣的同学可目前在其官网上还提供了免费的版本openCYC。有兴趣的同学可 以关注一下。以关注一下。 21 Douglas Lenat 22 1985,WordNet 我们介绍的第二个知识库是WordNet,也是目前知名度最高的词我们介绍的第二个知识库是WordNet,也是目前知名度最高的词 典知识库,它最早于1985年,由普林斯顿大学的认知科学实验室典知识库,它最早于1985年,由普林斯顿大学的认知科学实验室 主持构建,最开
19、始的目的是针对主持构建,最开始的目的是针对多义词的词义消歧多义词的词义消歧。 Wordnet认为,每个Wordnet认为,每个词(word)词(word)可能有多个不同的可能有多个不同的语义(sense)语义(sense) 根据词去组织词典,则会忽略同义词信息。根据词去组织词典,则会忽略同义词信息。 同样,每个同样,每个语义(sense)语义(sense)也可能对应多个词。如果按照sense组也可能对应多个词。如果按照sense组 织词典,把语义近似相同的词打包放在一起,是否可以解决多义织词典,把语义近似相同的词打包放在一起,是否可以解决多义 词问题?据此,WordNet设计了词问题?据此,W
20、ordNet设计了同义词集合 (Synset),同义词集合 (Synset),作为基本作为基本 单位来组织词典。单位来组织词典。 23 Wordnet朴实的官网 24 在wordnet中,具有相同意思的多个词放在一个synset中,具有在wordnet中,具有相同意思的多个词放在一个synset中,具有 多种含义的词将会出现在多个synset中。多种含义的词将会出现在多个synset中。 在此基础上,WordNet进一步设计了“语义关系”,把synset中在此基础上,WordNet进一步设计了“语义关系”,把synset中 的词关联起来形成图,典型的语义关系如:的词关联起来形成图,典型的语义关
21、系如: 同义关系(synonymy)、反义关系(antonymy)、 上下位关系(hypernymy/hyponymy) “猫是动物” 整体和部分关系(meronymy) “轮子是汽车的一部分” 蕴含关系(entailment) “打鼾蕴含睡着” WordNet具有很强的生命力,其规模也在多年发展的基础上不断WordNet具有很强的生命力,其规模也在多年发展的基础上不断 增长,WordNet3.0中已经包括15万个word和20万条语义关系,已增长,WordNet3.0中已经包括15万个word和20万条语义关系,已 经成为目前的语义分析中重要的工具。经成为目前的语义分析中重要的工具。 25
22、Wordnet的缺点 WordNet的注意力不是在文本和话语水平上来描述词和概念的语WordNet的注意力不是在文本和话语水平上来描述词和概念的语 义,因此义,因此WordNet中没有考虑特定语境下的相关概念之间的联系WordNet中没有考虑特定语境下的相关概念之间的联系。 例如,WordNet中没有将网球拍、网球、球网等词语以联系到一例如,WordNet中没有将网球拍、网球、球网等词语以联系到一 起。这就是著名的起。这就是著名的“tennis problem”(网球问题)。“tennis problem”(网球问题)。 类似还有医生、医院之间的关系;教师、学生、学校之间的关系;类似还有医生、
23、医院之间的关系;教师、学生、学校之间的关系; 大海、沙滩之间的关系等等。大海、沙滩之间的关系等等。 网球问题涉及到许多世界知识的描述和关联,也是目前通用人工网球问题涉及到许多世界知识的描述和关联,也是目前通用人工 智能亟待解决的问题之一。智能亟待解决的问题之一。 26 1999,ConceptNet 我们要介绍的第三个知识库,是我们要介绍的第三个知识库,是ConceptNetConceptNet,它最早源于MIT媒,它最早源于MIT媒 体实验室的OpenMind commonsense 项目,该项目是由明斯基体实验室的OpenMind commonsense 项目,该项目是由明斯基 1999年
24、创建的(1999年创建的(这个明斯基就是达特茅斯会议的那个,神奇的老头这个明斯基就是达特茅斯会议的那个,神奇的老头)。)。 ConceptNet最初的目标是构建一个描述人类常识的大型语义web。ConceptNet最初的目标是构建一个描述人类常识的大型语义web。 在1999年,RDF技术已经成熟,因此Conceptnet直接采用三元组在1999年,RDF技术已经成熟,因此Conceptnet直接采用三元组 的形式来构建,而不是谓词逻辑。的形式来构建,而不是谓词逻辑。 27 在构建方法上, ConceptNet并不是完全由专家来制定结构、层级、语义体在构建方法上, ConceptNet并不是完
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能导论
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内