最新Word排版素材-长文档草稿.doc
《最新Word排版素材-长文档草稿.doc》由会员分享,可在线阅读,更多相关《最新Word排版素材-长文档草稿.doc(232页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-dateWord排版素材-长文档草稿目录1绪论1.1 课题的背景和意义1.1.1 研究的背景本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系
2、结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。1.1.2 研究的目的和意义扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题-知识元资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。现有的语义相似性度量的方法主要有基于词典和
3、基于语料库两种。词典有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的WordNet(词网)、中文的HowNet(知网)2,均是封闭的系统,在计算未登录词时效果很差。1.2 国内外研究现状863课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。1)主题图和主题图融合研究现状主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Mark
4、up Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:20003,这项国际标准定义出了Topic Maps的完整数据模型。2001年,基于可扩展标记语言(Extensible Markuo Language,XML)的XML主题图XML Topic Maps(XTM)4成为ISO/IEC 13250的一部分。同年,ISO委员会又提出主题图查询语言 TMQL(ISO/IEC18048)和主题图约束语言TMCL (ISO/IEC1975)。主题图融合方面,在国外,2004年Lutz Maicher等人提出
5、了SIM算法5和2007年由Jung-Mn Kim6提出了TM-MAP算法。SIM算法的本质是字符统计法,TM-MAP算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。在国内,2006年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的TOM算法7,TOM算法与SIM算法类似,基于字符统计,涉及到主题图三要素中的两个。2)词汇相似性度量研究现状国内比较突出的是中国科学院计算技术研究所的刘群8等人提出的基于知网的词汇语义相似度计算。刘群等的语义相似度计算方法以知网为计算依托,充分利用了知网中的义原(描述一个“概念”词语的最小意义单位)通过上下位
6、关系组成的一个树状义原层次体系。为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度,该算法采用了“整体的相似度等于部分相似度加权平均”的做法。该算法在同义、近义词语间的相似度计算结果上测试效果良好,但仅仅利用知网中义原间的上下位关系,所以对对义、反义的词语测试应用不佳,测试结果不利于进行词语的极性识别分析。国外较为突出的是美国的蒙大拿州立大学的Shen Wan 和Rafal A.Angryk提出了基于WordNet(词网)的上下文向量的语义相似度计算算法9,该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,然后利用wordnet的层次关系建立上下文的空间,
7、及向量,最后通过计算两个概念对应向量的余弦值得到相似度的值。该算法理解简单,实用,可操作性强,在测试结果上有一定的准确度。但由于其仅仅利用了词网中概念间的上下文关系,计算公式也没考虑到概念的权重问题,因此在一些基准词间的测试效果不理想。美国卡耐基梅隆大学的Satanjeev Banerjee10等提出了扩展注释重叠语义相似度计算算法,每一对概念都被赋予和每个词注释相关的重叠词序列的一个关联值,在计算比较过程中不仅仅比较两个词语义注释词序列的串重合程度,而且通过关系间的属性及相似性来综合分析语义间的上位、下位、部分和整体的关联关系,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的
8、匹配,在进行加权整合计算,测试效果很好,在一定程度上接近了认知效用,但空间、时间复杂度很高。3)句子相似性度量研究现状目前,国内外存在着很多句子相似性度量的方法。在国外,Niladri11提出了一种基于线性模型的相似度度量模式,其相关系数由多重回归技术确定,句子的相似性(或者说是非相似性)由一系列决定句子不相似成分共同作用的结果组成。Nirenburg12等提出了两种串匹配的方法,即:“切块+匹配+重组”方法和整句级匹配的方法。这两种方法所采用的相似性度量原理都是词组合法。Lambros等提出同时依据句子的表层结构和content计算相似度的方法13, 方法使用了两级动态规划技术,应用动态规划
9、算法允许在两个长度不同的句子之间计算语句相似度。国内研究汉语句子句子相似度的学者也较多。李素建14基于知网和同义词词林,提出了语句相关度的定量计算模型;陈利人15等提出了句子相似度包括结构相似度和语义相似度两个概念,认为句子相似度计算包括两个步骤:首先,使用词结构相似度计算,得到句子的结构相似度;然后,在句子结构相似度的基础上,再进行句子语义相似度计算。吕学强16等考虑词形与词序相似度两个因素,提出了句子相似模型与最相似句子的查找算法;秦兵17等使用向量空间模型的TFIDF法和基于语义本体的方法,面向常见问题集计算问句间的语义相似度;杨思春18等使用具有部分格语义的语法功能句型计算模式来实现句
10、子相似度计算等等。上面的方法大部分是简单的的使用语义词典,没有考虑到句子的内部信息和词语间的相互作用和联系,没有考虑到句子蕴含的一些特征,因此准确率并不高。1.3 本文的研究content1.3.1 研究content本文在对扩展主题图融合中的语义冲突进行研究分析基础上,详细研究解决冲突的关键技术语义相似性度量技术。首先分析扩展主题图融合中主题间的语义冲突问题,提出一种基于本体和语料库的综合词汇相似度计算方法。然后针对扩展主题图融合中知识元间的语义冲突问题,结合课题中知识元的特点(知识元的资源来源是单个句子),提出基于全信息理论的句子相似度计算方法。最后,对所提的两种相似性度量算法进行综合测试
11、分析,并融合到扩展主题图融合模块,整合到整个863系统中进行实际应用。本文的研究content包括以下几个方面:1)扩展主题图融合研究:在研究扩展主题图的融合原则及过程基础上,分析融合过程中所产生的语义冲突,研究其产生原因,并对其进行分类。2)提出一种基于本体和语料库的综合词汇相似性度量算法:为解决扩展主题图融合过程中主题元素间的融合问题,设计实现了一个结合本体与语料库,辅以规则和同义词计算的权重参数自适应调节的综合词语相似性度量算法。3)提出一种基于全信息理论的句子相似性度量算法:研究常见的句子语义表示模型,综合句义三维模型和全信息理论,从语法,语义和语用三个方面对待融合知识元的资源来源句子
12、进行综合度量。4)算法的测试与分析:在专业领域和公共领域对所提相似性度量算法进行多领域的实验测试,并将其与其他算法进行对比分析,研究分析其性能指标。5)算法与系统的整合:将所提相似性度量算法融合到扩展主题图融合模块,并整合到863计划系统中进行实际使用,测试其功能和性能。1.3.2 研究方法及技术路线本文的研究方法从以下几个方面进行阐述:1) 扩展主题图融合与语义冲突:通过对扩展主题图融合过程的分析,确定可能出现的语义冲突,并分析解决冲突的关键技术语义相似性度量的具体使用场景。2)词汇相似性度量的研究:综合研究已有的词汇相似性计算算法,进行分类与对比分析。建立一个与课题相关简易的计算机领域的语
13、料库,使用网络搜索双检验模型进行相似度计算,并将其与基于页空间数的语义相似度计算结合起来,形成一种基于语料库的语义相似度计算算法。对已有的基于知网的方法进行改进,同时引入规则分析和同义词词典计算,提出一种利用本体和语料库的综合词语相似度算法(A new word similarity computation algorithm based on HOWNET and CorpusHCSC)。3)句子相似性度量的研究:分类已有的句子相似度计算方法,分析各自的优缺点。研究已有的句子语义计算模型,并将其与全信息理论结合起来,分析全信息理论在模型中的使用。综合句义三维模型与全信息理论,提出基于全信息理
14、论的句子相似度计算方法。4)算法的测试与应用:综合测试提出的语义相似性度量算法,并将算法应用到课题的Yotta系统中,实现算法与实际工程的结合。总体上,本文拟采用“发现扩展主题图融合中的语义冲突解决冲突,提出算法算法实现与测试应用到实际系统”的技术路线,如图1-2所示:图 22 本文的技术路线1.4 论文组织结构论文按照以下content进行组织:下面的文字的缩进是不是有点怪第1章 绪论。简述了课题的研究背景、研究的意义和价值,然后介绍了相关理论和技术的国内外研究现状,最后简介自己的研究content和研究思路。第2章 扩展主题图融合及语义冲突。介绍主题图和扩展主题图的概念和描述,详述扩展主题
15、图融合的原则和过程;研究融合过程中产生的语义冲突,分析其产生的原因和种类;研究语义相似度在扩展主题图融合中的具体使用。第3章 基于本体和语料库的综合词语相似度算法。分析已有的计算算法,建立计算机领域的简易语料库,融合同义词辞典、规则、知网和语料库,提出一种基于本体和语料库的综合词语相似度计算算法。第4章 基于全信息理论的句子相似度算法。分类介绍现有的句子相似度计算算法,研究句子语义计算模型,融合句义三维模型和全信息理论,提出一种基于全信息理论的句子相似度算法。第5章 算法的实验与分析。首先介绍两类实验数据的准备,然后进行多领域、多层次的算法测试与分析及相关算法对比测试;最后将提出的语义相似性度
16、量的算法应用到课题系统(Yotta系统)中进行综合测试。第6章 结论与展望。对本文的工作进行总结,然后提出本文工作中的不足和需要改进的地方,以及将来研究的方向。2 扩展主题图融合及语义冲突本章首先详述主题图和扩展主题图的概念及描述语法XTM,并举例说明。然后研究扩展主题图融合的原则和过程,分析融合过程中产生的语义冲突。最后介绍解决语义冲突关键技术语义相似性度量及其在扩展主题图融合中的具体使用。2.1 主题图与扩展主题图2.1.1 主题图概念及描述1)主题图的概念主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并
17、由国际标准组织SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:2000,这项国际标准定义出了Topic Maps的完整模型3。主题图标准建设了知识和信息间的桥梁,实现信息快速查找,提高信息的可现性,最终实现知识的共享和重用。主题图实际上在信息资源的上层构建了一个结构化的语义网,其独立于技术平台,描述主题之间的关系及主题与具体资源的联系,通过揭示概念之间的关系,将用户引领到相关的资源。一个主题图就是一个由主题、关联性以及资源实体组成的集合
18、体。如图2-1所示主题图的架构可分为3部分,即TAO19。不知道你的这个“TAO”在这句话中指什么主题(Topic):指主题图中用来代表具体实体或抽象概念的符号表示,能在计算机中表示、存储、检索等,在现实世界中能表示人、事、时、地、物等。关联(Association):指连结两个或两个以上主题间的关系,主题间的关联性可以独立于信息资源而存在。主题图的关联性是主题间的双向关联,并且可实现多个主题间复杂关联。资源实例(Occurrence):代表一个主题与信息资源之间的联系。一个主题可以被链接到一个或多个信息资源,被关联的信息资源可能是关于某个主题的一篇专论、文章或为一段简述以表达此主题的资源等,
19、该资源可位于主题图的外部,通过URL来指向具体信息资源。图 21这块的空格与上面图的个数不一样主题图体系结构2)主题图的描述与实例基于ISO13250标准的XML Topic Maps(XTM)4,是使用XML的语法形式描述主题图的各个元素。根据XTM的DTD标准,XTM定义了19个标签元素。如表2-1所示:表21 XTM元素表元素含义主题图的根元素主题主题关联说明范围引用到的主题引用表示类型的主题主题标识主题基名和主题相关的资源主题基名的字串content主题基名以外的名称,即别名别名别名的上下文关联成员,指出在关联中,扮演某种角色的主题指明在关联中,成员扮演的角色引用主题元素引用项目标识符
20、提供待引用资源的URI资源数据,只能容纳字符数据与其它主题图合并用下面展示一个具体的实例,来描述XTM的三要素:主题、关联和资源出处。实例描述的是:在福建泉州有一个郑成功纪念馆,里面有郑成功的各种资料,泉州盛产水果龙眼。首先定义四个主题:福建泉州、郑成功纪念馆、郑成功和龙眼,然后定义位于、生产和地方与人物三种关系,最后将资源出处与主题关联起来。XTM描述如下:福建泉州 郑成功纪念馆龙眼 郑成功 将上述XTM展示为图的模型,如图2-2所示:图 22主题图概念实例图同上2.1.2 扩展主题图概念及描述1)扩展主题图的概念在面向教育的海量知识资源组织、管理与服务系统863课题中为了更好的进行教育领域
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 Word 排版 素材 文档 草稿
限制150内