信息存储与检索第7章.ppt
《信息存储与检索第7章.ppt》由会员分享,可在线阅读,更多相关《信息存储与检索第7章.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章第七章 人工智能与自然语言检索人工智能与自然语言检索 本章目录本章目录第一节第一节 引言引言第二节第二节 人工智能技术人工智能技术第三节第三节 智能智能检索检索第四节第四节 自然语言自然语言检索检索第五节第五节 跨语言检索跨语言检索 信息存储与检索第一节第一节 引言引言v人工智能技术在信息检索领域的应用,使其检索系统的智能化水平得到了显著提高。以自然语言理解技术为基础的信息检索系统将把信息检索从目前基于关键词层面提高到基于知识层面,对知识有一定的理解与处理能力。信息存储与检索7.2.1 专家系统专家系统(一)专家系统的特征 v(1)具备某个应用领域的专家级知识;v(2)能模拟专家的思维;
2、v(3)能达到专家级的解题水平。信息存储与检索7.2.1 专家系统专家系统(二)专家系统的工作原理 v专家系统的工作方式可简单地归结为:运用知识,进行推理。专家系统的组成部分包括知识库、推理机、知识获取、人机接口、数据库和解释机构。信息存储与检索7.2.2 数据挖掘数据挖掘(一)数据挖掘的含义与标准 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。目前,数据挖掘的标准化包括以下三个标准:CRISP-DM;PMML;OLE DB For DM。信息存储与检索7.2.2 数据挖掘数据挖掘(二)数据挖掘的功能
3、 v自动预测趋势和行为。v关联分析。v聚类。v概念描述 v偏差检测 信息存储与检索7.2.2 数据挖掘数据挖掘(三)数据挖掘的主要技术 v决策树法,输出结果容易理解,实用效果好,影响也较大。v神经网络法,更适合用于非线性数据和含噪声的数据,在市场数据分析和建模方面有广泛的应用。v遗传算法,适合于聚类分析,它简单而且优化的效果好。v统计分析方法是利用统计学、概率论的原理对数据库中的信息进行统计分析,从而找出它们之间的关系和规律。信息存储与检索7.2.2 数据挖掘数据挖掘v粗集方法,适合于不精确、不确定、不完全的信息分类和知识获取。v可视化方法,是一种辅助方法,它用比较直观的图形图表方式来表现挖掘
4、出来的模式,大大拓宽了数据的表达和理解力,使用户更加了解挖掘出的数据。信息存储与检索7.2.3 知识发现知识发现(一)知识发现的定义v知识发现是从大量数据集中辨识出有效的、新颖的、潜在有用的、并可被理解的模式的高级处理过程。信息存储与检索7.2.3 知识发现知识发现(二)知识发现的过程 v知识发现过程可以归纳为三个步骤:数据准备、数据挖掘、结果解释和评价。信息存储与检索7.2.3 知识发现知识发现(三)知识发现平台 vSPSS为用户提供揭示客户关系、预测客户行为的解决方案,并把客户关系管理和商业智能有机的结合在一起,建立与客户之间的互动关系。vIntelligent Miner具有典型数据集自
5、动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。vClementine提供了一个可视化的快速建立模型的环境。它由数据获取、探查、整理、建模和报告等部分组成。信息存储与检索7.2.3 知识发现知识发现vMSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,提供多种知识发现方法。vSAS Enterprise Miner通过收集分析各种统计资料和客户购买模式,帮助企业发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收人、降低成本的目标。信息存储与检索7.2.4 信息抽取与知识抽取信息抽取与知识抽取(一)信息抽取 v信息抽
6、取是从一段文本中抽取信息,并将其形成结构化、规范化的数据。v信息抽取和信息检索有本质的区别:信息检索的目的是根用户的查询请求从文档库中找出相关的文档,用户必须从找到的文档中提取自己所要的信息;而信息抽取直接从文档中取出相关信息点,不需要用户对文档做进一步分析。这两种技术是互补的,若结合起来可以为文本处理提供强大的工具。信息存储与检索7.2.4 信息抽取与知识抽取信息抽取与知识抽取(二)信息抽取技术的评测指标 v抽全率可粗略地看成是测量正确抽取的信息比例,而抽准率用来测量抽出的信息中有多少是正确的。计算公式如下:vR=抽出的正确信息点数/所有正确的信息点数vP=抽出的正确信息点数/所有抽出的信息
7、点数 信息存储与检索7.2.4 信息抽取与知识抽取信息抽取与知识抽取(三)知识抽取v知识抽取是从现有的信息(尤其是非结构化的文本)中抽取结构化的、上下文依赖的知识的过程。v知识抽取起源于传统信息抽取而又有别于信息抽取:传统的信息抽取并不试图从内容上全面地、深层次地理解文档,而知识抽取则建立在信息抽取的基础之上,使用了语义网技术,从知识表示和推理的角度来实现知识的自动(半自动)抽取。信息存储与检索 7.3.1 智能检索智能检索接口接口1 7.3.2 智能智能检索技术检索技术2 7.3.3 智能智能检索系统与应用检索系统与应用 3第三节第三节 智能检索智能检索信息存储与检索7.3.1 智能检索接口
8、智能检索接口v智能检索接口用于完成智能检索系统的信息输入输出工作,它是系统和用户交流的界面,它能理解、分析用户的自然语言提问,并产生适合用户的结果,还具有解释功能,对自己的行为做出解释。v智能检索接口能向用户提供友好的界面,完成各种交互活动;检验用户输入和系统输出的正确性、一致性;控制程序流程,对用户输入作出快速反应或者控制其它设备正确有效地工作。信息存储与检索7.3.2 智能检索技术智能检索技术(一)自然语言处理技术v信息检索中常常使用到的自然语言处理技术包括去除禁用词,取词根,词性标注,词义消歧,句法分析,命名实体识别,指代消解等。(二)基于概念的语义智能检索技术 v系统基于对概念内涵的理
9、解以及用户提交的关键词所表达的概念作为搜索依据,能同时对该词的同义词、近义词、广义词、狭义词进行检索。(三)基于Agent的智能检索技术v基于多Agent的智能检索体系主要包括User Agent、Spider Agent和Collector Agent。信息存储与检索7.3.3 智能检索系统与应用智能检索系统与应用(一)智能检索系统的组成和功能 v智能信息检索系统由知识库、文本处理和智能接口三部分组成。v智能检索系统一般具有以下功能:(1)能理解自然语言,允许用自然语言提出各种询问。(2)具有推理能力,能根据存储的事实,演绎出所需要的答案。(3)系统拥有一定常识性知识,以补充学科范围的专业知
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 存储 检索
限制150内