数据挖掘技术在智能搜索引擎中的应用(共5页).doc
《数据挖掘技术在智能搜索引擎中的应用(共5页).doc》由会员分享,可在线阅读,更多相关《数据挖掘技术在智能搜索引擎中的应用(共5页).doc(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据挖掘技术在智能搜索引擎中的应用数据挖掘课程期中作业姓名: 学号: 专业: 时间: 授课教师: 成绩: 摘要: 随着互联网的迅速发展 , WWW 上信息增长越来越快 , 传统搜索引擎已经不能满足用户的需求。将数据挖掘技术应用到搜索引擎领域 , 从而产生智能搜索引擎 , 将会给用户提供一个高效、准确的 Web 检索工具。文章首先介绍了搜索引擎的工作原理和相关概念 , 然后介绍了数据挖掘的概念。最后 , 详细讨论了数据挖掘技术在智能搜索引擎中的重要应用。关键词: 数据挖掘; 搜索引擎; Web 挖掘Abstract:With the rapid development
2、of the Internet and valuable information, the history search engine can t satisfy people s requirements . Combining the technology of data mining and search engine , intelligent search engine is formed,which will provide usersan effective and accurate web information search tool.This paper introduce
3、s the theory and correlative conception of search enginefirst,then introducesthe conception of data mining.In the end,the applications of data mining in intelligent search engine are discussed in detail.Keywords:Data mining;Search engine;Web mining1 引言随着 Internet 和 Web 技术的飞速发展和普及 , 信息获取已经从手工获取 , 到计算
4、机获取 , 以及到现在的通过网络进行信息获取。要想在这浩如烟海的网络世界中找到所需信息, 作为现代信息获取技术的主要应用- 搜索引擎是必不可少的。据 CNNIC 于 2005 年 1月 19 日发布的统计资料显示, 有 86.6%的用户是通过搜索引擎获得新网站的; 搜索引擎的应用占到网络应用的 65.0%, 成为第二大互联网应用, 它的应用广泛度仅次于电子邮件。 搜索引擎的出现极大的方便了用户, 但是由于搜索引擎是由传统检索技术发展而来 , 它存在很大缺陷, 例如: 返回结果表示方法简单, 逻辑运算符组合受限, 不能利用检索的历史信息等。在当前用户要求不断提高的情况下, 单单依靠传统搜索引擎已
5、经不能够满足人们的需要。例如, 当我们进行搜索时, 搜索结果中存在大量的无用信息 , 其比例高达 80%以上 , 搜索引擎通常会返回成千上万条结果, 而这些结果只是按照与查询的相关度从大到小排列成一个线性列表 , 缺乏清晰明了的结构, 这些结果中相关信息和无关信息掺杂在一起, 这就使得我们要想找到所需的信息仍旧存在很大困难。于是, 人们总结出了所谓的“因特网信息检索定律 ”: 在因特网上总能找到 ( 甚至只能找到 )不需要的东西为了解决这些问题, 进一步利用 Web 上的信息资源 , 人们开始研究信息获取的方法 , 提出了一些新的信息管理手段。 Web 挖掘就是其中之一 ,Web 挖掘是指将传
6、统的数据挖掘技术和 Web 结合起来, 既在 WWW 上挖掘有趣的、潜在的、蕴藏的信息以及有用的模式这样一个过程。将 Web 挖掘应用在搜索引擎中 , 可以改善检索结果的组织 , 提高查准率和查全率 , 增强检索用户的模式研究 , 对搜索引擎进行优化。2 搜索引擎概述 搜索引擎可分为四个模块: 搜索器, 索引器, 检索器和用户接口。搜索器根据一定的网页搜集策略和规划, 调度运行网页自动搜索软件( 如 Crawl、Spider、pursuit、harvest 等) , 对互联网上的网页进行快速有效的搜集, 并将它们存入搜索引擎的网页数据库中。常用的有三种搜索策略: 根据所提供的“种子 URL”开
7、始搜索 ; 根据网站受欢迎程度 , 规划一组 URLs, 然后开始搜索; 根据网址名称或国家编码 , 将 Web 空间划分为若干块开始进行搜索。索引器的功能是理解搜索器所搜索的信息, 从中抽取出索引项 , 用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。检索器的功能是根据用户的查询在索引库中快速检出文档, 进行文档与查询的相关度评价 , 对将要输出的结果进行排序 , 并实现某种用户相关性反馈机制。常用的信息检索模型有集合理论的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框, 复杂接口可
8、以让用户对查询进行限制。一个搜索引擎的好坏与以下几个因素有关: 网页覆盖率、网页更新率、网页检索速度、网页检索质量。3数据挖掘概述 我们现在已经生活在一个网络化的时代, 信息变化异常快速。面对信息爆炸的时代, 人们开始考虑:“如何才能不被信息淹没, 而是从中及时发现有用的知识、提高信息利用率? ”。面对这一挑战, 数据挖掘( 也称知识发现) 技术应运而生, 并显示出强大的生命力。 数据挖掘技术已被应用在商业数、电信和医疗保险等领域, Internet 的出现使它的应用更广阔, 用数据挖掘的原理来对网络数据进行深层挖掘, 发现并组织网络知识, 是将网络信息检索技术推向智能化高度的有效手段。于是,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 智能 搜索引擎 中的 应用
限制150内