2022年如何通过垂直搜索引擎构建自己的学术搜索引擎 .pdf
《2022年如何通过垂直搜索引擎构建自己的学术搜索引擎 .pdf》由会员分享,可在线阅读,更多相关《2022年如何通过垂直搜索引擎构建自己的学术搜索引擎 .pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、如何通过垂直搜索引擎构建自己的学术搜索引擎课题背景随着因特网的发展,网上信息资源日益丰富且呈现出以下特点:(1)信息量大而且分散;(2)自治性强;(3)信息资源多种多样;(4)不一致和不完整性。这些给信息挖掘带来了挑战。一方面使其实用性不断加强,越术越多的人从网上获取信息:另一方面,人们经常会感到通过一般的搜索引擎难以找到自己想要的信息,对于具体专业或某一领域的内容尤其如此,如学术文献.所以,要从Internet上获取有价值的专业信息,就必须有专门的搜索引擎来获取专业性的信息。垂直搜索引擎 是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分
2、字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。学术搜索引擎学术搜索引擎顾名思义就是搜索学术资源的引擎,资源以学术论文、国际会议、权威期刊、学者为主,随着新一代搜索引擎的快速发展,学术搜索引擎应具备个性化、智能化、数据挖掘分析、学术圈等特色。23垂直搜索引擎的结构本文根据常用的搜索结构,有机地将分类目录
3、式搜索引擎和基于查询串的搜索引擎结合起来,设计了一个垂直搜索引擎的体系结构,如图所示。其各部分功能简述如下:l、爬虫软件:也称为 spider,crawler 和robot 等,定向搜索各类信息前名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 6 页 -十名的网站,并负责将这些Web 文档搜集到原始数据库中。2、索引器:负责对原始数据库的文档构造索引,并且存储在索引数据库中。索引是检索的有利工具,好的索引机制会导致检索效率的提高。3、检索器:是垂直搜索引擎的核心。检索器利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按
4、照相关度递减的顺序排列,返回给用户。4、用户接口:提供可视化的查询输入和结果输出界面。一般来说,在输出界面中,垂直搜索引擎将检索结果展示为一个线形的文档列表,其中包含了文档的标题和超链等信息。从图 可以看出:垂直搜索引擎系统包括搜集子系统、索引子系统和检索子系统三个组成部分。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 6 页 -231 搜集子系统搜集子系统的功能是在互联网中漫游、发现和搜集信息。它常常是一个计算机程序(也称为 spider,crawler 和robot 等),日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上信息更新很快,所以还要定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年如何通过垂直搜索引擎构建自己的学术搜索引擎 2022 如何 通过 垂直 搜索引擎 构建 自己 学术
限制150内