欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年如何通过垂直搜索引擎构建自己的学术搜索引擎 .pdf

    • 资源ID:40217673       资源大小:219.77KB        全文页数:6页
    • 资源格式: PDF        下载积分:4.3金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4.3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年如何通过垂直搜索引擎构建自己的学术搜索引擎 .pdf

    如何通过垂直搜索引擎构建自己的学术搜索引擎课题背景随着因特网的发展,网上信息资源日益丰富且呈现出以下特点:(1)信息量大而且分散;(2)自治性强;(3)信息资源多种多样;(4)不一致和不完整性。这些给信息挖掘带来了挑战。一方面使其实用性不断加强,越术越多的人从网上获取信息:另一方面,人们经常会感到通过一般的搜索引擎难以找到自己想要的信息,对于具体专业或某一领域的内容尤其如此,如学术文献.所以,要从Internet上获取有价值的专业信息,就必须有专门的搜索引擎来获取专业性的信息。垂直搜索引擎 是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。学术搜索引擎学术搜索引擎顾名思义就是搜索学术资源的引擎,资源以学术论文、国际会议、权威期刊、学者为主,随着新一代搜索引擎的快速发展,学术搜索引擎应具备个性化、智能化、数据挖掘分析、学术圈等特色。23垂直搜索引擎的结构本文根据常用的搜索结构,有机地将分类目录式搜索引擎和基于查询串的搜索引擎结合起来,设计了一个垂直搜索引擎的体系结构,如图所示。其各部分功能简述如下:l、爬虫软件:也称为 spider,crawler 和robot 等,定向搜索各类信息前名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 6 页 -十名的网站,并负责将这些Web 文档搜集到原始数据库中。2、索引器:负责对原始数据库的文档构造索引,并且存储在索引数据库中。索引是检索的有利工具,好的索引机制会导致检索效率的提高。3、检索器:是垂直搜索引擎的核心。检索器利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户。4、用户接口:提供可视化的查询输入和结果输出界面。一般来说,在输出界面中,垂直搜索引擎将检索结果展示为一个线形的文档列表,其中包含了文档的标题和超链等信息。从图 可以看出:垂直搜索引擎系统包括搜集子系统、索引子系统和检索子系统三个组成部分。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 6 页 -231 搜集子系统搜集子系统的功能是在互联网中漫游、发现和搜集信息。它常常是一个计算机程序(也称为 spider,crawler 和robot 等),日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上信息更新很快,所以还要定期访问已经搜集过的旧信息,以避免死链接和无效链接。由于互联网中存在海量信息而且复杂多变,Web 搜集器的实现常常采用分布式、并行计算技术,以提高信息发现和更新速度。本文设计的 web 搜集器能够根据某一类信息需求,从互联网上的各个信息网站(主要是独立制作发布信息的网站),收集围绕着某个(或某类)主题的相关信息资料。它是垂直搜索引擎的核心部分名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 6 页 -232索引子系统索引予系统包括索引器和索引数据库。索引器将原始数据库的内容重新组织,建立索引数据库,以提高检索效率索引子系统如图27 所示。索引予系统的第一步就是为原始网页建立索引,实现图2-7中索引网页库;接下来对索引网页库进行分析,它包括提取正文信息和把正文信息切分为索引项两个阶段;最后将网页到索引项的映射转化为索引项到网页的映射,形成倒排文件(包括倒排表和索引项表),同时将网页中包含的不重复的索引项汇聚成索引项表。2321索引网页库索引网页库的任务就是完成给定一个URL,在原始网页库中定位到该URL 所指向的记录旧。如果不对网页库建立索引信息,可以通过顺序查找的方法完成URL 到指定记录的过程,但是会消耗大量的 I O,数据量增大的时候不能满足垂直搜索引擎的快速响应要求,所以需要创建索引。对原始网页集R,索引网页库算法描述如图28所示。网页索引文件以 ISAM(索引顺序访问模式)存储。这种结构可以保证数据的紧凑性和 O(1)的检索能力。为节省空间,索引文件中的每一行记录不保存文档的长度,因为文档长度可以通过后续文档起始位置偏移和当前文档起始位置偏移的差获得。URL 索引文件以 ISAM 存储,包含了 URL 的摘要和文档编号。为了能够快速地给指定的 URL 找到对应的文档编号,URL 索引文件按照 URL 摘要排序,这样就名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 6 页 -可以根据二分查找算法在URL索引文件中查找到对应的文档编号。2322分析网页分析网页包括提取正文信息和把正文信息切分为索引项两个阶段。形成的结果是文档号到索引项的对应关系表。每条记录中包括文档编号,索引项编号,索引项在文档中的位置信息。提取正文信息是本文研究的重点之一,垂直搜索引擎采用的是基于语法的信息抽取技术,详细内容将在第三章介绍。得到网页正文信息,调用分词程序,获得正向索引。垂直搜索引擎采用的分词算法全二分最大匹配快速分词算法将在第五章详细介绍。2323建立倒排文件垂直搜索引擎面临大量的用户检索请求(几十几千点击秒),要求垂直搜索引擎在检索程序的设计上要高效,尽可能地将大运算量的工作在索引建立时完成,使检索时的运算尽量的少。一般的数据库系统不能快速响应如此大量的用户请求,本文采用倒排索引技术。创建倒排索引包括建立正向索引和反向索引。分析完网页后,得到以网页编号为主键的正向索引表。当索引建立完成后,得到索引项到网页的编号的反向索引。这是一个表的重组的过程。倒排文件机制是一种面向索引项的机制,利用它可以提高检索速度。倒排文件结构由索引项和索引项出现情况两部分组成。对于每个索引项,都必须有一个列表(称为词汇表)来记录索引项在所有文本中出现的位置。名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 6 页 -233检索子系统检索子系统包括检索器和用户接口。用户接口在接收用户的查询请求后,将它转发给检索器,检索器根据查询项和索引数据库的内容,找到匹配的网页后,进行排序,然后通过用户接口返回给用户。24本章小结本章首先介绍基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,然后在此基础上,设计了垂直搜索引擎的系统结构,并介绍了各部分应完成的工作。其中涉及的关键技术:Web 搜集器、信息抽取技术、中文分词和检索技术方面的内容名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 6 页 -

    注意事项

    本文(2022年如何通过垂直搜索引擎构建自己的学术搜索引擎 .pdf)为本站会员(C****o)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开