欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    探究云计算下大数据的信息检索技术应用(共5页).doc

    • 资源ID:19310075       资源大小:16KB        全文页数:5页
    • 资源格式: DOC        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    探究云计算下大数据的信息检索技术应用(共5页).doc

    精选优质文档-倾情为你奉上探究云计算下大数据的信息检索技术应用 摘要:近年来,云计算得到了较为快速的发展,更多的企业及个人都会将业务转移至在线运用中去,而在线的移动设备、自动传感系统、社交网络等应用都会产生大数据信息,使得信息呈现出爆炸式的增加。在廉价的计算能力及云存储条件下反而加剧了大数据的产生量,使得解决信息检索及收集问题成为了必然之势。本文主要探讨了云计算基础上如何对大数据信息进行收集以及如何检索信息。 关键词:云计算 大数据信息 信息检索 中图分类号:TP391.3 文献标识码:A 文章编号:1007-9416(2015)07-0000-00 云服务在近年来得到了快速的增长,尤其是电子商务及社交网络如视频、图片、音频等,是大数据快速增长的主要因素,这些数据往往只能够通过EB、PB、TB、GB甚至是ZB才进行描述。云计算如何对大数据信息进行正确地处理,如果能够从中获取到我们日常所需的信息则将会对整个人类社会产生巨大的影响。为此,云计算的大数据信息收集与检索将成为社会上科技应用的一个热点。 1 WEB信息收集及检索 信息的价值密度和信息的总量多少成反比,在成千上亿的信息页面之中,能够满足自身的需求信息可能只有几页。例如:一个多小时的视频播放,其有用的信息往往只存在几秒钟,而云计算拥有着超强的计算能力,要快速地获取处理结果需要通过云数据来进行。云计算如何在大量的数据中进行价值的挖掘是目前所需要尽快解决的问题。谷歌和百度等公司在信息检索上处于领先地位,基于云计算大数据信息时代下,其核心思想仍然需要借鉴于这两大公司的核心思想,其中,云计算中的大数据信息检索过程主要分为检索以及网页收录这两个过程。 信息检索云中的各个服务器都会对数据信息进行分析和排序,计算出较高“相关度”的服务器排在最前面,同时,对存储服务器上的信息进行分布式的检索,其检索的方式主要有广度优先以及深度优先这两种方式。检索的结果最终会收录在Index Repository上,而网页收录在搜索引擎的索引中,会由使用者所提出的申请搜索在Index Repository中进行。然后会把索引词库以及网页内容倒排序在索引之中,其中,网页的标题以及所有的连接数据都会储存在同一个索引里面,优先使用广度优先的方式来进行搜索,而网页内容则储存在另外一个优先的索引之中,便于深度优先方式的搜索。 信息检索云上各个主服务器中的数据是进行分析后再整理成的元数据。“相关度”高的服务器会排在最前面,然后再对存储服务器进行分布式的检索,其检索方式也是有广度优先以及深度优先这两种方式,其所检索得来的结果仍然会收录在Index Repository之中。而网页收录过程中会存在在搜索引擎的索引之中,当使用者提出搜索请求时,实际上是在Index Repository中进行信息搜索,其页面的内容则是依照PageRank的方法来计算出倒序索引列表,其存在于索引的存储器当中。页面的标题和连接数据也都会被统一储存在一个索引之中,便于广度优先进行搜索,而网页内容也同样是保存在另外一个索引之中,便于深度优先进行搜索。 不管是在使用者提出信息检索请求的过程中,还是在收录网页的过程中,相关度的计算方法都会被应用到。使用者在进行信息查询时往往所查询到的结果都会出现缓慢或是不及时的现象,因为搜索引擎中的缓存区基本上都是已经安排好的。尽管搜索引擎不知道使用者会搜索何种关键词,但为了将搜索有效率提升,建立了一个关键词的大词库,方便使用者搜索。 2 检索过程 2.1 信息搜索请求分析 使用者在引擎上输入关键词并提交搜索请求时,结果会在网页上显示出来,然后搜索引擎就会根据这次的请求进行仔细分析,并进行分词处理。分词处理若是按照请求进行空格分词,则要排除掉重复信息后才能得到所查询的关键词内容。若是进行中文分词会比较复杂,它主要有以下两种分词方式:(1)首先要进行字符串的匹配,字符串的匹配方式有最少切分、逆向最大匹配法和正向最大匹配法,然后分词的方法中,搜索引擎中会模拟人的思维来对句子进行了解并开始分词,句子表达式和词语进行相整合是为了更利于引擎的理解,它的基本思想为:分词时,会先将语句的意思及语法进行歧义的分析和处理,其主要由语义子系统、语法子系统以及分词子系统这三部分所组成,总称为控制系统。在总控制系统的作用下,搜索引擎能够模拟人类的思维来进行工作。(2)当出现相邻的词的时候,中文分词会将相邻的词当做一个次,因此,当使用者在输入关键词时,往往会出现如“的”、“吗”的停止词,搜索引擎在进行分词时往往会将其去除。 2.2 匹配搜索请求 搜索引擎对使用者的请求进行详细分析后,会匹配出适合的URL,而URL的数量非常之大,只有通过搜索引擎依照YRL的匹配程度进行排序,才能将其结果有序地显示出来。而系统把文档分词后的信息以及网页上的PageRank值与链接文件中的网页描述信息结合在一起后,它的检索结果排序就会被确定,确定后的结果就能够客观地显示在网页之中,可以在最大的程度上保证所搜索出来的结果和使用者所想要查询的内容一致。PageRank主要指的是:一旦一个同样的网页被不同网页多次指向,就说明了这个网页的质量较高且较为突出,因此,除了对网页的链接数量有所考虑之外,还可以参考网页本身级别。 3 结语 综上所述,云计算下的大数据信息检索技术在现实生活中面临着非常巨大的挑战,随着智能设备的普及,对于搜索引擎的应用会得更好的完善,并获取到相关的应用,大数据信息检索还要经过不断的实践研究,做出更完美的检索技术。 参考文献 1 李海秋.网络环境下信息检索技术研究J.计算机光盘软件与应用,2014(05). 2 薛向阳.基于内容的多媒体和跨媒体信息检索技术J.世界科学,2005(12). 3 王宏霞,艾树峰.数字图书馆信息检索技术的研究J.浙江传媒学院学报,2007(04). 4 时常青,张萌.基于互联网的图像信息检索技术J.电脑知识与技术,2008(34). 收稿日期:2015-06-26 作者简介:刘月(1982),女,辽宁铁岭人,硕士,讲师,研究方向:云计算、计算机网络、数据库、计算机教学与应用。专心-专注-专业

    注意事项

    本文(探究云计算下大数据的信息检索技术应用(共5页).doc)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开