面向基础教育领域的语义垂直搜索引擎构建,搜索引擎论文.docx
《面向基础教育领域的语义垂直搜索引擎构建,搜索引擎论文.docx》由会员分享,可在线阅读,更多相关《面向基础教育领域的语义垂直搜索引擎构建,搜索引擎论文.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、面向基础教育领域的语义垂直搜索引擎构建,搜索引擎论文近年来,随着数字化教育浪潮的不断推进,我们国家在教育资源建设方面已经获得了宏大的成就,各类教育资源的数量宏大且呈现几何级数增长。随着搜索引擎技术的发展, 通用搜索引擎的功能变得日益强大, 获得了很大的成功, 但其仍有局限性, 如搜索的深度不够, 且查准率低、时效性差。尤其是现有的通用搜索引擎的搜索方式是采用关键字的形式实现, 没有根据用户的个体差异知足用户的个性化需求, 其返回结果往往不令人满意。 基于语义的搜索引擎是指搜索引擎的工作不再拘泥于用户输入的本文关键词语,而是能够对这些本文关键词语进行语义推理。通过在语义的层面上把文档中本文关键词
2、语和其映射的概念进行关联, 能够部分解决文档语义理解的问题。语义搜索对网页文档信息所蕴含的语义信息进行充分挖掘, 同时把用户的检索要求转换成相应的语义表示, 基于领域本体对其进行识别和推理, 从语义层面理解用户查询, 并将基于本体推理的结果返回给用户。 本文从基础教育网络资源搜索的需求考虑,在开源技术Hadoop 和 Nutch 的基础上设计了面向基础教育领域的语义垂直搜索引擎,并对怎样实现语义搜索的关键技术进行了重点研究。 2、 系统框架设计 利用搭建在Hadoop 分布式系统上的 Nutch 开源软件进行面向基础教育的网络资源爬行,过滤掉与基础教育无关的信息,将爬行的内容进行解析、去重后存
3、入分布式数据库Hbase 中,接着利用人工构建及自动抽取技术实现教育资源本体库,再基于领域本体库实现对用户查询内容的语义检索,进而使得搜集信息具有 专、精、深 的特点,检索内容准确、可靠、快速且更新及时。该系统框架设计如此图1所示: 3 关键技术研究 种子网站的选取和过滤由于该搜索引擎是针对基础教育这一特定主题,为了是搜索站点的范围更具有代表性,只爬取和主题相关的URL,需要根据一定的策略算法对 网络蜘蛛 程序的初次爬行网址做一些过滤。这一经过借助Web- Harvest 开源软件对 intute、DMOZ 等开放式分类目录中的特定领域站点列表进行抽取, 构成站点描绘叙述XML 文件。为了获得
4、更多的种子站点, 能够使用能够代表领域特征的语词, 通过 Yahoo! Search API 进行检索来获得更多的候选站点URL。经过上述途径获得的候选站点, 需要根据 PageRank 值、连通情况指标及主题相关度预测算法进行初步过滤, 将影响力不大、难以访问及相关度不高的站点排除, 最后再通过人工方式进一步核查和分类, 最终获得高质量的站点种子。 网页自动去噪和去重通过 Nutch 抓取的网页, 除含有有效的正文内容外, 还携带有广告信息、客户端运行代码、版权声明、栏目设置等噪音信息。为了给后续的信息抽取、分析步骤提供高质量语料,减少噪音信息的干扰。设计在网页抓取阶段根据噪音信息的一般特征
5、设置网页去噪模块,对网页内容进行过滤。网页去重功能保证了抓取内容数据库中存储的网页是不重复的,可以以辨别新发布的页面。 搭建分布式系统基于开源云平台Hadoop搭建分布式系统,利用分布式平台提高信息抓取和信息检索的效率。充分利用Nutch面向接口的插件技术,对关键模块进行封装,使系统具有高度重用性,进而为今后该系统的扩展打下良好基础。 教育资源本体的构建随着语义网(Semantic Web)研究的不断深切进入和实践的 不断发展,十分是XML 和 RDF 技术的日趋成熟,以及 W3C 认定 OWL 语言后,基于语义网的本体论为有效地开发、管理和使用教育资源提供了解决方式方法。 当前还不存在一种被
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内