人工智能搜索引擎算法在图书馆的运用,搜索引擎论文.docx
《人工智能搜索引擎算法在图书馆的运用,搜索引擎论文.docx》由会员分享,可在线阅读,更多相关《人工智能搜索引擎算法在图书馆的运用,搜索引擎论文.docx(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、人工智能搜索引擎算法在图书馆的运用,搜索引擎论文摘 要: 针对传统搜索引擎算法搜索内容需要占用大量人工劳动进行标记,反应信息和用户搜索信息匹配度低,无法理解人类语言输入等缺点,文中结合自然语言算法对信息的整合经过及理解用户语言经过进行优化。通过建立语料库、提取文本特征信息和模型训练等方式方法,提出了适用于智能搜索引擎的新型检索算法。文中在CSI语料库、AWS爬虫数据等数据集中进行了测试,测试结果表示清楚,该算法只需进行前期的人工干涉和标记,便能够自行搜集专业信息并自行展开机器学习和训练,进而降低维护及使用成本。 本文关键词语: 搜索引擎算法; 人工智能; 自然语言处理; 文本特征提取; 文本分
2、类; Abstract: There are faults in traditional search engine algorithms,such as taking up a lot of manual labor when searching content,low matching degree between feedback information and search information of users,disable in understanding human language input. So,the process of integrating informati
3、on and the process of understanding the user language are optimized based on natural language algorithm. Through establishing corpus,extracting text feature information and model training,a new retrieval algorithm suitable for intelligent search engines is proposed. In this paper,the tests are carri
4、ed out in data sets such as CSI corpus and AWS crawler data. The test results show that this algorithm can collect professional information and carry out machine learning and training by itself with only manual intervention and mark in the early stage,which greatly reduces the maintenance and use co
5、st. Keyword: search engine algorithm; artificial intelligence; natural language processing; text feature extraction; text classification; 0 、引言 搜索引擎是联络用户和数据库信息的重要桥梁1。当下各场景中的搜索引擎均面临着挑战,对于数据库中很多相近内容及相关项目,搜索引擎该怎样理解用户需求,且准确找到有用信息,是当前亟待解决的难题。在庞杂的交互信息中,用户输入描绘叙述不精到准确的情况下,怎样对模糊语义进行理解和解释,并找出数据库中关联度最大的内容,也是搜索
6、引擎需要考虑的问题。近年来,对于搜索引擎算法的研究均是怎样更好地组织文档或网页本文关键词语的排列关系、附属关系,进而提升搜索效率2,3,4,5;或是利用一些无监督的机器学习算法对搜索内容的相关程度进行排序6;除此之外,是对人类语义进行研究,尝试利用语义信息进行本文关键词语搜索7。 人工智能深度学习算法在计算机视觉、语音辨别、自然语言处理和游戏对战等领域有着明显优势。而当前的搜索引擎算法存在维护成本高、信息检索不准确、无法理解人类的分类知识、无法分析用户输入的语义等一般算法无法高效解决的问题8,9。所以,利用深度学习算法的优势,进而解决搜索引擎在语义理解方面存在的问题是一个有效途径。 1、 搜索
7、引擎算法 1.1、 算法原理 搜索引擎能发挥基础作用,基本由3个步骤构成10,11:(1)发现网络或数据库中的信息,搜集对信息的描绘叙述;(2)对信息进行提炼和分类,快速对信息进行组织,建立索引库;(3)搜索引擎的检索模块得到用户的信息描绘叙述,整理后在索引中搜索一样描绘叙述或相近的信息,得到库中一系列信息与描绘叙述信息的相关性得分。最后,根据相关性返回给用户。详细算法如下: (1)抓取网页技术。利用人工或半自动程序抓取数据库中的信息。每个成熟的搜索引擎均有自动抓取程序 爬虫(spider)。爬虫程序会利用网络中的超链接进行跳转,在每个网页中收集有效信息,分析内容并自动记录。 (2)处理网页内
8、容。网页被抓取之后,不能直接处理复杂的网络页面。所以,需要预处理工作简化网页中的其他程序模块。例如,网页上的内容多数为文字和图片信息。对于文字信息先进行关键字的提取,判定哪些为可代表整个内容的文字。然后建立索引,记录到数据库中。对于图片要进行分析,判定其大致内容。预处理工作还包括去除重复内容、判定网页内容、网络内容的重要程度、访问量等。 (3)展示检索内容。当用户输入关键字时,要理解本文关键词语并在索引中搜索相关信息,根据匹配程度和搜索网页的热度进行排序。除此之外,还会显示被索引网站的缩略图以供用户选择。 1.2、 搜索引擎算法 (1)目录式引擎算法。目录式搜索是先搜集信息,搜索信息的方式能够
9、半自动化完成。然后,由引擎编辑人员将阅读后的信息编辑成内容摘要形式,将资料内容高度概括后存储为多个标签信息,由此标签就可将电子图书馆中的资料分成多个分类。当用户使用时输入某个本文关键词语,搜索模块只需要将标签一样或相近的信息返回给用户,然后再由用户自行挑选。较多目录可以以由用户自行描绘叙述并上传,编辑人员采纳后能够应用于引擎的查找。此类引擎算法的人工标记经过利用了大量的人力物力进行总结和标记,虽总结信息准确、查询的质量高,但维护工作量较大。编辑需要的人工手段太多,在信息量剧增的时代背景下有着绝对的劣势。 (2)基于机器人的搜索引擎。搜索引擎寻找信息时利用爬虫算法以某种策略寻找网页,并摘取网页关
10、键字等信息,建立索引。搜索引擎定期的寻找网络资源,其搜索面广、信息量大、更新迅速。但会返回无效信息,浪费空间资源,且信息挑选时间较长,因而用户体验感较差。 (3)元搜索引擎。元搜索是一种全局调用工具,在用户输入搜索内容时,根据内容调用适宜的搜索引擎进行搜索,其通过一个友好的用户界面统一其他的引擎搜索内容。元搜索的覆盖面大、搜索效果好,但因其本质是调用其他独立的搜素引擎,所以调用不准时会有负面效果。 2、 基于人工智能的搜索引擎算法 2.1、 搜索引擎的缺陷 随着数据量的增长,大量系统中均需要搜索引擎来建立快速索引机制,电子图书的管理亦是如此。电子图书数据量大,容易对其进行归类,收集也相对简单,
11、但搜索引擎仍有一些问题:(1)搜索的精细化程度较低。搜索多个条件时弹出的信息不够精到准确,搜索条件过于细化时无法搜索到相近意思的内容。(2)搜索时多个本文关键词语的重要程度显然是不同的。搜索程序不能准确判定,搜索到的内容不是语义中的重要方面。(3)无法理解人类意图,只能根据人类数据寻找对应信息。例如,其无法在库中搜索到解决详细问题的专业知识,对非专业人员不适用。(4)无法搜索到某个词的相关联内容,例如书籍的作者、出版信息、专业门类等,此类信息必须用户进一步搜索才能得到。基于以上几点问题,人工智能算法在用户的语义理解和相关词条的关联方面均有着卓越的性能,可针对性的解决这些缺陷。 2.2、 自然语
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 农业相关
限制150内