基于神经网络模型的新浪微博搜索排序方法,搜索引擎论文.docx
《基于神经网络模型的新浪微博搜索排序方法,搜索引擎论文.docx》由会员分享,可在线阅读,更多相关《基于神经网络模型的新浪微博搜索排序方法,搜索引擎论文.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于神经网络模型的新浪微博搜索排序方法,搜索引擎论文新浪微博是一个由新浪网推出, 提供微型博客服务的类 Twitter 网站。 用户能够通过网页、WAP 页面、手机客户端、手机短信、彩信发布消息或上传图片。 新浪能够把微博理解为 微型博客 或者 一句话博客 。 用户能够将看到的、听到的、想到的事情写成一句话,或发一张图片,通过电脑或者手机随时随地共享给朋友,一起共享、讨论;还能够关注朋友,即时看到朋友们发布的信息。 由于新浪微博的低门槛和社交的便利性, 当前它拥有的用户群体和微博数量急剧增加。 怎样能够快速精到准确地找到用户所感兴趣的或可能感兴趣的内容是本文主要的关注点。 当前与这个问题比拟类
2、似的问题是网页搜索, 由于网页搜索同样基于本文关键词语找到用户最需要的网页。 当前较成熟的是 Google 提出的 PageRank算法,它根据网页与本文关键词语的相关性和被引用程度对网页进行排序,进而预测用户比拟感兴趣的页面。 但是微博与网页之间还是存在着一些差异不同, 例如文本长度、文本引用关系、社交性等。 本文提出了一种新浪微博的搜索排序方式方法。 该方式方法首先通过对微博分析提取出可能影响因素, 然后使用神经网络模型和初始化参数对于微博进行评分排序, 最后使用网页日志修正模型参数不断提高模型的准确性。 1相关知识 1.1 搜索引擎 搜索引擎, 通常指的是收集了互联网上的网页并对网页中的
3、每一个文字即本文关键词语进行索引,建立索引数据库的全文搜索引擎。 用户输入要查询的本文关键词语,搜索引擎则把所有与该本文关键词语相关的网页根据与本文关键词语相关性的高低排序后提供应用户作为搜索结果。 搜索引擎的原理包括下面三步: 1从互联网上抓取网页:利用爬虫程序自动访问互联网上的网页, 并沿着任何网页中的所有链接爬到其他网页,以从互联网上自动收集网页。 2建立索引数据库:分析收集回来的网页 ,提取相关网页信息, 计算每一个网页针对页面文字中的相关度,再基于这些相关信息建立网页索引数据库。 3在索引数据库中搜索排序:当用户开场搜索本文关键词语时, 由搜索系统程序从网页索引数据库中找到符合该本文
4、关键词语的所有相关网页。 相关度越高, 排名越靠前。 关于搜索引擎的一些最近发展可参见文献2。 1.2 Lucene Lucene 是 apache 软件基金会 Jakarta 项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完好的全文检索引擎, 而是一个全文检索引擎的架构,提供了完好的查询引擎和索引引擎、部分文本分析引擎英文与德文两种西方语言。 Lucene作为一个全文检索引擎,具有如下突出的优点:索引文件格式独立于应用平台; 与传统全文检索引擎相比,提高了索引速度、实现分块索引,为新的文件建立小文件索引; 优秀的面向对象的系统架构; 索引器通过接受 Token 流完成
5、索引文件的创立, 文本分析接口与语言和文件格式无关。 Lucene 的具体使用方式方法可参见文献5。 1.3 人工神经网络 神经网络是人工智能的一种常用方式方法。 当前人工智能广泛应用于各个领域,通过模拟生物功能已是人们解决实际问题的一种有效方式方法。 人工神经网络就是由模拟生物神经网络而来,华而不实应用比拟多是 BP神经网络,BP 神经网络是一种具有三层或三层以上的多层神经元网络。 BP 网络按有老师学习方式进行训练,当一对学习形式提供应网络后,其神经元的激活值将从输入层经各中间层向输出层传播, 在输出层的各神经元输出对应于输入形式的网络响应。 接下来,根据的原则为减少希望输出与实际输出误差
6、, 从输出层经各中间层、 最后再回到输入层, 并且逐层修正各连接权。 正由于这种修正经过是由输出到输入逐层进行的,所以它被称为 误差逆传播算法 。 当这种误差逆传播训练不断进行时, 网络对输入形式响应的正确率也会不断地得到提升。 BP 网络的详细步骤可参见文献4。 2搜索排序架构与实现 本节将具体介绍我们排序服务的流程以及模块组成,同时对每一个模块给出其功能以及扼要的描绘叙述,主要目的是为了提供一个整体的框架的描绘叙述。 2.1 整体框架 整个排序服务以 Webservice 的形式提供服务,服务的框架包括两层,即路由层和控制层,路由层负责与前端界面和后台索引建立数据连接和传输, 控制层完成微
7、博的排序逻辑以及排序模型的递增训练。 图 1 是整体框架的示意图。 2.2 路由层 如此图 2 所示,路由层包括三个小模块:Search、Log-Grasp、GetJson。 它们共同完成了数据在前端界面排序服务以及后台索引之间的传输。 Search 模块: 该模块主要负责从页面端接收搜索关键字,并将搜索关键字通过 GetJson 模块传输给后台索引。经过后台索引的处理,将返回给 Search 模块相应的微博。 接着,Search 模块将从索引端获得的微博传递给控制层的排序模块处理, 进而获得排序结果前 20的微博。 最后该模块将 20 条微博返回给前端界面。 LogGrasp 模块: 该模块
8、负责从前端界面获取用户的点击日志,并将日志传递给控制层的 Model 模块,以便该模块通过日志对模型进行改良。 GetJson 模块:用于获得后台索引端返回的相应关键字的微博列表。 2.3 控制层 控制层用于实现微博的排序逻辑 , 包括排序Rank和模型Model两个子模块。 1排序模块 排序模块如此图 3负责详细实现微博排序的逻辑。 HandleRequest 模块将从路由层的微博参数解析,过滤掉无关的脏数据例如来自 iPhone、来自 iPad 等,并将参数传递给负责排序模型各维度处理的模块, 排序模型的维度模块包括作者相关属性模块AuthorDimen-sion、微博相关属性模块Arti
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内