模式识别_10720938_赵海红.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《模式识别_10720938_赵海红.doc》由会员分享,可在线阅读,更多相关《模式识别_10720938_赵海红.doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 研究生文献阅读课程文献阅读报告题 目: 基于用户行为的WEB内容分析研究 课程名称: 模式识别学 院:计算机科学与工程专 业:计算机科学与技术学 号: 10720938学生姓名: 赵 海 红 基于用户行为的WEB内容分析研究赵海红 10720938 计算机科学与工程摘要:互联网技术的迅猛发展把我们带进了信息爆炸的时代. 海量信息的同时呈现,同时也存在无序性,结构多样性的问题 ,使用户一方面很难从中发现自己感兴趣的部分 , 另一方面也使得大量少人问津的信息成为网络中的“暗信息”, 无法被一般用户获取. 本文力求为上述问题提出一个解决方案,提出了一种基于用户行为的WEB信息内容的分析。利用Goo
2、gle搜索引擎提供的结果,以及用户点击页面内容进这行分析,找到用户的一些兴趣爱好和相同兴趣爱好的群组,最后利用用户的爱好与群组,为用户提供各类服务。关键词: 协同过滤;User ConText;Query ConText;信息熵;信息检索Abstract: The rapid development of Internet technology brought us into the era of information explosion. Vast amounts of information at the same time show, there is also disorder, s
3、tructural diversity, allowing users from one hard to find parts of interest to the other also makes a lot of information Shaorenwenjin network of secret information and can not be general user access. The paper tries to propose a solution to these problems, a WEB based on user behavior analysis of i
4、nformation content. Use Google search engine results, and the user clicks the page content into this line of analysis, to find the users interests and the same number of group interests, the last use of the users preferences and groups, to provide users with various services.Key words: collaborative
5、 filtering; User ConText; Query ConText; information entropy; information retrieval随着 Internet迅猛发展,接入Internet的服务器数量和World-Wide-Web上的网页的数目都呈现出指数增长的态势。互联网技术的迅速发展使得大量的信息同时呈现在我们面前,例如 ,Netflix 上有数万部电影,Amazon上有数百万本书,Del1icio1.us上面有超过10亿的网页收藏,如此多的信息,别说找到自己感兴趣的部分,即使是全部浏览一遍也是不可能的。传统的搜索算法只能呈现给所有的用户一样的排序结果,无法针
6、对不同用户的兴趣爱好提供相应的服务。信息的爆炸使得信息的利用率反而降低,这种现象被称之为信息超载。个性化服务 ,包括个性化搜索、推荐等,被认为是当前解决信息超载问题最有效的工具之一。推荐问题从根本上说就是代替用户评估它从未看过的产品。这些产品包括书、电影、CD、网页、甚至可以是饭店、音乐、绘画等等,是一个从已知到未知的过程。本文力求为上述问题提出一个解决方案,提出了一种基于用户行为的WEB信息内容的分析。利用Google搜索引擎提供的结果,以及用户点击页面内容进行深入分析,找到用户的一些兴趣爱好和相同兴趣爱好的群组,最后利用用户的爱好与群组,为用户提供各类服务,也即使实现利用其他用户的喜好帮助
7、用户找到自己所喜好的网络资源。本文第一节讨论Query ConText的基本概念,第二节讨论User ConText的基本概念,第三节我们讨论用户之间协同度计算的问题,第四节用户聚类的问题,发现具有类似兴趣爱好的用户群。第五节是我们对实验结果的分析,第六节全文总结展望。第七节是致谢。1 Query ConText1.1 前提概念记录(Record,由Ri表示)记录是搜索结果的基本单位。由标题(Title),片段(Snippet),网页地址(Url)组成。一个搜索结果页面通常包含几条到几百条记录,因此适当的选取有用的记录是十分有必要的。标题(Title,由Ti表示)标题是记录的组成部分,主要是用
8、于鉴别一个页面的手段,标题中往往带有主题概念(Theme Concept)或者搜索关键词(Keyword)。因此很多用户使用标题来辨别他们感兴趣的内容。片段(Web_snippet,由Si表示)片段也是记录的组成之一,主要是向用户展现网页的重点内容,片段中往往也带有主题概念(Theme Concept)或者搜索关键词(Keyword),并且可能是用户感兴趣的内容,本文的片段就是搜索结果中的一条记录。概念(Concept,由C表示)概念是一条记录的最基本元素,通常由文本的关键词(Keyword)表示。但和关键词不同的是,概念是不带状态的词语。比如Contract和Contraction、foot
9、和feet都算同一种概念。概念间权重(表示为wij,即概念对概念的权重) 表示概念 和概念 之间在某种语境下的联系。1.2 Query ConText的概念Qeury ConText(用户搜索的语境),也就是用户在向Google提交查询词的时候,Google所给出的结果,我们通过这样的结果去表示用户所搜的这样的语境,这样就可以区分出不同用户提交查询词结果的相关度,同时Query ConText是基于用户独立的,也就是说只有在查询词相同的情况下Query Qontext才是一样的,即使不同用户输入的关键词相同,其中Query ConText是相同的,也就是说只与查询关键词有关,与具体的用户无关的
10、。现在由以下定义:定义1:(Query ConText,QC) 一个Query ConText是一个二元组QC(C,QR) 其中C=c1,c2,cn),在这里我成为非空概念结合,每个概念ci=,其中,sci表示第i个概念的语义,cwi表示这个概念的权值。QR=qr1,qr2,.,qrn是定义一个非空的关系集,其中qri表示概念cp与cq得关联度。 我们可以看到Query ConText不仅描述了各个概念,而且也描述了各个概念的关系,概念的权值表示这个概念对用户查询词的贡献度或者说关联度,各个关系度的大小表示了各个关系的强或者弱,Query ConText可以用一个概念关系图来表示。首先,让我们
11、对Query Context有一个大概的了解,其图例如下:图1 查询词Nokia的Query ConText的图1.3 Query ConText的概念的抽取通过以上的介绍我们已经清楚了什么是概念,但是也存在以下的现实情况的问题。首先,Google给我们提供的信息是大量的,所以在下载这些信息的时候也会花费大量的时间去得到这些结果。其次,我们去把所有的结果去直接单独的去分析也是不太实际的,所以我们就提取Google提供结果的前100条信息,同时只在Web_skippet提取概念(Web_skippet搜索结果的基本单位是记录,包括搜索的题目(Title),片段(Snippet),网站地址(Url
12、),以及一些相关的信息)。通过这样处理所得到的信息就可以实施概念的抽取。 概念抽取的方法是在数据挖掘中频繁集发现思想的启发,当用户把一个查询词提交给Google ,这样就可以给我们网页片段的集合,通过认知科学理论,如果一个概念频繁的出现在查询词的网页片段中,就说明这个概念对这个查询词是重要的,对此我们就用到支持度进行计算一个概念在网页片段中出现的频率其中n代表总共返回的记录条数, 表示一个频繁模式在所有记录中出现的频度。 表示频繁模式中出现过的词的个数,频繁模式的次数可能是1或者大于1的数字。需要说明一点的是用户的搜索词条(主题概念)是不参与此次计算的,也就是忽略了自身的支持度。通过支持度的计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 _10720938_ 赵海红
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内