PageRank算法解析.ppt





《PageRank算法解析.ppt》由会员分享,可在线阅读,更多相关《PageRank算法解析.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章 排序(PageRank),王海,目錄,背景介紹Google的網頁排序PageRank簡化模型PageRank的計算PageRank存在的問題,Google查詢過程,Google 查詢的全過程通常不超過半秒時間,但在這短短的時間內需要完成多個步驟,然後才能將搜索結果交付給搜索資訊的使用者。,PageRank?,PageRank的提出Google的創始人之一Larry Page於1998年提出了PageRank,並應用在Google搜尋引擎的檢索結果排序上,該技術也是Google早期的核心技術之一Larry Page是Google的創始首席執行官,2001年4月轉任現職產品總裁。他目前仍與
2、Eric Schmidt和Sergey Brin一起共同負責 Google的日常運作。他在斯坦福大學攻讀計算機科學博士學位期間,遇到了Sergey Brin,他們於1998年合夥創立Google。,目錄,背景介紹Google的網頁排序PageRank簡化模型PageRank的計算PageRank存在的問題,Google的網頁排序,在Google中搜索“體育新聞”,Google的網頁排序,在Google中搜索“體育新聞”搜尋引擎工作的簡要過程如下針對查詢詞“體育新聞”進行分詞“體育”、“新聞”根據建立的倒排索引,將同時包含“體育”和“新聞”的文檔返回,並根據相關性進行排序這裡的相關性主要是基於內
3、容的相關性但是會有一些垃圾網頁,雖然也包含大量的查詢詞,但卻並非滿足使用者需要的文檔,如下圖,一個網頁中雖然出現了四次“體育新聞”但卻不是使用者所需要的因此,頁面本身的重要性在網頁排序中也起著很重要的作用,查詢詞和文檔的相關性,Google的網頁排序,在Google中搜索“體育新聞”,Google的網頁排序,如何度量網頁本身的重要性呢? 互聯網上的每一篇HTML文檔除了包含文本、圖片、視頻等資訊外,還包含了大量的鏈接關係,利用這些鏈接關係,能夠發現某些重要的網頁直觀地看,某網頁A鏈向網頁B,則可以認為網頁A覺得網頁B有鏈接價值,是比較重要的網頁。 某網頁被指向的次數越多,則它的重要性越高;越是
4、重要的網頁,所鏈接的網頁的重要性也越高。,A,B,網頁是節點,網頁間的鏈接關係是邊,Google的網頁排序,如何度量網頁本身的重要性呢?比如,新華網體育在其首頁中對新浪體育做了鏈接,人民網體育同樣在其首頁中對新浪體育做了鏈接可見,新浪體育被鏈接的次數較多;同時,人民網體育和新華網體育也都是比較“重要”的網頁,因此新浪體育也應該是比較“重要”的網頁。,新華網體育,人民網體育,Google的網頁排序,一個更加形象的圖,鏈向網頁E的鏈接遠遠多於鏈向網頁C的鏈接,但是網頁C的重要性卻大於網頁E。這是因為因為網頁C被網頁B所鏈接,而網頁B有很高的重要性。,HTTP網頁鏈接示意圖,目錄,背景介紹Googl
5、e的網頁排序PageRank簡化模型PageRank的計算PageRank存在的問題,什麼是PageRankPageRank是一種在搜尋引擎中根據網頁之間相互的鏈接關係計算網頁排名的技術。 PageRank是Google用來標識網頁的等級或重要性的一種方法。其級別從1到10級,PR值越高說明該網頁越受歡迎(越重要)。 PageRank近似於一個用戶,是指在Internet上隨機地按一下鏈接將會到達特定網頁的可能性。通常,能夠從更多地方到達的網頁更為重要,因此具有更高的PageRank。如果要查看此網站PageRank值,請安裝GOOGLE工具條並啟用PageRank特性,或者在Firefox安
6、裝SearchStatus外掛程式。,PageRank演算法原理:,PageRank 的核心思想,PageRank 是基於從許多優質的網頁鏈接過來的網頁,必定還是優質網頁的回歸關係,來判定所有網頁的重要性。,鏈入鏈接數 (單純的意義上的受歡迎度指標) 鏈入鏈接是否來自推薦度高的頁面 (有根據的受歡迎指標) 鏈入鏈接源頁面的鏈接數 (被選中的幾率指標),因此,如果從類似於 Yahoo! 那樣的 PageRank 非常高的網站被鏈接的話,僅此網頁的 PageRank 也會一下子上升;相反地,無論有少鏈入鏈接數,如果全都是從那些沒有多大意義的頁面鏈接過來的話,PageRank 也不會輕易上升。,Pa
7、geRank簡單計算:,假設一個由只有4個頁面組成的集合:A,B,C和D。如果所有頁面都鏈向A,那麼A的PR(PageRank)值將是B,C及D的和。 繼續假設B也有鏈接到C,並且D也有鏈接到包括A的3個頁面。一個頁面不能投票2次。所以B給每個頁面半票。以同樣的邏輯,D投出的票只有三分之一算到了A的PageRank上。 換句話說,根據鏈出總數平分一個頁面的PR值。,PageRank的簡單計算過程,PR:0.1,PR:0.09,PR:0.08,PR:0.08,PR:0.03,0.05,0.05,0.03,0.03,0.03,PageRank的簡化模型,可以把互聯網上的各網頁之間的鏈接關係看成一個
8、有向圖。假設衝浪者瀏覽的下一個網頁鏈接來自於當前網頁。建立簡化模型:對於任意網頁Pi,它的PageRank值可表示為如下:其中Bi為所有鏈接到網頁i的網頁集合,Lj為網頁j的對外鏈接數(出度)。,PRi:網頁i的PageRank值PRj:網頁j的PageRank值Lj:網頁j鏈出的連接數Bi:鏈接到網頁i的網頁集合,目錄,背景介紹Google的網頁排序PageRank簡化模型PageRank的計算PageRank存在的問題,PageRank的計算,互聯網是一個有向圖;每一個網頁是圖的一個頂點;網頁間的每一個超鏈接是圖的一個有向邊;用鄰接矩陣來表示圖,即:定義鄰接矩陣為G,若網頁j到網頁i有超鏈
9、接,則gij=1;反之gij=0;顯然,如果網頁有N個,則矩陣為NN 的0、1方陣。,矩陣化PageRank問題,多個網頁相互鏈接的圖對應的鄰接矩陣G(這裡將0,1值用二值圖像顯示,黑色代表0,白色代表1),PageRank的計算,定義鄰接矩陣為G,若網頁j到網頁i有超鏈接,則 ;反之, 。記矩陣G的列和、行和分別是cj,ri分別給出了頁面j的鏈出鏈接數目和鏈入鏈接數目,PageRank的計算,假設我們在上網的時侯瀏覽頁面並選擇下一個頁面,這個過程與過去瀏覽過哪些頁面無關,而僅依賴於當前所在的頁面,那麼這一選擇過程可以認為是一個有限狀態、離散時間的隨機過程,其狀態轉移規律用Markov鏈描述。
10、定義轉移概率矩陣,PageRank的計算,根據Markov鏈的基本性質,對於正則Markov鏈,存在平穩分佈 ,滿足 x表示在極限狀態(轉移次數趨於無限)下各網頁被訪問的概率分佈。x定義為網頁的PageRank向量,xi表示第i個網頁的PageRank值,求矩陣A的特徵值1對應的特徵向量x,PageRank的計算:具體方法,x定義為網頁的PageRank向量,xi表示第i個網頁的PageRank值 直接求解:求矩陣A的特徵值1對應的特徵向量冪迭代法:給定x0,xk+1=Axk,例:假設世界上只有七張網頁,依次編號為ID=17,其抽象結構如下圖:,網頁鏈接圖的鄰接矩陣,0 1 1 0 1 1 0
11、 1 0 1 1 0 0 0 1 0 0 1 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0,G =,狀態轉移概率矩陣A,0 11/20 1/41/2 01/501/2 1/3 0 0 01/50 0 1/3 1/4 0 01/50 0 0 1/4 0 01/50 0 1/3 0 1/21 0 0 0 0 1/4 0 01/50 0 0 0 0 0,A =,PageRank的計算-直接求解,0.6994565338373890.3828604185215180.3239588156720540.242969111754
12、0400.4123112199462510.1030778049865630.139891306767478,0.3035143769968050.1661341853035140.1405750798722040.1054313099041530.1789137380191690.04472843450479230.0607028753993610,求矩陣A特徵值1對應的特徵向量x,歸一化,PageRank的計算-冪迭代求解,1/71/71/71/71/71/7 1/7,0.321428570.147619050.111904760.064285710.290476190.035714290
13、.02857143,0.303310470.166277790.140563450.105344470.179159360.044610650.06073381,0.303514570.166134160.140575020.105431220.178913820.044728450.06070277,x0,x1,x10,x20,0.3035143769968050.1661341853035140.1405750798722040.1054313099041530.1789137380191690.0447284345047920.060702875399361,直接法 x =,7個網頁的P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- pagerank 算法 解析

限制150内