複製鏈接
請複製以下鏈接發送給好友

超鏈分析

鎖定
超鏈分析的基本原理是在某次搜索的所有結果中,被其他網頁用超鏈指向得越多的網頁,其價值就越高,就越應該在結果排序中排到前面。 [1] 
超鏈分析是一種引用投票機制,對於靜態網頁或者網站主頁,它具有一定的合量性,因為這樣的網頁容易根據其在互聯網上受到的評價產生不同的超鏈指向量,超鏈分析的結果可以反映網頁的重要程度,從而給用户提供出更重要、更有價值的搜索結果。 [1] 
中文名
超鏈分析 [2] 
外文名
Hypertext Link [2] 
功    能
分析網絡數據 [1] 
主要算法
PageRank算法和HITS算法 [3] 
應    用
指導網頁採集等 [2] 
所屬領域
計算機科學技術 [1] 

超鏈分析主要思想

超鏈分析主要利用數學(主要是統計學和拓撲學)和情報學方法,對網絡鏈接的自身屬性、鏈接對象、鏈接網絡等各種現象進行分析,以便揭示其數量特徵和內在規律的一種研究方法。在超鏈分析中,常將web看成一個有向圖進行研究,用G=(V,E)表示,其中: [3] 
(1)V:由網頁構成的節點集合,p,q∈V,p≠q; [3] 
(2)E:由網頁間的超鏈接構成的有向邊集合:p→q∈E; [3] 
(3)p→q:節點p有一條超鏈接指向q,其中,p為q的鏈入網頁,稱為鏈源,a為p的鏈出網頁,稱為鏈宿; [3] 
(4)出鏈:p指向其它節點的超鏈接; [3] 
(5)入鏈:其它節點指向p的超鏈接; [3] 
(6)F(p):節點p所指向的節點集合; [3] 
(7)B(p):指向p的節點集合; [3] 
(8)節點出度:節點的出鏈數量; [3] 
(9)節點入度:節點的入鏈數量; [3] 
可以這樣考慮鏈接p→q的意義:網頁p告訴那些已經訪問了網頁p的用户,他們可以沿着網頁p所創建的超鏈接對網頁q進行訪問。這樣兩個網頁之間的超鏈接可能表明p和q兩者具有相關的興趣主題。p→q表明p對q內容的某種程度的認可:可以説,超鏈接是p承認q權威性的一種方法。事實上,這個超鏈接給q的內容提供了某種評價,而這種評價是q的作者沒法控制的。 [3] 
這樣,網頁作者通過鏈接的創建和指向選擇,為用户提供了有價值的信息引導,使他們能夠訪問到與原網頁主題相關的其它網絡資源。這是一個對網頁進行評論的自然過程。通過對web圖進行觀察,節點間存在着類似引文分析的關係: [3] 
  1. p,q,s∈V,如果p→q,q→s,則有p→→s存在,表示可傳遞(Transitive)關係,表示網絡瀏覽過程中,可以沿着超鏈接在不同網頁間穿梭訪問。 [3] 
  2. p,q,s∈V,如果p→s,且q→s,則p和q具有耦合關係(Coupling),耦合度越大,相關性也越大。 [3] 
  3. p,q,s∈V,如果s→p,且s→q,則p和q具有同引關係(Co-Citation),同引度越大,相關性也越大。 [3] 

超鏈分析主要算法

超鏈分析算法建立在兩個假設之上: [3] 
  1. 兩個網頁間存在鏈接關係表示兩個網頁之間內容相關; [3] 
  2. 如果兩個網頁存在鏈接關係,那麼表明一個網頁的作者認為另一個網頁是有價值的。PageRank算法和HITS算法是其中兩種影響相當廣泛的算法,並在實際中得到了實現和使用。 [3] 

超鏈分析PageRank算法

PageRank算法最早由L·Page和S·Brinls為Google原型所提出的一種與查詢無關的算法。該算法將超鏈分析的兩個假設進行了引中,並作為其基本思想: [3] 
  1. 如果一個頁面被多次鏈接,則這個頁面很可能是重要的; [3] 
  2. 如果一個頁面儘管沒有被多次鏈接,但被一個重要頁面鏈接,則這個頁面很可能是重要的; [3] 
  3. 一個頁面的重要性被均勻分配,並被傳遞給所有它所鏈接的頁面。 [3] 
PageRank計算網頁A權威度的公式: [3] 
[3] 
公式説明: [3] 
  1. PRn(A):網頁A的PageRank值。 [3] 
  2. PRn-1(Ti):網頁Ti存在指向A的鏈接,並且網頁Ti在上一次迭代時的PageRank值。 [3] 
  3. C(Ti):網頁Ti的外鏈數量。 [3] 
  4. d:阻尼係數,0i將自身d的份額的PageRank值平均分給每個外鏈。由於網頁Ti指向網頁A,因此網頁A獲得來自網頁T的C(Ti)分之一的PageRank值。 [3] 
阻尼係數d的引入是為了降低了這個概率。阻尼係數d定義為用户不斷隨機點擊鏈接的概率,所以,它取決於點擊的次數,被設定在0和1之間。d的值越高,連續點擊鏈接的概率就越大。因此,用户停止順鏈點擊並隨機衝浪至另一頁面的概率在公式中用常數(1-d)表示,這也就是頁面本身所具有的權威值。 [3] 

超鏈分析基於中心—權威的HITS算法

HITS算法最早由Kleinberg在參與IBM的Clever項目時提出的一種依賴於查詢的超鏈分析算法,該算法的基本思想是: [3] 
  1. 權威(authority)網頁和中心(hub)網頁的概念,權威網頁是被大量超鏈接所指向的網頁,中心網頁本身未必具有權威性,但卻包含了多個指向權威網頁的超鏈接的網頁; [3] 
  2. 權威網頁和中心網頁之間的依賴關係,一個好的中心網頁應該指向很多好的權威網頁,而一個好的權威網頁則應該被很多好的中心網頁所指向。 [3] 
給定一個寬主題查詢Q,HITS算法的基本步驟為: [3] 
  1. 用基於文本內容檢索的搜索引擎進行查詢,從返回結果集合中提取排序分值最高的一組(通常為200個)網頁構成一個根集R(root set); [3] 
  2. 將R中的網頁的鄰接網頁(指向R中網頁的網頁,以及R中網頁所指向的網頁,最多為50個)包含進來,使根集合擴展為基集B(base set); [3] 
  3. 從B中導出主題子圖,G[B]=(V,E); [3] 
  4. 迭代計算直到收斂,對於所有V∈V,其權威值為a(v),中心值為h(v)。每次迭代後需要對a(v)和h(v)進行規範化處理。 [3] 
  5. 將計算結果中,排列中心值前n位的網頁和排列權威值的前n位的網頁作為結果輸出,n∈[5,10]。 [3] 

超鏈分析研究熱點

超鏈分析作為一種研究超文本環境極為重要的工具,在互聯網研究領域具有極其重要的理論研究價值和廣泛的應用背景。同時,超鏈分析的研究從總體上説尚處於一個起步的階段,已有的研究工作正為這個領域提出越來越多需要解決的問題。以下是目前進行的幾個熱點研究方向: [2] 

超鏈分析和超鏈接的錨文本內容相結合

在TREC測試集上結合文本進行超鏈分析研究,可以提高檢索的質量,提高幅度可達10%以上,基於熵的超鏈分析改進就是典型結合示例。 [2] 

超鏈分析超鏈分析與概念、本體、語義網等技術結合

自然語言理解技術可以促進搜索技術的發展。和概念、本體、語義網等技術相結合是超鏈分析技術的一個新的熱點。 [2] 

超鏈分析噪音超鏈的識別與消除

Web上不是每個超鏈都包含了有用的信息,比如廣告,站點導航,贊助商,用於友情交換的超鏈,對於超鏈分析不僅沒有幫助,而且還影響結果。如何有效的去除這些無關超鏈,也是超鏈分析算法的一個關鍵點。 [2] 

超鏈分析應用領域

超鏈分析指導網頁採集

一般的爬行器是根據網頁之間的鏈接信息來採集網頁,不考慮網頁質量的好壞。如果只想採集高質量的網頁,就要按照網頁質量的高低依次來進行採集,使得儘可能多地獲得高質量的網頁。網頁鏈接分析為判斷網頁的質量提供一種手段。搜索引擎Google就是充分利用PageRank算法來提高Google爬行器的爬行性能。 [3] 

超鏈分析輔助結果排序

當用户向搜索引擎提交查詢式的時候,搜索引擎返回的結果及其排序依賴於查詢式處理器和搜索引擎所使用的算法。從用户的角度看,希望將最相關、最重要的結果放在前面。採用超鏈分析的排序我們稱之為“連通性排名”(Connectivity-Based Ranking)。連通性排名可以分為查詢獨立模式(Query Independent Schemes)和查詢依賴模式(QueryDependent Schemes),前者使用的是著名的PageRank算法,後者使用的是HITS算法。 [3] 

超鏈分析檢索結果聚類

目前搜索引擎的搜尋結果還不能令人滿意。因為用户在提交一個查詢式的時候,返回的結果可能屬於不同的領域,而用户一般關注的只是其中一個領域。考慮這種情況,有些學者向利用超鏈分析理論對檢索結果進行聚類,將聚類後的結果提供給用户來瀏覽。 [3] 

超鏈分析改進網絡信息檢索質量

以網頁為檢索對象,以超鏈分析為核心算法的網絡信息檢索,打破了線性存儲的限制,為用户提供了比傳統的信息檢索範圍更廣泛的檢索空間。在搜索引擎的網頁爬行方面,超鏈分析方法可以優化爬行策略,如認為搜索引擎應儘量返回和查詢主題相關的權威網頁,因此在爬行中應有一個積累和評價機制。在算法中,可以按照深度優先或廣度優先的算法從一批起始網頁開始收集,當網頁提取回來後,採用相應的遞歸算法來計算出網頁的中心值和權威值,以逐步確定該主題的權威網頁集合。這樣,在爬行時更具針對性、性能更高效。在搜索引擎檢索結果的評價和排序方面也是超鏈分析方法的重要應用領域。 [4] 
由於資源索引數據庫的容量十分龐大,若用户輸入一個關鍵詞,有可能會有成千上萬條記錄相匹配,搜索引擎對如此龐大的結果如何排序,如何把最相關的幾十條記錄顯示出來算法通過網頁權威值的運算,給每個網頁一個獨立於查詢的評價數值,搜索引擎就據此對結果集中的記錄進行提取和排序,從而大大減輕了用户信息過濾的負擔。百度等搜索引擎就採用了超鏈接分析技術來對檢索結果排序。 [4] 

超鏈分析擴大網絡主題和虛擬社區發現空間

網頁作者在創建鏈接的過程中並不是隨意和無序的,通常會對自身的主題內容和鏈接需求進行評價,以其通過信息流動來獲得網絡的認可。雖然超鏈接創建的邊際成本幾乎為零,但通常會顧及自身質量和用户期望,他們通常會有選擇地優先考慮那些他們認為是重要性或是權威性較高的網頁。因此具有相近社會背景或是學科背景的網頁會通過超鏈接逐漸聚集在一起,形成一個個的主題集合。在眾多的資源發現技術中,算法佔有重要的作用,如實驗室的系統、系統研究中心的幾户項目都是以算法為核心的。 [4] 
通過節點和超鏈接可以方便的擴展主題空間,從而使用户就某一主題形成具有社會學屬性的社區提供了平台。可以説,在極度分散和無序的環境中,存在着成千上萬的虛擬社區,有些己經以非常清晰的形式表現出來如門户網站中的層次目錄結構,但更多的是潛在地、未被發現或定義的。在社區發現的理論研究上主要結合社會網絡分析方法,認據此提出了超鏈接網絡理論。在社區的形成機制上主要有等人的隨機拷貝機制、等人的偏好性依附機制,他們認為由於超鏈接的創建包含了人的判斷,使得原本離散的、無計劃的創建過程並不是隨機,而是通過有目的的超鏈接積累,從局部到全局的逐步構建的過程。 [4] 

超鏈分析提高網絡資源的評價質量

在web中常常有這樣的現象,受歡迎的網頁點擊率一般較高,相應的入鏈數量也較多。從直觀上看,超鏈分析可以作為判斷網頁重要性和網絡生命力的重要因素之一,這些在超鏈分析算法產生和改進方面都產生了深刻的影響,如基於隨機衝浪模型的PageRank就將“網頁的權威性和它的入鏈數量成正比,入鏈數量越多就更具權威性”作為重要的實現條件之一,並以此來計算衡量網頁權威性的權威值而基於中心一權威的HITS算法則以主題關聯為出發點,以中心值和權威值的計算來全面衡量網頁存在價值和生命力。以網絡社會學為基礎的超鏈接網絡理論,則立足於網頁作者的社會學屬性,將作者的主觀判斷和理性選擇作為評價網絡資源的基礎。通過評價有助於優化網頁設計,尤其是通過提高鏈接的有效性,如減少懸空鏈接或死鏈接來提升自身的認可程度。此外,還可以根據網絡鏈接結構,來析站點的聯繫程度、集中度,通過網絡結構的佈局分析合理配置資源,以保證信息傳輸的順暢和用户期望的實現。 [4] 
另一個在網絡資源評價研究領域佔有十分重要地位的是網絡計量學,而超鏈分析也是其重要研究工具之一,以用來發現核心網站。相對於引文分析法的“影響子”,web網頁的影響因子可以簡單的對應為該網頁的入鏈數量。雖然這種簡單的度量方法在實際應用有諸多限制,如,它通常會使一些具有寬主題的網頁獲得很高的分值,但這可以通過網站計分法和線性代數方法對此進行改進,如百度創始人李彥宏1996年提出的“人氣質量定律”那樣,用鏈接分析法進行統計網站被鏈接和訪問次數,可以作為評價網站和網絡信息資源質量的一個指標,再加上相應的鏈接文字分析,就可以脱離對詞頻統計的依賴對搜索結果進行的按相關性排序 [4] 

超鏈分析存在缺陷

用户在搜索關於某些內容的有效信息時,最大的特點是各異性。利用超鏈分析技術,用户將接受一種根據某種標準進行網頁排名的信息服務,從而演變成為各網站想盡辦法追求網頁排名的商業活動。 [1] 
海量的網頁被收集回來,用姓名、電話、單位名稱或網名都可以搜索到許多含有此關鍵字的信息,這些信息有不少侵權、侵犯隱私、泄露機密的信息,尤其是大量論壇的貼子被收錄,不少貼子言論含有攻擊的成分。所以如何及時處理掉這些鏈接又是搜索引擎急需解決的問題。 [1] 
參考資料