複製鏈接
請複製以下鏈接發送給好友

相關反饋

鎖定
相關反饋,起源於信息檢索系統領域,其思路是將給定查詢最先返回的結果,和這些結果是否與新查詢是否相關的信息利用起來。區別三種類型的反饋將很有意義:顯式反饋、隱式反饋和盲式或偽反饋。
中文名
相關反饋
起    源
信息檢索系統領域

相關反饋顯式反饋

顯式反饋是從相關性評估者那裏獲取的,這裏的相關性表示檢索文檔與查詢的相關程度。只有當評估者(或系統的其他用户)清楚所提供的反饋是被解釋為相關性判斷依據時,這種類型的反饋才能稱為是顯式的。
用户可能將相關性用二元分級的相關機制來顯式表示。二元相關反饋表示文檔相對於給定的查詢要麼相關,要麼不相關。而分級的相關反饋則使用數字、字母或其它描述(如“不相關”,“一點相關”,“相關”,或“很相關”)來表示文檔與查詢的相關程度。當評估者將結果中的文檔按照相關性排序(通常時降序)時,分級的相關反饋也需要使用這種由評估者創建的文檔序號形式,Google在搜索網站中實現的SearchWiki就是這樣一個例子,
相關反饋信息需要結合原始查詢才能提高檢索性能,如著名的Rocchio算法
性能度量在2005年左右變得流行起來,其用來衡量排名算法的有用性,其中基於顯式相關反饋的性能度量是NDCG,其它的度量包括k上查準率與平均查準率。

相關反饋隱式反饋

隱式反饋是從用户行為中推斷出來的,這些行為比如觀察用户選擇查看或不查看哪些文檔,查看文檔所持續的時間,或者瀏覽頁面、捲動滾動條操作。
隱式反饋與顯式反饋最主要的區別包括:
  1. 用户並不需要為了考慮IR系統需要而去評估相關性,而只關注自己的需要能否滿足即可;
  2. 並不需要告知用户他們的行為會被用於相關反饋。
其中的一個例子是Surf Canyon瀏覽器擴展,基於用户交互(點擊圖標)和搜索結果鏈接頁面上的時間花費,來提前從結果集中的後續頁面中搜索結果。

相關反饋盲式反饋

偽相關反饋,也稱之為盲式相關反饋,提供的是一種自動局部分析方法,它可以自動化相關反饋的手動操作部分,因此用户可不用參與額外的交互也可以獲得更好的檢索性能。這種方法首先通過普通檢索從最相關的文檔中尋找到一個初始結果,然後假定其中的前"k"排名文檔是相關的,最後在這個假設條件下像前面一樣進行相關反饋。過程步驟如下:
  1. 把初始查詢返回的結果當成相關結果(在大多數實驗中僅前k個,k位於10和50之間的數);
  2. 使用如TF-IDF權重的方法從這些文檔中選擇前20-30(象徵性的數字)個詞語;
  3. 執行查詢擴展,將這些詞語加入到查詢中,然後再去匹配查詢所返回的文檔,最終返回最相關的文檔。
一些實驗,如發表在(Buckley et al.1995)的Cornell SMART系統,在TREC 4實驗環境中使用偽相關反饋提升了其檢索系統的性能。
這種自動化技術在大多數情況下都工作正常,有證據表明甚至好於全局分析。 [1]  通過查詢擴展,一些在初始查詢中錯過的文檔能被重新獲得,從而提高了整體性能。很顯然,這種方法的效果非常依賴於所選擇的擴展詞語的質量,已經發現它在TREC即席任務中提高了性能。但是它又避免了自動處理過程的危險,例如,如果需要查詢的是銅礦,而且位於前面的一些文檔都是關於智利的銅礦,那麼在查詢方向上會逐漸偏向於那些與智利有關的文檔。 [2]  然而,如果加入原始查詢的詞語與查詢主題並不相關,檢索質量有可能會下降,尤其是在Web搜索中,Web文檔經常會覆蓋多個不同的主題。

相關反饋使用相關性信息

利用相關性信息,可使用相關文檔的內容來調整原始查詢中詞語的權重,也可使用這些內容將詞語加入到查詢中,相關性反饋經常使用Rocchio算法實現。
參考資料
  • 1.    Jinxi Xu and W. Bruce Croft, Query expansion using local and global document analysis, in Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR), 1996.
  • 2.    Yuanhua Lv and ChengXiang Zhai, Positional relevance model for pseudo-relevance feedback, in Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval (SIGIR), 2010.