-
潛在語義索引
鎖定
在傳統的向量空間模型中,文檔集合中的文檔被抽取成為若干個索引項,每個文檔由索引項構成一個文檔向量空間,而每個項在文檔集合中的各個文檔中的權值集合則構成了一個項向量空間。兩者結合在一起構成了文檔集合的向量空間。此模型存在兩個缺陷:向量模型假設所有的索引項是獨立無關的,但實際上可能存在兩個索引項(如索引項“電扇”和“電風扇”)是同義的;索引項的數量有時會很多,造成向量空間過大,不利於存儲和計算。
- 中文名
- 潛在語義索引
- 外文名
- Latent Semantic Indexing
- 簡 稱
- LSI
- 人 物
- T.K.Landauer、S.T.Dumais
- 定 義
- 將文檔組織成語義空間結構的方法
- 學 科
- 計算機技術
潛在語義索引科技術語
潛在語義索引(Latent Semantic Indexing,簡稱LSI)是T.K.Landauer、S.T.Dumais等人提出的一種將文檔組織成語義空間結構的方法。其原理是認為文檔的詞與詞之間存在着某種潛在的語義聯繫,通過統計分析,系統自動尋找這些潛在的語義聯繫,形成語義空間。潛在語義索引方法已經被證明是對傳統的向量空間技術的一種改良,它擴展了向量空間模型,模擬了利用奇異值分解計算文檔矩陣的潛在語義空間。因此,潛在語義索引可以用來克服語詞匹配過程中面臨的兩個問題:同義現象(人們選擇詞彙的可變性)和多義現象(同一個詞往往有不同的意思)。
例如,有四個索引項:卡車、貨車、司機和熊貓。對索引項“卡車”而言,其中“貨車”是同義詞,“司機”是有關係的詞,而“熊貓”則沒有關係。在向量空間模型中,假如檢索“卡車”,則在那些無“卡車”這個索引項的文檔中,有索引項“貨車”的文檔不會比有索引項“熊貓”的文檔具有更大的相似度。潛在語義索引通過對向量空間的降秩可以表示“卡車”和“貨車”的同義關係。
潛在語義索引是基於文檔間、文檔索引項間、文檔索引項和文檔間的潛在語義關係構建的一個語義空間,具有相似主題的文檔或者相近含義的索引項在該空間中對應的點之間的距離很近。
利用潛在語義索引的原理,可以通過對大規模文檔集合的統計分析,創建文檔矩陣和語義空間來揭示文檔間、索引項間、索引項與文檔間的潛在語義關係。潛在語義索引用正交的K維空間代替原來的空間,用該空間的點來表示索引項、文檔和檢索表達式。該空間就是潛在的語義結構的概念空間,消除了索引項之間的相關性,降低了向量的維數,在較低的概念空間,進行相似度計算。從而達到無同義詞庫或者知識庫的前提下,檢索系統也可以自動識別出文檔間、文檔索引項間、文檔索引項和文檔間的潛在語義關係,較好地解決單純索引項匹配方法中面臨的同義和多義現象,完善檢索系統性能的目的。
由於潛在語義索引可以計算出文檔間、文檔索引項間、文檔索引項和文檔間的相似度大小,在很多領域都可以得到運用,比如文本檢索、自動標引、文本摘要、信息過濾、雙語交叉過濾、垃圾郵件過濾、文本分類、個性化服務和用户反饋、智能檢索等方面。
[1]
潛在語義索引文檔語義空間的表示
在應用潛在語義索引方法的時候,首先需要表示出文檔集合的語義空間。簡單地説,潛在語義索引方法通過奇異值分解計算,將索引項、文檔和檢索表達式按照語義相關程度組織在同一語義空間中。在這一語義空間中,分散在不同文檔和檢索表達式中的同義詞之間的距離相近,主題語義接近的文檔和檢索表達式則位置相鄰。索引項、文檔和檢索表達式之間的聯繫就是它們之間的潛在語義關係。
傳統的檢索系統在面對這樣的情況時,一般對系統附上一個大型的同義詞庫或者知識庫,當文檔和檢索項沒有精確匹配的情況下,調用同義詞庫或者知識庫來提高召回率。但是,在實踐中編制一個覆蓋所有學科所有研究領域的同義詞庫或知識庫是不現實的,更不用説自然語言苧錯綜複雜、變化發展的。而基於潛在語義索引的檢索系統在沒有同義詞庫的前提下仍可以自動給出較為準確的檢索結果。
[1]