複製鏈接
請複製以下鏈接發送給好友

向量空間模型

鎖定
向量空間模型(VSM:Vector Space Model)由Salton等人於20世紀70年代提出,併成功地應用於著名的SMART文本檢索系統。
中文名
向量空間模型
外文名
Vector Space Model
縮    寫
VSM
提    出
20世紀70年代
概念
VSM概念簡單,把對文本內容的處理簡化為向量空間中的向量運算,並且它以空間上的相似度表達語義的相似度,直觀易懂。當文檔被表示為文檔空間的向量,就可以通過計算向量之間的相似性來度量文檔間的相似性。文本處理中最常用的相似性度量方式是餘弦距離。
M個無序特徵項ti,詞根/詞/短語/其他每個文檔dj可以用特徵項向量來表示(a1j,a2j,…,aMj)權重計算,N個訓練文檔AM*N= (aij) 文檔相似度比較1)Cosine計算,餘弦計算的好處是,正好是一個介於0到1的數,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,餘弦的計算方法為,向量內積/各個向量的模的乘積.2)內積計算,直接計算內積,計算強度低,但是誤差大。
向量空間模型 (或詞組向量模型) 是一個應用於信息過濾,信息擷取,索引 以及評估相關性的代數模型。SMART是首個使用這個模型的信息檢索系統。
文件(語料)被視為索引詞(關鍵詞)形成的多次元向量空間, 索引詞的集合通常為文件中至少出現過一次的詞組。
搜尋時,輸入的檢索詞也被轉換成類似於文件的向量,這個模型假設,文件和搜尋詞的相關程度,可以經由比較每個文件(向量)和檢索詞(向量)的夾角偏差程度而得知。
實際上,計算夾角向量之間的餘弦比直接計算夾角容易:
餘弦為零表示檢索詞向量垂直於文件向量,即沒有符合,也就是説該文件不含此檢索詞。
通過上述的向量空間模型,文本數據就轉換成了計算機可以處理的結構化數據,兩個文檔之間的相似性問題轉變成了兩個向量之間的相似性問題。