反饋

基於內容的圖像檢索

基於內容的圖像檢索，即CBIR(Content-based image retrieval)，是計算機視覺領域中關注大規模數字圖像內容檢索的研究分支。典型的CBIR系統，允許用户輸入一張圖片，以查找具有相同或相似內容的其他圖片。而傳統的圖像檢索是基於文本的，即通過圖片的名稱、文字信息和索引關係來實現查詢功能。

這一概念於1992年由T.Kato提出的。他在論文中構建了一個基於色彩與形狀的圖像數據庫，並提供了一定的檢索功能進行實驗。此後，基於圖像特徵提取以實現圖像檢索的過程以及CBIR這一概念，被廣泛應用於各種研究領域，如統計學、模式識別、信號處理和計算機視覺。

相關研究已發展近20年，傳統的搜索引擎公司包括Google、百度、Bing都已提供一定的基於內容的圖像搜索產品。如：Google Similar Images，百度識圖。

中文名: 基於內容的圖像檢索
外文名: Content-based image retrieval

類別: 技術
提出時間: 1992年

基於內容的圖像檢索工作流程

基於CBIR 技術的圖像檢索系統，在建立圖像數據庫時，系統對輸入的圖像進行分析並分類統一建模，然後根據各種圖像模型提取圖像特徵存入特徵庫，同時對特徵庫建立索引以提高查找效率。而用户在通過用户接口設置查詢條件時，可以採用一種或幾種的特徵組合來表示，然後系統採用相似性匹配算法計算關鍵圖像特徵與特徵庫中圖像特徵的相似度，然後按照相似度從大到小的順序將匹配圖像反饋給用户。用户可根據自己的滿意程度，選擇是否修改查詢條件，繼續查詢，以達到令人滿意的查詢結果。^[1]

基於內容的圖像檢索技術概述

CBIR的核心是使用圖像的可視特徵對圖像進行檢索。本質上講，它是一種近似匹配技術，融合了計算機視覺、圖像處理、圖像理解和數據庫等多個領域的技術成果，其中的特徵提取和索引的建立可由計算機自動完成，避免了人工描述的主觀性。用户檢索的過程一般是提供一個樣例圖像(Queryby Example) 或描繪一幅草圖(Queryby Sketch) ，系統抽取該查詢圖像的特徵，然後與數據庫中的特徵進行比較，並將與查詢特徵相似的圖像返回給用户。^[2]

CBIR 的實現依賴於兩個關鍵技術的解決:圖像特徵提取和匹配。

圖像特徵提取分為兩類:①低層視覺，其內容主要包括顏色、形狀、紋理等；②語義內容，它包含高層的概念級反應(如“海上生明月”)，需要對物體進行識別和解釋，往往要藉助人類的知識推理。由於計算機視覺和圖像理解的發展水平所限，使得CBIR還無法真正支持基於語義的圖像檢索，所以研究得較多也比較成熟的檢索算法大部分是基於圖像的低層特徵的，即利用圖像的顏色、紋理、形狀等特徵來檢索。^[2] 提取後的圖像特徵數據需要經過索引、降維等處理。首先，圖像由特徵向量表示，而這些特徵向量一般都是高維向量，在龐大的圖像數據庫中，對高維向量進行順序比較的過程是相當費時的。在實際應用過程中，為了讓基於CBIR的圖像檢索系統能夠真正適合大型的圖像數據庫，提高檢索效率，儘可能減少查詢時的特徵矢量比較時間，往往將降維技術和多維索引技術結合起來。

圖像相似度是指人類對圖像內容認識上（即語義）的差異，導致通過計算查詢樣圖和候選圖像之間在視覺特徵上存在距離。如果這個距離滿足一定條件，我們則可以説這兩圖像相似度匹配。當然，如果能將語義特徵和視覺特徵結合起來，相似度匹配程度會更高，檢索結果會更讓人滿意，但這是研究的一大難題。

基於內容的圖像檢索特徵提取

底層圖像特徵包含顏色、紋理、平面空間對應關係、外形，或者其他統計特徵。圖像特徵的提取與表達是基於內容的圖像檢索技術的基礎。從廣義上講，圖像的特徵包括基於文本的特徵（如關鍵字、註釋等）和視覺特徵（如色彩、紋理、形狀、對象表面等）兩類。視覺特徵又可分為通用的視覺特徵和領域相關的視覺特徵。前者用於描述所有圖像共有的特徵，與圖像的具體類型或內容無關，主要包括色彩、紋理和形狀；後者則建立在對所描述圖像內容的某些先驗知識（或假設）的基礎上，與具體的應用緊密有關，例如人的面部特徵或指紋特徵等。

基於內容的圖像檢索顏色

顏色是彩色圖像最底層、最直觀的物理特徵，通常對噪聲，圖像質量的退化，尺寸、分辨率和方向等的變化具有很強的魯棒性，是絕大多數基於內容的圖像和視頻檢索的多媒體數據庫中使用的特徵之一。顏色特徵的描述方法主要有以下四種：

顏色直方圖(ColorHistogram)^[3]

它是最簡單也是最常用的顏色特徵，描述了圖像顏色的統計分佈特性，具有平移、尺度、旋轉不變性。其核心思想是在顏色空間中採用一定的量化方法對顏色進行量化，然後統計每一個量化通道在整幅圖像中所佔的比重。

常用的顏色空間有RGB，CIE，HSI，HSV空間等，主要的量化方法有最重要信息位、顏色空間劃分、顏色空間聚類、參考顏色、圖像分割等，文獻中討論了對這些方法進行了討論和總結。^[4] 由於顏色直方圖缺乏顏色的空間分佈信息，改進的方法包括在顏色索引時加入空間位置信息和基於區域的顏色查詢。最簡單的方法是子窗口直方圖法，即將圖像分割成子圖像，一一建立索引。另一文獻中將圖像分成了大小相等的九個子圖像，然後統計每個子圖像中的顏色直方圖。^[5]

顏色相關圖(ColorCorrelogram)^[6]

其主要思想是用顏色對相對於距離的分佈來描述信息，它反映了像素對的空間相關性，以及局部像素分佈和總體像素分佈的相關性，並且容易計算，特徵範圍小，效果好。

顏色矩(ColorMoment)^[7]

其基本思想是在顏色直方圖的基礎上計算出每個顏色通的均值、方差、偏差，用這些統計量替代顏色的分佈來表示顏色特徵。它具有特徵量少，處理簡單的特點。

顏色一致性矢量(Color Coherence Vectors, CCV)^[8]

本質上是一種引入空間信息改進的直方圖算法，統計了圖像中各顏色最大區域的像素數量。通過分離開一致性像素和非一致性像素，比直方圖算法具有更好的區別效果。

基於內容的圖像檢索紋理

紋理是圖像的重要特徵之一，通常定義為圖像的某種局部性質，或是對局部區域中像素之間關係的一種度量，其本質是刻畫像素的鄰域灰度空間分佈規律。紋理特徵描述方法大致可以分為四類：統計法、結構法、模型法、頻譜法。

統計法

統計法分析紋理的主要思想是通過圖像中灰度級分佈的隨機屬性來描述紋理特徵。最簡單的統計法是藉助於灰度直方圖的矩來描述紋理，但這種方法沒有利用像素相對位置的空間信息。

為了利用這些信息，Haralick 等人提出了用共生矩陣來表示紋理特徵。^[9] 該方法研究了紋理的空間灰度級相關性，構造出一個基於圖像像素間方向和距離的共生矩陣，並且從矩陣中提取出反差、能量、熵、相關等統計量作為特徵量表示紋理特徵。

Tamura 等人基於人類視覺的心理學研究後提出了一些不同的方法來描述紋理特徵，給出了幾個不同的描述紋理特徵的術語：粗糙度(Coarseness) 、對比度(Contrast) 、方向(Directionality) 、線性度(Linelikeness) 、規則度(Regularity) 、粗略度(Roughness) 等。Tamura 紋理和共生矩陣表示的主要區別在於:前者的所有紋理屬性都是視覺意義上的，而後者的某些紋理屬性不具有視覺意義(如信息熵) 。這一特點使得Tamura 的紋理表示在圖像檢索中使用得較多。QBIC 和MARS都進一步證明了這種表示方法。^[10]

結構法

結構法分析紋理的基本思想是假定紋理模式由紋理基元以一定的、有規律的形式重複排列組合而成，特徵提取就變為確定這些基元並定量分析它們的排列規則。Carlucci曾提出一個使用直線段、開放多邊形和封閉多邊形作為紋理基元的紋理模型，其排列規則由一種圖狀語法結構定義。^[9] Lu and Fu給過一種樹型語法結構表示紋理，他們將紋理按照9 ×9 的窗口進行分割，每個分解單元的空間結構表示為一棵樹。^[9] 因為實際的紋理大都是無規則的，因此結構法受到很大限制。

模型法

模型法利用一些成熟的圖像模型來描述紋理，如基於隨機場統計學的馬爾可夫隨機場、子迴歸模型，以及在此基礎上產生的多尺度子迴歸模型^[11] (MultiResolution Simultaneous Autoregressive, MRSA) 等。這些模型的共同特點是通過少量的參數表徵紋理。MRSA 區分不同紋理模式的能力較強，但同時計算開銷也較大。

頻譜法

頻譜法藉助於頻率特性來描述紋理特徵，包括傅里葉功率譜法^[12] 、Gabor 變換^[13] 、塔式小波變換( Pyramid Wavelet Transform ，PWT)^[14] 、樹式小波變換( Tree Wavelet Transform，TWT)^[14] 等方法。Manjunath and Ma^[15] 實驗指出， Gabor 特徵提供了最佳的模式檢索精度，檢索性能優於TWT 和PWT，略微優於MRSA ，缺點是計算速度慢，其旋轉不變性和尺度不變性仍有待討論。

基於內容的圖像檢索形狀

形狀是刻畫物體最本質的特徵，也是最難描述的圖像特徵之一，主要難在對圖像中感興趣目標的分割。對形狀特徵的提取主要是尋找一些幾何不變量。用於圖像檢索的形狀描述方法主要有兩類:基於邊緣和基於區域的形狀方法。前者利用圖像的邊緣信息，而後者則利用區域內的灰度分佈信息。

基於邊緣

基於邊緣的形狀特徵提取是在邊緣檢測的基礎上，用面積、周長、偏心率、角點、鏈碼、興趣點、傅里葉描述子、矩描述子等特徵來描述物體的形狀，適用於圖像邊緣較為清晰、容易獲取的圖像。文獻[16]首先對圖像進行了高斯平滑，接着使用經典的興趣點檢測算法發現興趣點，然後用興趣點的測度值作為圖像特徵進行匹配。文獻^[16] 提出將圖像邊緣上的角點作為特徵點，然後使用Delaunay三角形進行劃分，記錄三角形的形狀特徵來描述圖像的形狀特徵。這種方法由於是基於邊緣上的一些特殊點，因此對噪聲和點位置的變化較為敏感。文獻採用邊緣方向直方圖來刻畫形狀特徵，具有簡單、平移不變性等優點，但也存在不具備尺度、旋轉不變性等缺點。^[17]

基於區域

基於區域的形狀特徵提取的主要思路是通過圖像分割技術提取出圖像中感興趣的物體，依靠區域內像素的顏色分佈信息提取圖像特徵，適合於區域能夠較為準確地分割出來、區域內顏色分佈較為均勻的圖像。文獻應用變形模板技術，把用户提供的形狀看作模板，與圖像庫中的形狀進行匹配。由於是直接比較兩個形狀，因此具有較高的精度，但同時計算量也較大。^[18] 文獻提出了一種形狀彈性匹配算法，首先確定感興趣區域，在這些區域中採用爬山優化算法獲取圖像邊緣，並用這些邊緣代表物體形狀。^[19] 這種方法的優點是對圖像邊緣進行了篩選，缺點是需要人工干預。近年來，基於區域的圖像檢索方法已經成為基於內容的圖像檢索的一大研究熱點。

基於內容的圖像檢索特徵匹配

從圖像中提取的特徵可以組成一個向量，兩個圖像之間可以通過定義一個距離或者相似性的測量度來計算相似程度。

特徵匹配是圖像檢索的一個關鍵環節，具有特徵依賴的特點，不同的特徵應該採用不同的度量方法。在檢索的過程中，根據系統相似性度量的算法計算查詢特徵與特徵庫中對應的每組特徵的相似程度，把所得結果由大到小排序後得到一個匹配圖像序列返回給用户。其間可以通過人機交互，對檢索的結果逐步求精，不斷縮小匹配集合的範圍，從而定位到目標。匹配過程常利用特徵向量之間的距離函數來進行相似性度量,模仿人類的認知過程,近似得到數據庫的認知排序。常用的距離度量公式有：Minkkowsky距離，Manhattan距離，Euclidean距離，加權Euclidean距離，Chebyshev距離，Mahalanobis距離等。^[1]

其中，Manhattan 距離計算簡單，效果也較好，被廣泛採用；加權Euclidean 距離考慮了不同分量的重要性,也較為常用；Mahalanobis 距離考慮了樣品的統計特性和樣品之間的相關性，在聚類分析中經常用到。當採用綜合特徵進行檢索時，需要對各特徵向量進行歸一化,以使得綜合特徵的各特徵向量在相似距離計算中地位相同。^[2]

基於內容的圖像檢索語義鴻溝

英文名稱：Semantic Gap

通常人們在判別圖像的相似性時並非建立在圖像低層視覺特徵的相似上，而是建立在對圖像所描述的對象或事件的語義理解的基礎上。這種理解無法從圖像的視覺特徵直接獲得，它需要使用人們日常生活中積累的大量經驗和知識來進行推理和判斷。其中,尤其對於一些高層次的抽象概念，如一幅關於節日的圖像所表達出的歡樂和喜慶的感覺等，更需要根據人的知識來判斷。換言之，人們是依據圖像的語義信息來進行圖像相似性判別的。正是由於人對圖像相似性的判別依據與計算機對相似性的判別依據之間的不同，造成了人所理解的“語義相似”與計算機理解的“視覺相似”之間的“語義鴻溝”的產生。^[20]

在傳統的基於文字的查詢技術中，不存在這個問題，因為查詢關鍵字基本能夠反映查詢意圖。但是在基於內容的圖像查詢中，就存在一個底層特徵和上層理解之間的差異（這也就是著名的semantic gap）。主要原因是底層特徵不能完全反映或者匹配查詢意圖。彌補這個鴻溝的技術手段主要有：

相關反饋（relevance feedback）

按照最初的查詢條件，查詢系統返回給用户查詢結果，用户可以人為介入（或者自動）來選擇幾個最符合他查詢意圖的返回結果（正反饋），也可以選擇最不符合他查詢意圖的幾個返回結果（負反饋）。這些反饋信息被送入系統用來更新查詢條件，重新進行查詢。從而讓隨後的搜索更符合查詢者的真實意圖。

圖像分割（image segmentation）

圖像的特徵可以包括全局特徵和局部特徵。如果進行一定程度的圖像分割，劃分出不同的分割區域，這樣可以增加局部特徵的信息量，也可能在一定程度彌補語義鴻溝。

建立複雜的分類模型（Machine Learning）

一些比較複雜的非線性分類模型，比如支持向量機（Support Vector Machine）本身就可以起到一定程度的效果來彌補語義鴻溝。

基於內容的圖像檢索應用和研究

最早成功應用基於內容的圖像檢索技術的是IBM的QBIC系統。這個系統是為一個俄國博物館製作的繪畫作品查詢系統。QBIC系統的網站為IBM的QBIC系統。除了IBM的QBIC系統之外，比較著名的系統還包括UIUC大學的MARS系統^[21] 、MIT的Photobook^[22] 、 UC Berkeley的Digital Library Project^[23] ，以及Columbia大學的VisualSEEk^[24] 等。

系統名稱	發佈時間	開發組織	文獻
ADL	1995	University of California, Santa Barbara	^[25-26] -
AltaVista Photofinder	1997	DEC Research Lab AltaVista Company	^[27] -
AMORE	1997	C & C Research Laboratories NEC USA, Inc.	^[28-29] -
ASSERT	1999	The School of Electrical and Computer Engineering at Purdue University	^[30] -
BDLP	1996	University of California, Berkeley	^[31] -
Blobworld	1999	Computer Science Division, University of California, Berkeley	-
CANDID	1995	Computer Research and Applications Group, Los Alamos National Laboratory, USA	^[32] -
C-bird	1998	Developer School of Computing Science, Simon Fraser University, Burnaby, B.C., Canada	^[33] -
CBVQ	1995	Developer Image and Advanced Television Lab, Columbia university, NY	^[34] -
Chabot	1995	Developer Department of Computer Science, University of California, Berkeley, CA, USA	^[35] -
CHROMA	2000	Developer School of Computing, Engineering and Technology, University of Sunderland, UK	^[36] -
Circus	1997	AUDIOVISUAL COMMUNICATIONS LCAV, IC, EPFL	^[37] -
Compass	2000	Developer Centre for Scientific and Technological Research, Trento, Italy	^[38] -
Diogenes	2000	Department of EECS, University of Illinois at Chicago	^[39] -
DrawSearch	1999	Developer Department of Electrical and Electronic Engineering, Technical University of Bari	^[40] -
Excalibur Visual RetrievalWare	未知	Excalibur Technologies	^[41] -
FIDS	1999	Department of Computer Science and Engineering, University of Washington, Seattle, WA, USA	^[42] -
FIR	1997	Developed by Fraunhofer Institute for Computer Graphics, Darmstadt, Germany, in association with Txt Ingegneria Informatica S.P.A. (Italy), Giunti Multimedia Srl (Italy), Epsilon Software (Greece),and Kino TV & Movie Productions S.A. (Greece), as part of the Esprit IV project FORMULA.	-^[43]
FOCUS	1997	Developer Department of Computer Science, University of Massachusetts, Amherst, MA	^[44] -
FRIP	2001	Yonsei University, Korea	^[45] -
ImageFinder	未知	Attrasoft Inc	^[46] -
ImageMiner	1997	Technologie-Zentrum Informatik, Univerity of Bremen, Germany	^[47] -
ImageRETRO	1999	Department of Computer Science, University of Amsterdam, The Netherlands	^[48] -
ImageRover	1997	Department of Computer Science, Boston University, MA	^[49] -
ImageScape	1997	Department of Computer Science, Leiden University, The Netherlands	^[50] -
iPURE	2000	IBM India Research Lab, New Delhi, India	-
Jacob	1996	Computer Science & Artificial Intelligence Lab, University of Palermo, Italy	^[51] -
KIWI	2001	INSA Lyon, France	^[52] -
LCPD	1996	Department of Computer Science, Leiden University, The Netherlands	^[53] -
MARS	1997	Department of Computer Science, University of Illinois at Urbana- Champaign, further developedat Department of Information and Computer Science, University of California at Irvine, CA.	^[54] -
MetaSEEk	1998	Image and Advanced Television Lab, Columbia University, NY, USA.	^[55] -
MIDSS	1997	Electrical and Computer Engineering, Purdue University, Indiana	^[56] -
MIR	1995	Center of Excellence for DocumentAnalysis and Recognition, University at Buffalo, NY, USA.	^[57] -
MUSE	未知	Computer Science and Engineering, Florida Atlantic University	-
NETRA	1997	Department of Electrical and Computer Engineering, University of California, Santa Barbara, CA	^[58] -
PARISS	2000	未知	^[59] -
Photobook	1996	Vision and Modeling Group, MIT Media Laboratory, Cambridge,MA	^[60] -
Picasso	1997	Visual Information Processing Lab, University of Florence, Italy	^[61] -
PicHunter	2000	NEC Research Institute, Princeton, NJ, USA	^[62] -
PicSOM	2000	Laboratory of Computer and Information Sciences, Helsinki University of Technology, Finland	^[63] -
PicToSeek	2000	Department of Computer Science, University of Amsterdam, The Netherlands	^[64] -
QBIC	1993	IBM Almaden Research Center, San Jose, CA	-
Quicklook2	2001	CNR Institute of Multimedia Information Technologies,Milan, Italy	^[65] -
RETIN	2001	ENSEA/University of Cergy-Pontoise, France	^[66] -
Shoebox	2001	AT&T Laboratories, Cambridge, UK. The development was started at Olivetti and Oracle ResearchLaboratory.	^[67] -
SIMBA	2001	Institute for Pattern Recognition and Image Processing, Freiburg University, Germany	^[68-69] -
SMURF	2002	Center for Geometry, Imaging, and Virtual Environments, Institute of Information and ComputingSciences, Utrecht University, The Netherlands	^[70] -
SQUID	1996	Centre for Vision, Speech, and Signal Processing, University of Surrey, UK	^[71] -
Surfimage	1998	INRIA, Rocquencourt, France	^[72] -
SYNAPSE	1999	Center for Intelligent Information Retrieval, University of Massachusetts, Amherst, MA	^[73] -
TODAI	1996	Electrical Engineering Department, EPFL, Switzerland, and later the Intelligent Systems Laboratory, Halmstad University, Sweden	-^[74]
Viper	2000	Centre Universitaire d’Informatique, University of Genova, Switzerland	^[75] -
VIR Image Engine	1996	Virage Inc.	^[76] -
VisualSEEk	1997	Image and Advanced Television Lab, Columbia University, NY	^[77] -
VP Image Retrieval System	1995	National Center for Science Information Systems, University of Tokyo, Japan	^[78] -
WebSEEk	1997	Image and Advanced Television Lab, Columbia University, NY	^[79] -
WebSeer	1996	Department of Computer Science, University of Chicago, Illinois	^[80] -
WISE	1997	Department of Computer Science, Stanford Univerity	^[81] -