反饋

圖像理解

（圖像理解）

圖像理解（image understanding,IU）就是對圖像的語義理解。它是以圖像為對象，知識為核心，研究圖像中有什麼目標、目標之間的相互關係、圖像是什麼場景以及如何應用場景的一門學科。

中文名: 圖像理解
外文名: image understanding
英文簡稱: IU

性質: 計算機領域的新興學科
應用學科: 計算機
特點: 圖像理解與人工智能密切相關

圖像理解簡介

圖像理解是研究用計算機系統解釋圖像,實現類似人類視覺系統理解外部世界的一門科學,所討論的問題是為了完成某一任務需要從圖像中獲取哪些信息,以及如何利用這些信息獲得必要的解釋,圖像理解的研究涉及和包含了研究獲取圖像的方法、裝置和具體的應用實現。對圖像理解的研究始於20世紀60年代初,研究初期以計算機視覺巧為載體,計算機視覺機器視覺簡單的説就是研究用計算機來模擬人類視覺或靈長類動物視覺的一門科學,由圖像數據來產生視野環境內有用符號描述的過程,主要研究內容包括圖像的獲取、圖像處理、圖像分析、圖像識別,圖像包括靜態圖像和動態圖像視頻,包括二維圖像和立體圖像計算機視覺的輸入是數據,輸出也是數據,是結構化或半結構化數據和符號。識別是傳統計算機視覺的目的,即要得到圖像中有什麼這一結論。
　　自1965年Roberts識別多面體以來,圖像理解已經應用在不少的領域：Nagao等人第一次建立了解釋多波段航片的系統,對航拍圖像區域進行了若干特徵體的劃分；SCORPIUS組合利用並行處理和圖像理解研究結果檢測、鑑別有意義的目標,監視軍事目標狀態變化,提供軍事動向資料和情報;ACRONYM是一個由模型出發的解釋系統,通過模型化區域的三維信息結構完成模型的匹配理解過程;MOSAIC融合多視角目標獲取的二維圖像完成目標三維的完整描述,對新的觀察點情況進行理解分析。
　　圖像理解與人工智能密切相關,人工智能簡單的説就是研究用計算機模擬人腦、模擬人類智能的一門科學,傳統的人工智能以人類的知識為對象,研究知識的表示、存儲、推理,以及獲得新的知識。傳統的人工智能是在己有知識系統的基礎上對知識結構關係,語義網絡,通用匹配,推斷決策,產生式系統,問題求解,規劃控制反饋和經驗學習的研究。

隨着計算機視覺和人工智能學科的發展,相關研究內容不斷拓展、相互覆蓋,圖像理解既是對計算機視覺研究的延伸和拓展,又是人類智能的研究新領域,滲透着人工智能的研究進程,近年來已在工業視覺、人機交互、視覺導航、虛擬現實、特定圖像分析解釋以及生物視覺研究等領域得到了廣泛應用。總之,圖像理解的內容相當豐富,涉及面也很寬,是一門新興的綜合學科。^[1]

圖像理解圖像理解的層次結構

從計算機信息處理的角度來看，認為一個完整的圖像理解系統可以分為以下的四個層次：數據層、描述層、認知層和應用層（注：此分層方法類似於Selfridge（謝夫裏奇）於1959年提出的小妖模型（Pandemonium Model）。二者的不同在於Selfridge的小妖模型是從認知的角度提出的一個模式識別的計算機模型，而本文是從信息處理的角度提出的一個圖像理解系統分層框架；其次二者每層的任務也是不一樣的）。各層的功能如下：

數據層：獲取圖像數據，這裏的圖像可以是二值圖、灰度圖、彩色的和深度圖等，本文主要針對攝像頭採集到的彩色照片/灰度圖。主要涉及到圖像的壓縮和傳輸。數字圖像的基本操作如：平滑、濾波等一些去噪操作亦可歸入該層。該層的主要操作對象是象素。

描述層：提取特徵，度量特徵之間的相似性（即距離）；採用的技術有子空間方法(Subspace)如：ISA,ICA,PCA，。該層的主要任務就是將象素表示符號化（形式化）。

認知層：圖像理解，即學習和推理（Learning and Inference）；該層是圖像理解系統的“發動機”。該層非常複雜，涉及面很廣，正確的認知（理解）必需有強大的知識庫作為支撐。該層操作的主要對象是符號。具體的任務還包括數據庫的建立。

應用層：根據任務需求（分類、識別、檢測）（ps：如果是視頻理解，還包括跟蹤），設計相應的分類器、學習算法等。^[2]

圖像理解圖像理解的分析過程

圖像理解是一門交叉學科,作為圖像理解的低層數據的是視覺信息,理論出發點是計算機視覺,作為圖像理解的高層數據是知識信息,理論依據出發點是人工智能。從研究的廣泛性看,圖像理解的處理信息分為視覺數據信息和人類知識信息兩部分,前者側重原始獲取的數據信息以何種結構存儲在計算機中,後者側重知識的表述如何指導計算機的理解過程,兩部分表示相輔相成。圖像理解中對視覺信息和知識信息的研究過程就是進行信息表示、處理和分析的過程,具體表現為“表示與存儲今認知與學習今推理與理解”的圖像理解分析過程。

圖像理解中包含了一泛的信息流,從視覺硬件採集設備獲取到的二維陣列僅是信號描述,進行取樣採集形成面向計算機的數據信息,形成像素點集,完成了場景圖像的獲取再通過圖像處理技術在原始像素的基礎上提取出視覺特徵並存儲入計算機,實現了“視覺信息的表示一與存儲”接着根據已有的先驗知識或導師指導,基於學習算法和相應理論進行機器學習,進行圖像理解中的日標識別、場景分類等了任務,形成知識並存入計算機,實現知識信息的“表示與存儲”,完成“認知一與學習”最後對已形成的知識進行“推理一與分析”完成最終的圖像理解任務,體現計算機的視覺智能性。^[2]

圖像理解應用

圖像理解1.圖象傳輸

在電視電話、電視會議等需要傳輸圖象的應用中，需儘可能的壓縮圖象數據，在基於理解基礎上的壓縮可以大大減少需傳輸的圖象數據。如用分形圖象壓縮的方法只需要很少的幾組數據和相關的迭代算法來恢復整個圖象。例如1992年微軟公司推出的一張名為“Microsoft Encarta”的光盤，是一張多媒體百科全書，廣泛收集了文章、動畫、聲音、插圖、照片、地圖冊和一本字典，內有幾百幅彩色地圖(可以被局部放大)，幾千張優質彩色照片。這麼多內容，全部用分形圖象壓縮法壓縮為不足600MB的數據。

圖像理解2.圖象信息安全傳輸

通常解決信息傳輸安全的方法是對傳輸的信息進行加密，然而還是存在被解密的可能。現在一種安全傳輸圖象的方法是對傳輸圖象進行偽裝:在一幅普通的圖象中隱藏一幅需要安全傳輸的圖象。這幅普通圖象成為一個偽裝載體，它的顯示人眼無法察覺，這就減少了被解密的可能性。

圖像理解3.宇宙探測

太空技術的發展，需要對大量的星際照片進行分析和理解，用以不斷開拓新的宇宙空間。

圖像理解4.遙感

對航空遙感和衞星遙感圖片的分析和理解，可用於對地質、礦產、森林、水利、海洋、農業等資源的調查和研究，進行自然災害的預測和預報、環境的污染監測、氣象分析，以及軍事目標的識別。

圖像理解5.生物醫學領域

首先應用於細胞的分類、染色體分類和放射圖象的分析中。例1972年X射線斷層掃描(CT)的實現；1977年白血球自動分類儀的問世；1980年實現了CT的立體重現等。進入90年代其在生物醫學領域的應用更加廣泛，如從CT圖象中識別各種器官，從CT圖象檢測癌細胞。

圖像理解6.工業生產

主要對產品檢查和生產的自動控制，如CAD、CAM等。

圖像理解7.軍事

軍事、公安等國家安全部門軍事目標的偵察、制導和警戒系統、防禦系統及其反偽裝。例如應用神經網絡的圖象分析和理解方法對雷達圖片進行實時分析，以搜尋軍事目標。公安部門對現場照片、指紋、手跡、印章、人像等的分析和識別。

圖像理解8.交通

具有圖象理解的實時車輛跟蹤系統不僅可應用到交通管理，還可以為安全部門使用；如在交通節點(如十字路口)的車流量監測和高速公路上車輛的管理系統，可以實時提供車流量和車速。同樣，也可以應用到火車和輪船的管理中去。^[3]

圖像理解9.字符識別

用於歷史文字和圖片檔案的修復和管理以及文字的自動識別。如清華大學研製的光學字符識別(OCR)系統能自動識別由掃描儀錄入的文檔。特別是，手寫體識別技術更具有廣泛的用途，聯機識別還可以代替鍵盤輸入提高輸入速度。例如一種在線手寫體識別的數學編輯器，極大地方便了數學中一些特定格式地輸入。脱機手寫體字符識別系統可以用在判別簽名的真偽等方面。

圖像理解10.郵電

對信件、包裹等通過自動識別其郵編、地址等信息來進行自動分檢和歸類。

圖像理解11.機器人視覺

機器人視覺系統是一個複雜的系統，它不僅涉及到圖象分析和理解技術，而且還涉及到傳感器技術、電視技術、數字圖象處理技術等。

下面列舉了幾種通用的商業視覺系統:(1)VS-100機器人視覺系統是美國UNIMATION公司生產的PUMA機器人，由MACHINEINTELLIGENCE CORPORATION生產的VS-100組成。(2)OMS視覺系統是由原聯邦德國製造生產的商業通用視覺系統。它能夠完成物體的識別及特徵量的量測等任務。(3)由日本川崎重工業公司製造PUMA-26機械手CREATIVE SYSTEM公司製造的BLOB-1視覺系統組成的視覺演示系統.

由於圖象分析和理解在許多領域的廣泛應用和潛在領域應用的前景，吸引了許多科技人員投入到這方面的研究，從而促進了圖象分析和理解的發展。

圖像理解數字圖像處理技術

圖像理解概述及發展

20世紀20年代，圖像處理首次應用於改善倫敦和紐約之間海底電纜發送的圖片質量。到20世紀50年代，數字計算機發展到一定的水平後，數字圖像處理才真正引起人們的興趣。1964年美國噴氣推進實驗室用計算機對“徘徊者七號”太空船發回的大批月球照片進行處理，收到明顯的效果。20世紀60年代末，數字圖像處理具備了比較完整的體系，形成了一門新興的學科。20世紀70年代，數字圖像處理技術得到迅猛的發展。理論和方法進一步完善，應用範圍更加廣泛。在這一時期，圖像處理主要和模式識別及圖像理解系統的研究相聯繫，如文字識別、醫學圖像處理、遙感圖像的處理等。20世紀70年代後期到現在，各個應用領域對數字圖像處理提出越來越高的要求．促進了這門學科向更高級的方向發展。特別是在景物理解和計算機視覺(即機器視覺)方面，圖像處理已由二維處理發展到三維理解或解釋。近年來，隨着計算機和其它各有關領域的迅速發展，例如在圖像表現、科學計算可視化、多媒體計算技術等方面的發展，數字圖像處理已從一個專門的研究領域變成了科學研究和人機界面中的一種普遍應用的工具。它也促進了圖像處理技術的教學。數字圖像處理常用方法包括：圖像變換、圖像編碼壓縮、圖像增強和復原、圖像分割、圖像描述、圖像分類(識別)。

計算機的特點是能處理各種數據，圖像經過採樣、量化後變為數字存儲在計算機中，使用計算機對數字圖像進行去噪、增強、復原、分割、特徵提取等處理，就稱為數字圖像處理。數字圖像處理既涉及到計算機軟件，也和硬件相關。計算機的發展、數學的發展以及各個行業的應用需求的增長與圖像處理技術的發展密切相關。上個世紀60年代，計算機圖像處理的技術發展迅速，應用也逐漸增多，人們使用計算機數字圖像處理技術完成對圖像的預期處理。

隨着計算機周邊技術的發展，現在的數字圖像處理技術已具有了以下特點：

1) 圖像處理的多樣性。編寫不同的算法及程序施加在數字圖像上，得到的效果也截然不同。

2) 對圖像處理的精度越來越高，圖像的再現性也越來越好。計算機進行圖像處理的本質是編寫各種算法對圖像數據施加各種運算。隨着計算機技術的飛速發展，保障了計算的精度和正確性；此外，各種算法施加在同一圖像上，得到的結果具有相似或相同性，使其具有良好的再現性。

3) 多學科技術的交叉和綜合。數字圖像處理的基礎是數學和物理，此外，數字圖像處理技術還與通信技術、計算機技術、電子技術、電視技術相關。

4) 數據處理量大。圖像中有大量的信息，既有有用的信息，也有冗餘信息，可以通過圖像處理技術去除冗餘得到圖像中的有用的信息。^[3]

圖像理解圖像處理技術在醫學中的應用

隨着科學技術的進步，多學科交叉和融合成為現代科學發展和進步的突出特色和重要途徑。醫學影像技術作為醫學研究和臨牀醫學的重要手段，綜合了計算機科學、生物醫學、物理學等許多新技術的應用，成為近二十年醫學技術中發展最快的領域之一。通過計算機圖形圖像處理技術輔助醫學診斷與治療，極大程度的提高了診療的質量與安全，已成為醫學研究和臨牀醫學的一個發展方向。目前，供醫學研究和臨牀診斷所需要的醫學圖像多種多樣，如：B超圖像、MRI圖像、CT圖像、PET圖像、SPECT圖像、數字X光機（DR）圖像、X射線圖像、各種電子內窺鏡圖像、顯微鏡下病例切片和顯微鏡下細胞圖像等。利用計算機技術處理這些圖像，不僅可以提高醫學臨牀診斷水平，還能為醫學培訓、醫學研究與教學、計算機輔助臨牀外科手術等提供必要支持。

2.1 醫學圖像的種類

醫學研究和臨牀診斷所需要的影像資料多種多樣，既有靜態的組織結構成像，也包括動態圖像和功能成像。按照成像的手段不同可以將圖像分為，光學圖像、深度信息圖像、温度場圖像以及影像圖像。利用不同的成像技術獲得的醫學影像能夠揭示病人的不同特徵，從醫學應用的角度可以分為結構影像技術和功能影像技術兩大類。前者主要用於獲取人體組織器官的解剖結構圖像，為醫生診斷病變提供最直觀的病理信息，X-CT，MRI就屬於此類影像技術。另一種功能影像，是通過特殊圖像信息來反映生理過程的變化，如組織的新陳代謝，細胞活動等，PET，紅外成像，微波成像都屬於這種，有些病變尤其是早期，在器官的外形結構上仍變現為正常時，採用基於SPECT的功能成像能夠及時地診斷病變。

醫學圖像的研究目的是以直觀的形式給醫生提供輔助診斷和治療的有用信息，如何提高圖像的質量，從圖像中提取更多的有用病理信息是醫學圖像處理技術的重點。但是，由於醫學圖像的成像對象是人體的組織器官，是個性化差異很大的對象，無論是人體個體的差異還是組織器官在病變過程中變化，都是我們無法預知的，這導致了醫學圖像無法像普通圖像處理那樣給出統一的操作模型。而且，由於成像設備、獲取條件、醫生的經驗和能力等因素的存在，使得對醫學圖像進行定量評估非常困難。因此，普通的圖像處理技術是不能直接應用在醫學圖像處理和分析上的。^[4]

2.2 圖像處理技術在超聲醫學成像中的應用

超聲成像過程中圖像處理的方法有很多，其中主要的有圖像平滑處理、圖像偽色彩處理、圖像紋理分析、圖像分割、圖像鋭化處理，以及圖像增強處理等圖像處理方法。在B超圖像中，不可避免會出現噪聲，噪聲的存在對某一象素或某幅圖像是有影響的，因此要平滑圖像，去除噪聲，為圖像的後續處理做準備。為了使B超醫生更好的識別B超圖像信息，可以用不同的顏色來表示圖像中的不同灰度級，達到圖像增強的效果，可識別灰度差較小的像素，這種用彩色差別代替灰度差別而組成的圖像，即為偽色彩圖像。B超圖像中存在顆粒狀紋理，其主要有以下兩種情況引起的，一種是B超圖像本身的斑紋，是無用的信息，另一種是由被檢查者的組織結構引起的，是有用的信息。正常和有病變的器官圖像組織顆粒分佈不同，即紋理也不同，因此，對B超圖像進行紋理分析，從而判別病情。圖像分割是將病變區域分割出來，以便測量其大小，體積等，為診斷提供必要數據。除此之外，還要用到圖像鋭化處理和圖像增強等計算機技術處理B超圖像。^[4]

2.3 圖像處理技術在CT和MRI中的應用

CT的本質是一種藉助於計算機進行成像和數據處理的斷層圖像技術。雖然X線透視可使人們瞭解人體的內部結構，但只有CT通過計算機在排除散射線和重疊影像的干擾並對X線人體組織吸收系統矩陣作定量分析後，才從根本上解決了分辨率問題。計算機在CT系統中要完成圖像去噪、圖像的增強、圖像重建等任務。沒有計算機技術，CT設備的發展是不可想象的。在磁共振中，圖像處理技術包括圖像去噪、圖像增強、圖像復原、圖像三維重建等操作，磁共振成像也離不開計算機圖像處理技術的支持。

現代醫學越來越離不開醫學圖像信息的支持，在醫學圖像處理中，計算機技術起着至關重要的作用。在醫學領域中，超聲成像、CT、磁共振、外科手術、中醫舌像診斷都與計算機圖像處理技術息息相關。隨着計算機技術和醫學的發展，計算機圖像處理技術會在醫學領域中得到更廣泛的應用，醫學領域也更離開不計算機圖像處理技術。^[4]

參考資料

1. 圖像理解綜述．CSDN[引用日期2017-05-18]
2. 謝昭．圖想理解的關鍵問題和方法研究：合肥工業大學，2007
3. 詹青龍、盧愛芹、李立宗、藺媛媛．數字圖像處理技術：清華大學出版社，2010
4. 張貴英．計算機圖像處理技術在醫學中的應用：電腦知識與技術，2012

詞條統計

瀏覽次數：次
編輯次數：11次歷史版本
最近更新： w_ou （2021-01-29）