反饋

圖像識別

圖像識別，是指利用計算機對圖像進行處理、分析和理解，以識別各種不同模式的目標和對象的技術，是應用深度學習算法的一種實踐應用。^[1] 現階段圖像識別技術一般分為人臉識別與商品識別，人臉識別主要運用在安全檢查、身份核驗與移動支付中；商品識別主要運用在商品流通過程中，特別是無人貨架、智能零售櫃等無人零售領域^[2] 。

圖像的傳統識別流程分為四個步驟：圖像採集→圖像預處理→特徵提取→圖像識別。圖像識別軟件國外代表的有康耐視等，國內代表的有圖智能、海深科技等。另外在地理學中指將遙感圖像進行分類的技術。

中文名: 圖像識別
外文名: image identification
所屬學科: 計算機科學

定義: 利用計算機對圖像進行處理、分析和理解，以識別各種不同模式的目標和對象的技術，是應用深度學習算法的一種實踐應用

圖像識別簡介

圖形刺激作用於感覺器官，人們辨認出它是經驗過的某一圖形的過程,也叫圖像再認。在圖像識別中,既要有當時進入感官的信息,也要有記憶中存儲的信息。只有通過存儲的信息與當前的信息進行比較的加工過程，才能實現對圖像的再認。

圖像識別技術的產生以及更新成為當下十分重要的發展方向，同時表現出了良好的發展前景，在信息收集、醫療以及產品安全等方面，都已經開始廣泛運用圖像識別技術，發揮了非常大的作用。^[4]

人的圖像識別能力是很強的。圖像距離的改變或圖像在感覺器官上作用位置的改變，都會造成圖像在視網膜上的大小和形狀的改變。即使在這種情況下，人們仍然可以認出他們過去知覺過的圖像。甚至圖像識別可以不受感覺通道的限制。例如，人可以用眼看字，當別人在他背上寫字時，他也可認出這個字來。

圖像識別識別基礎

圖像識別可能是以圖像的主要特徵為基礎的。每個圖像都有它的特徵,如字母A有個尖，P有個圈、而Y的中心有個鋭角等。對圖像識別時眼動的研究表明，視線總是集中在圖像的主要特徵上，也就是集中在圖像輪廓曲度最大或輪廓方向突然改變的地方，這些地方的信息量最大。而且眼睛的掃描路線也總是依次從一個特徵轉到另一個特徵上。由此可見，在圖像識別過程中，知覺機制必須排除輸入的多餘信息,抽出關鍵的信息。同時,在大腦裏必定有一個負責整合信息的機制，它能把分階段獲得的信息整理成一個完整的知覺映象。

在人類圖像識別系統中，對複雜圖像的識別往往要通過不同層次的信息加工才能實現。對於熟悉的圖形,由於掌握了它的主要特徵，就會把它當作一個單元來識別，而不再注意它的細節了。這種由孤立的單元材料組成的整體單位叫做組塊，每一個組塊是同時被感知的。在文字材料的識別中，人們不僅可以把一個漢字的筆劃或偏旁等單元組成一個組塊，而且能把經常在一起出現的字或詞組成組塊單位來加以識別。

在計算機視覺識別系統中，圖像內容通常用圖像特徵進行描述。事實上，基於計算機視覺的圖像檢索也可以分為類似文本搜索引擎的三個步驟：提取特徵、建索引build以及查詢。

圖像識別相關領域

圖像識別是人工智能的一個重要領域。為了編制模擬人類圖像識別活動的計算機程序，人們提出了不同的圖像識別模型。例如模板匹配模型。這種模型認為，識別某個圖像，必須在過去的經驗中有這個圖像的記憶模式，又叫模板。當前的刺激如果能與大腦中的模板相匹配，這個圖像也就被識別了。例如有一個字母A,如果在腦中有個A模板,字母A的大小、方位、形狀都與這個A模板完全一致,字母A就被識別了。這個模型簡單明瞭，也容易得到實際應用。但這種模型強調圖像必須與腦中的模板完全符合才能加以識別，而事實上人不僅能識別與腦中的模板完全一致的圖像，也能識別與模板不完全一致的圖像。例如,人們不僅能識別某一個具體的字母A,也能識別印刷體的、手寫體的、方向不正、大小不同的各種字母A。同時,人能識別的圖像是大量的，如果所識別的每一個圖像在腦中都有一個相應的模板，也是不可能的。

為了解決模板匹配模型存在的問題，格式塔心理學家又提出了一個原型匹配模型。這種模型認為，在長時記憶中存儲的並不是所要識別的無數個模板，而是圖像的某些“相似性”。從圖像中抽象出來的“相似性”就可作為原型，拿它來檢驗所要識別的圖像。如果能找到一個相似的原型，這個圖像也就被識別了。這種模型從神經上和記憶探尋的過程上來看，都比模板匹配模型更適宜，而且還能説明對一些不規則的，但某些方面與原型相似的圖像的識別。但是，這種模型沒有説明人是怎樣對相似的刺激進行辨別和加工的，它也難以在計算機程序中得到實現。因此又有人提出了一個更復雜的模型，即“泛魔”識別模型。

一般工業使用中，採用工業相機拍攝圖片，然後利用軟件根據圖片灰階差做處理後識別出有用信息，圖像識別軟件國外代表的有康耐視等，國內代表的有圖智能等。

在人工智能中圖像識別技術具有智能化、便捷化以及實用性的優勢，為人們的生活與工作帶來極大的便利。^[5]

圖像識別研究現狀

圖像識別的發展經歷了三個階段：文字識別、數字圖像處理與識別、物體識別。文字識別的研究是從 1950年開始的，一般是識別字母、數字和符號，從印刷文字識別到手寫文字識別，應用非常廣泛。

數字圖像處理和識別的研究開始於1965年。數字圖像與模擬圖像相比具有存儲，傳輸方便可壓縮、傳輸過程中不易失真、處理方便等巨大優勢，這些都為圖像識別技術的發展提供了強大的動力。物體的識別主要指的是對三維世界的客體及環境的感知和認識，屬於高級的計算機視覺範疇。它是以數字圖像處理與識別為基礎的結合人工智能、系統學等學科的研究方向，其研究成果被廣泛應用在各種工業及探測機器人上。現代圖像識別技術的一個不足就是自適應性能差，一旦目標圖像被較強的噪聲污染或是目標圖像有較大殘缺往往就得不出理想的結果。

圖像識別問題的數學本質屬於模式空間到類別空間的映射問題。目前，在圖像識別的發展中，主要有三種識別方法：統計模式識別、結構模式識別、模糊模式識別。圖像分割是圖像處理中的一項關鍵技術，自20世紀70年代，其研究已經有幾十年的歷史，一直都受到人們的高度重視，至今藉助於各種理論提出了數以千計的分割算法，而且這方面的研究仍然在積極地進行着。

現有的圖像分割的方法有許多種，有閾值分割方法，邊緣檢測方法，區域提取方法，結合特定理論工具的分割方法等。從圖像的類型來分有：灰度圖像分割、彩色圖像分割和紋理圖像分割等。早在1965年就有人提出了檢測邊緣算子，使得邊緣檢測產生了不少經典算法。但在近二十年間，隨着基於直方圖和小波變換的圖像分割方法的研究計算技術、VLSI技術的迅速發展，有關圖像處理方面的研究取得了很大的進展。圖像分割方法結合了一些特定理論、方法和工具，如基於數學形態學的圖像分割、基於小波變換的分割、基於遺傳算法的分割等。

圖像識別相關公司

圖像識別創業公司IQ Engine

IQ Engine曾於2010年得到關注，當時該公司獲得了100萬美元投資並開發了一款API(應用程序接口)，幫助網絡零售商和應用開發者提供視覺搜索引擎。該公司隨後還出席了2010年的DEMO大會，並被業內人士認為是最值得關注的創業公司之一。

IQ Engine目前維護着兩個API。其一名為SmartCamera。這一API面向在線零售商，幫助用户與產品和品牌標誌互動。另一個API名為SmartAlbum，支持在網絡相冊和移動應用中進行照片分析和面部識別。後一個API可能正是雅虎需要的功能。

IQ Engine開發的API已被許多知名公司使用，包括百思買、Old Navy和樂購等。不過，該公司將在未來30天中關閉這些API。IQ Engine在最近一輪融資中獲得了380萬美元投資，投資方包括Third Point Ventures和摩托羅拉系統的風投部門。

儘管IQ Engine的主要業務是提供圖像識別API，但該公司此前也在開發移動相冊應用Glow，幫助用户在智能手機上基於自動生成的標籤管理照片。該應用不僅能基於位置來管理照片，還能基於內容來管理。未來，這一技術很可能被整合至^[3] 。

參考資料

1. 基於深度學習的圖像識別研究．中國知網．2019-06-10[引用日期2019-08-09]
2. 基於深度學習的商品圖像識別方法研究．中國知網．2018-06-04[引用日期2019-08-09]
3. 雅虎收購圖像識別創業公司IQ Engine ．commernet[引用日期2013-08-26]
4. 聶莉娟.基於人工智能的圖像識別研究[J].無線互聯科技,2022,19(2):112-115
5. 李麗亞.人工智能中圖像識別技術的發現與應用研究[J].長江信息通信,2022,35(1):134-136

圖像識別的概述圖（2張）

詞條統計

瀏覽次數：次
編輯次數：32次歷史版本
最近更新：仨月轻风（2023-11-17）

1 簡介
2 識別基礎
3 相關領域
4 研究現狀
5 相關公司