反饋

多模態認知計算

多模態認知計算（Multi-Modal Cognitive Computing）是專門研究機器怎樣模擬人類“聯覺”（Synaesthesia），以實現多模態輸入的高效感知與綜合理解。多模態認知計算模擬人類聯覺，以信容理論為指導，分析不同感知通道的聯繫，對特定場景和環境進行時空以及語義維度上的高效感知和綜合理解^[5] 。

中文名: 多模態認知計算
外文名: Multi-Modal Cognitive Computing
所屬學科: 人工智能

所屬學科: 認知科學
臨地安防（Vicinagearth Security）
類型: 人工智能科技術語

多模態認知計算定義

多模態認知計算模擬人類“聯覺”（Synaesthesia），探索圖像、視頻、文本、語音等多模態輸入的高效感知與綜合理解手段，是人工智能領域的重要研究內容^[1] ，在認知科學的啓發下，結合“信容”（Information Capacity）概念，提高機器的信息提取能力^[1] 。

多模態認知計算發展歷程

多模態認知計算的研究開始於21世紀初。為構建模擬人類認知模式的智能系統，李學龍於2003年將“認知計算”（Cognitive Computing）的概念引入信息科學領域，並開設了“認知計算”課程。2008年，以“聯覺”（Synaesthesia）為關鍵詞正式發表研究工作“Visual Music and Musical Vision”^[4] 。同年，經過各級審批，IEEE SMC的認知計算技術委員會終於正式獲批成立，李學龍擔任創始主席。該技術委員會從成立伊始，就明確了“認知計算”的目標^[2] 。

隨着人工智能第三次發展高潮的影響逐漸深化，多模態認知計算迎來了新的發展機遇，成為航空航天、智能製造、醫療健康等重大領域共同關注的研究課題。2008年，國家自然科學基金委員會設立的重大研究計劃“視聽覺信息的認知計算”，實施以來取得了豐碩成果。2017年，國務院印發了《新一代人工智能發展規劃》，明確提出“建立大規模類腦智能計算的新模型和腦啓發的認知計算模型”，研究“以自然語言理解和圖像圖形為核心的認知計算理論和方法”。當前，多模態認知計算研究已從學術牽引轉化為需求牽引，在圖像、視頻、文本、語音等海量多模態數據和強大算力的支撐下，國內外各大知名企業與研究機構紛紛加入此項研究中^[1] 。隨着多模態數據的海量爆發和算力的快速迭代，多模態認知計算已成為各行業共同關注的研究熱點，在臨地安防中發揮着重要作用^[5] 。

西北工業大學李學龍教授於2020年獲騰訊“科學探索獎”，獲獎理由為“肯定他將聯覺引入信息領域的視聽覺分析，支持他在多模態認知計算方向深入探索”^[3] 。

多模態認知計算原理

人類具備多感官整合能力。當多種感官通道刺激同時發生，人類的注意力不會被分散。當同一事件引起多種感官的同步刺激時, 不同感官通道共享注意力, 人類可以感知更多信息^[1] 。因此，多模態認知計算假設來自同一事件的不同模態數據共享注意力。假設事件空間

為感知模態

、空間

、時間上

的張量，

為第

個模態的信息量矩陣，

事件注意力矩陣，且所有事件的注意力總和為1，則機器從事件空間中提取的最大信息量為

。與信容（Information Capacity，單位數據量的信息提供能力）對應，機器的認知能力定義為從單位數據中獲取最大信息量的能力

^[1] 。

因此，可從三方面提升機器認知能力，實現多模態認知計算：（1）優化

，使機器獲得更大信息量^[1] ；（2）增大

，利用對於給定任務信息量更大的數據^[1] ；（3）減小

，利用盡可能少的數據實現信息量的最大化^[1] 。

多模態認知計算應用

多模態認知計算在“臨地安防”（Vicinagearth Security）中有廣闊的應用前景。在臨地安防的實際應用中，通常需要處理來自光學、聲學等不同傳感器的大量多模態數據。以智能巡檢為例，需要對無人機採集的音頻與不同波段的圖像進行綜合研判，發現場景中存在的隱患^[5] 。

多模態認知計算特點

區別於傳統的人工智能研究，多模態認知計算的特點有三層：

（1）強調多模態信息的綜合利用。多模態相比於單一模態能夠提供更大的信息量；

（2）明確認知計算的重要性。通過設計認知啓發的學習算法，探究多模態輸入的聯合分析方法；

（3）注重從數據中提取信息的能力。從單位數據量中提取更多信息，則代表機器具備更強的認知能力。

多模態認知計算分類

多模態認知計算以“信容”（Information Capacity，信息量與數據量的比值，即單位數據量的信息提供能力）理論為依據，將機器的認知能力描述為從單位數據獲取最大信息量的能力。以提升機器認知能力為核心，多模態認知計算劃分為三個基本任務:

(1) 多模態關聯

通過挖掘不同子模態事件在空間、事件、語義層面的內在一致性，將子模態事件映射到統一的信息空間、實現多模態的對齊、感知與檢索識別。通過多模態關聯,可以挖掘不同模態間的對應關係、以進一步提升認知能力^[1] 。典型任務有視音理解（Audiovisual Learning）、跨膜態檢索（Cross-Modal Retrieval）等。

(2) 跨模態生成

將信息以模態為載體進行傳輸，利用不同模態的差異性，對已知信息進行跨模態的合成與轉換。在跨模態合成中，利用更加直觀，易於理解的模態對信息進行豐富和補充，增大信息量。在跨模態轉換中，尋找更加簡潔的表達形式，在保留信息的同時，減小數據量，以此提升信息獲取能力^[1] 。典型任務有視頻摘要（Video Summarization）、語音識別（Speech Recognition）等。

(3) 多模態協同

利用不同模態間的關聯與互補，探究高效、合理的模態間聯合機制，優化注意力係數。通過學習以圖像、視頻、文本、語音為代表的多模態數據的一致性表達，實現信息的融合與增強以提升在指定任務上的性能^[1] 。典型任務有多模態融合（Multi-Modal Fusion）、聯合學習（Joint Learning）等。

參考資料

1. 多模態認知計算．中國科學：信息科學[引用日期2022-10-25]
2. Cognitive Computing ．IEEE[引用日期2022-10-31]
3. 科學探索獎．科學探索獎[引用日期2022-11-08]
4. Visual music and musical vision ．Neurocomputing[引用日期2022-11-09]
5. 臨地安防（Vicinagearth Security）．CCF數字圖書館[引用日期2022-11-28]

多模態認知計算的概述圖（2張）

詞條統計

瀏覽次數：次
編輯次數：9次歷史版本
最近更新： hjs369258 （2023-12-10）

1 定義
2 發展歷程
3 原理
4 應用
5 特點
6 分類