複製鏈接
請複製以下鏈接發送給好友

多模態認知計算

鎖定
多模態認知計算(Multi-Modal Cognitive Computing)是專門研究機器怎樣模擬人類“聯覺”(Synaesthesia),以實現多模態輸入的高效感知與綜合理解。多模態認知計算模擬人類聯覺,以信容理論為指導,分析不同感知通道的聯繫,對特定場景和環境進行時空以及語義維度上的高效感知和綜合理解 [5] 
中文名
多模態認知計算
外文名
Multi-Modal Cognitive Computing
所屬學科
人工智能
所屬學科
認知科學
臨地安防(Vicinagearth Security)
類    型
人工智能科技術語

多模態認知計算定義

多模態認知計算模擬人類“聯覺”(Synaesthesia),探索圖像、視頻、文本、語音等多模態輸入的高效感知與綜合理解手段,是人工智能領域的重要研究內容 [1]  ,在認知科學的啓發下,結合“信容”(Information Capacity)概念,提高機器的信息提取能力 [1] 

多模態認知計算發展歷程

多模態認知計算的研究開始於21世紀初。為構建模擬人類認知模式的智能系統,李學龍於2003年將“認知計算”(Cognitive Computing)的概念引入信息科學領域,並開設了“認知計算”課程。2008年,以“聯覺”(Synaesthesia)為關鍵詞正式發表研究工作“Visual Music and Musical Vision” [4]  。同年,經過各級審批,IEEE SMC的認知計算技術委員會終於正式獲批成立,李學龍擔任創始主席。該技術委員會從成立伊始,就明確了“認知計算”的目標 [2] 
隨着人工智能第三次發展高潮的影響逐漸深化,多模態認知計算迎來了新的發展機遇,成為航空航天、智能製造、醫療健康等重大領域共同關注的研究課題。2008年,國家自然科學基金委員會設立的重大研究計劃“視聽覺信息的認知計算”,實施以來取得了豐碩成果。2017年,國務院印發了《新一代人工智能發展規劃》,明確提出“建立大規模類腦智能計算的新模型和腦啓發的認知計算模型”,研究“以自然語言理解和圖像圖形為核心的認知計算理論和方法”。當前,多模態認知計算研究已從學術牽引轉化為需求牽引,在圖像、視頻、文本、語音等海量多模態數據和強大算力的支撐下,國內外各大知名企業與研究機構紛紛加入此項研究中 [1]  。隨着多模態數據的海量爆發和算力的快速迭代,多模態認知計算已成為各行業共同關注的研究熱點,在臨地安防中發揮着重要作用 [5] 
西北工業大學李學龍教授於2020年獲騰訊“科學探索獎”,獲獎理由為“肯定他將聯覺引入信息領域的視聽覺分析,支持他在多模態認知計算方向深入探索” [3] 

多模態認知計算原理

人類具備多感官整合能力。當多種感官通道刺激同時發生,人類的注意力不會被分散。當同一事件引起多種感官的同步刺激時, 不同感官通道共享注意力, 人類可以感知更多信息 [1]  。因此,多模態認知計算假設來自同一事件的不同模態數據共享注意力。假設事件空間
為感知模態
、空間
、時間上
的張量,
為第
個模態的信息量矩陣,
事件注意力矩陣,且所有事件的注意力總和為1,則機器從事件空間中提取的最大信息量為
。與信容(Information Capacity,單位數據量的信息提供能力)對應,機器的認知能力定義為從單位數據中獲取最大信息量的能力
[1] 
因此,可從三方面提升機器認知能力,實現多模態認知計算:(1)優化
,使機器獲得更大信息量 [1]  ;(2)增大
,利用對於給定任務信息量更大的數據 [1]  ;(3)減小
,利用盡可能少的數據實現信息量的最大化 [1] 

多模態認知計算應用

多模態認知計算在“臨地安防”(Vicinagearth Security)中有廣闊的應用前景。在臨地安防的實際應用中,通常需要處理來自光學、聲學等不同傳感器的大量多模態數據。以智能巡檢為例,需要對無人機採集的音頻與不同波段的圖像進行綜合研判,發現場景中存在的隱患 [5] 

多模態認知計算特點

區別於傳統的人工智能研究,多模態認知計算的特點有三層:
(1)強調多模態信息的綜合利用。多模態相比於單一模態能夠提供更大的信息量;
(2)明確認知計算的重要性。通過設計認知啓發的學習算法,探究多模態輸入的聯合分析方法;
(3)注重從數據中提取信息的能力。從單位數據量中提取更多信息,則代表機器具備更強的認知能力。

多模態認知計算分類

多模態認知計算以“信容”(Information Capacity,信息量與數據量的比值,即單位數據量的信息提供能力)理論為依據,將機器的認知能力描述為從單位數據獲取最大信息量的能力。以提升機器認知能力為核心,多模態認知計算劃分為三個基本任務:
(1) 多模態關聯
通過挖掘不同子模態事件在空間、事件、語義層面的內在一致性,將子模態事件映射到統一的信息空間、實現多模態的對齊、感知與檢索識別。 通過多模態關聯,可以挖掘不同模態間的對應關係、以進一步提升認知能力 [1]  。典型任務有視音理解(Audiovisual Learning)、跨膜態檢索(Cross-Modal Retrieval)等。
(2) 跨模態生成
將信息以模態為載體進行傳輸,利用不同模態的差異性,對已知信息進行跨模態的合成與轉換。在跨模態合成中,利用更加直觀,易於理解的模態對信息進行豐富和補充,增大信息量。在跨模態轉換中,尋找更加簡潔的表達形式,在保留信息的同時,減小數據量,以此提升信息獲取能力 [1]  。典型任務有視頻摘要(Video Summarization)、語音識別(Speech Recognition)等。
(3) 多模態協同
利用不同模態間的關聯與互補,探究高效、合理的模態間聯合機制,優化注意力係數。通過學習以圖像、視頻、文本、語音為代表的多模態數據的一致性表達,實現信息的融合與增強以提升在指定任務上的性能 [1]  。典型任務有多模態融合(Multi-Modal Fusion)、聯合學習(Joint Learning)等。
參考資料