反饋

深度學習

（人工神經網絡的研究的概念）

深度學習（DL，Deep Learning）是機器學習（ML，Machine Learning）領域中一個新的研究方向，它被引入機器學習使其更接近於最初的目標——人工智能（AI，Artificial Intelligence）。^[1]

深度學習是學習樣本數據的內在規律和表示層次，這些學習過程中獲得的信息對諸如文字、圖像和聲音等數據的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力，能夠識別文字、圖像和聲音等數據。深度學習是一個複雜的機器學習算法，在語音和圖像識別方面取得的效果，遠遠超過先前相關技術。^[1]

深度學習在搜索技術、數據挖掘、機器學習、機器翻譯、自然語言處理、多媒體學習、語音、推薦和個性化技術，以及其他相關領域都取得了很多成果。深度學習使機器模仿視聽和思考等人類的活動，解決了很多複雜的模式識別難題，使得人工智能相關技術取得了很大進步。^[1]

中文名: 深度學習
外文名: Deep Learning
提出者: Geoffrey Hinton、Yoshua Bengio、Yann LeCun等

提出時間: 2006年
學科: 人工智能
應用: 計算機視覺、自然語言處理、生物信息學等

深度學習簡介

深度學習是一類模式分析方法的統稱，就具體研究內容而言，主要涉及三類方法：^[2]

（1）基於卷積運算的神經網絡系統，即卷積神經網絡（CNN）。^[2]

（2）基於多層神經元的自編碼神經網絡，包括自編碼（Auto encoder）以及近年來受到廣泛關注的稀疏編碼兩類（Sparse Coding）。^[2]

（3）以多層自編碼神經網絡的方式進行預訓練，進而結合鑑別信息進一步優化神經網絡權值的深度置信網絡（DBN）。^[2]

通過多層處理，逐漸將初始的“低層”特徵表示轉化為“高層”特徵表示後，用“簡單模型”即可完成複雜的分類等學習任務。由此可將深度學習理解為進行“特徵學習”（feature learning）或“表示學習”（representation learning）。^[3]

以往在機器學習用於現實任務時，描述樣本的特徵通常需由人類專家來設計，這成為“特徵工程”（feature engineering）。眾所周知，特徵的好壞對泛化性能有至關重要的影響，人類專家設計出好特徵也並非易事；特徵學習（表徵學習）則通過機器學習技術自身來產生好特徵，這使機器學習向“全自動數據分析”又前進了一步。^[3]

近年來，研究人員也逐漸將這幾類方法結合起來，如對原本是以有監督學習為基礎的卷積神經網絡結合自編碼神經網絡進行無監督的預訓練，進而利用鑑別信息微調網絡參數形成的卷積深度置信網絡。與傳統的學習方法相比，深度學習方法預設了更多的模型參數，因此模型訓練難度更大，根據統計學習的一般規律知道，模型參數越多，需要參與訓練的數據量也越大。^[2]

20世紀八九十年代由於計算機計算能力有限和相關技術的限制，可用於分析的數據量太小，深度學習在模式分析中並沒有表現出優異的識別性能。自從2006年，Hinton等提出快速計算受限玻耳茲曼機（RBM）網絡權值及偏差的CD-K算法以後，RBM就成了增加神經網絡深度的有力工具，導致後面使用廣泛的DBN（由Hinton等開發並已被微軟等公司用於語音識別中）等深度網絡的出現。與此同時，稀疏編碼等由於能自動從數據中提取特徵也被應用於深度學習中。基於局部數據區域的卷積神經網絡方法近年來也被大量研究。^[2]

深度學習釋義

深度學習是機器學習的一種，而機器學習是實現人工智能的必經路徑。深度學習的概念源於人工神經網絡的研究，含多個隱藏層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵，以發現數據的分佈式特徵表示。研究深度學習的動機在於建立模擬人腦進行分析學習的神經網絡，它模仿人腦的機制來解釋數據，例如圖像，聲音和文本等。^[4]

含多個隱層的深度學習模型

從一個輸入中產生一個輸出所涉及的計算可以通過一個流向圖（flow graph）來表示：流向圖是一種能夠表示計算的圖，在這種圖中每一個節點表示一個基本的計算以及一個計算的值，計算的結果被應用到這個節點的子節點的值。考慮這樣一個計算集合，它可以被允許在每一個節點和可能的圖結構中，並定義了一個函數族。輸入節點沒有父節點，輸出節點沒有子節點。^[4]

這種流向圖的一個特別屬性是深度（depth）：從一個輸入到一個輸出的最長路徑的長度。^[4]

傳統的前饋神經網絡能夠被看作擁有等於層數的深度（比如對於輸出層為隱層數加1）。SVMs有深度2（一個對應於核輸出或者特徵空間，另一個對應於所產生輸出的線性混合）。^[4]

人工智能研究的方向之一，是以所謂 “專家系統” 為代表的，用大量 “如果-就”（If - Then）規則定義的，自上而下的思路。人工神經網絡（Artificial Neural Network），標誌着另外一種自下而上的思路。神經網絡沒有一個嚴格的正式定義。它的基本特點，是試圖模仿大腦的神經元之間傳遞，處理信息的模式。^[4]

深度學習特點

區別於傳統的淺層學習，深度學習的不同在於：^[4]

（1）強調了模型結構的深度，通常有5層、6層，甚至10多層的隱層節點；^[4]

（2）明確了特徵學習的重要性。也就是説，通過逐層特徵變換，將樣本在原空間的特徵表示變換到一個新特徵空間，從而使分類或預測更容易。與人工規則構造特徵的方法相比，利用大數據來學習特徵，更能夠刻畫數據豐富的內在信息。^[4]

通過設計建立適量的神經元計算節點和多層運算層次結構，選擇合適的輸入層和輸出層，通過網絡的學習和調優，建立起從輸入到輸出的函數關係，雖然不能100%找到輸入與輸出的函數關係，但是可以儘可能的逼近現實的關聯關係。使用訓練成功的網絡模型，就可以實現我們對複雜事務處理的自動化要求。^[4]

深度學習深度學習典型模型

典型的深度學習模型有卷積神經網絡（convolutional neural network）、DBN和堆棧自編碼網絡（stacked auto-encoder network）模型等，下面對這些模型進行描述。^[5]

深度學習卷積神經網絡模型

卷積神經網絡模型

在無監督預訓練出現之前，訓練深度神經網絡通常非常困難，而其中一個特例是卷積神經網絡。卷積神經網絡受視覺系統的結構啓發而產生。第一個卷積神經網絡計算模型是在Fukushima的神經認知機中提出的，基於神經元之間的局部連接和分層組織圖像轉換，將有相同參數的神經元應用於前一層神經網絡的不同位置，得到一種平移不變神經網絡結構形式。後來，Le Cun等人在該思想的基礎上，用誤差梯度設計並訓練卷積神經網絡，在一些模式識別任務上得到優越的性能。至今，基於卷積神經網絡的模式識別系統是最好的實現系統之一，尤其在手寫體字符識別任務上表現出非凡的性能。^[5]

深度學習深度信任網絡模型

DBN可以解釋為貝葉斯概率生成模型，由多層隨機隱變量組成，上面的兩層具有無向對稱連接，下面的層得到來自上一層的自頂向下的有向連接，最底層單元的狀態為可見輸入數據向量。DBN由若2F結構單元堆棧組成，結構單元通常為RBM（Restricted Boltzmann Machine，受限玻爾茲曼機）^[12] 。堆棧中每個RBM單元的可視層神經元數量等於前一RBM單元的隱層神經元數量。根據深度學習機制，採用輸入樣例訓練第一層RBM單元，並利用其輸出訓練第二層RBM模型，將RBM模型進行堆棧通過增加層來改善模型性能。在無監督預訓練過程中，DBN編碼輸入到頂層RBM後，解碼頂層的狀態到最底層的單元，實現輸入的重構。RBM作為DBN的結構單元，與每一層DBN共享參數。^[5]

深度學習堆棧自編碼網絡模型

堆棧自編碼網絡的結構與DBN類似，由若干結構單元堆棧組成，不同之處在於其結構單元為自編碼模型（auto-en-coder）而不是RBM。自編碼模型是一個兩層的神經網絡，第一層稱為編碼層，第二層稱為解碼層。^[5]

深度學習深度學習訓練過程

2006年，Hinton提出了在非監督數據上建立多層神經網絡的一個有效方法，具體分為兩步：首先逐層構建單層神經元，這樣每次都是訓練一個單層網絡；當所有層訓練完後，使用wake-sleep算法進行調優。^[6]

將除最頂層的其他層間的權重變為雙向的，這樣最頂層仍然是一個單層神經網絡，而其他層則變為了圖模型。向上的權重用於“認知”，向下的權重用於“生成”。然後使用wake-sleep算法調整所有的權重。讓認知和生成達成一致，也就是保證生成的最頂層表示能夠儘可能正確的復原底層的節點。比如頂層的一個節點表示人臉，那麼所有人臉的圖像應該激活這個節點，並且這個結果向下生成的圖像應該能夠表現為一個大概的人臉圖像。wake-sleep算法分為醒（wake）和睡（sleep）兩個部分。^[6]

wake階段：認知過程，通過外界的特徵和向上的權重產生每一層的抽象表示，並且使用梯度下降修改層間的下行權重。^[6]

sleep階段：生成過程，通過頂層表示和向下權重，生成底層的狀態，同時修改層間向上的權重。^[6]

深度學習自下上升的非監督學習

就是從底層開始，一層一層地往頂層訓練。採用無標定數據（有標定數據也可）分層訓練各層參數，這一步可以看作是一個無監督訓練過程，這也是和傳統神經網絡區別最大的部分，可以看作是特徵學習過程。具體的，先用無標定數據訓練第一層，訓練時先學習第一層的參數，這層可以看作是得到一個使得輸出和輸入差別最小的三層神經網絡的隱層，由於模型容量的限制以及稀疏性約束，使得得到的模型能夠學習到數據本身的結構，從而得到比輸入更具有表示能力的特徵；在學習得到n-l層後，將n-l層的輸出作為第n層的輸入，訓練第n層，由此分別得到各層的參數。^[6]

深度學習自頂向下的監督學習

就是通過帶標籤的數據去訓練，誤差自頂向下傳輸，對網絡進行微調。基於第一步得到的各層參數進一步優調整個多層模型的參數，這一步是一個有監督訓練過程。第一步類似神經網絡的隨機初始化初值過程，由於第一步不是隨機初始化，而是通過學習輸入數據的結構得到的，因而這個初值更接近全局最優，從而能夠取得更好的效果。所以深度學習的良好效果在很大程度上歸功於第一步的特徵學習的過程。^[6]

深度學習應用

深度學習計算機視覺

香港中文大學的多媒體實驗室是最早應用深度學習進行計算機視覺研究的華人團隊。在世界級人工智能競賽LFW（大規模人臉識別競賽）上，該實驗室曾力壓FaceBook奪得冠軍，使得人工智能在該領域的識別能力首次超越真人。^[7]

深度學習語音識別

微軟研究人員通過與hinton合作，首先將RBM和DBN引入到語音識別聲學模型訓練中，並且在大詞彙量語音識別系統中獲得巨大成功，使得語音識別的錯誤率相對減低30%。但是，DNN還沒有有效的並行快速算法，很多研究機構都是在利用大規模數據語料通過GPU平台提高DNN聲學模型的訓練效率。^[8]

在國際上，IBM、google等公司都快速進行了DNN語音識別的研究，並且速度飛快。^[8]

國內方面，阿里巴巴、科大訊飛、百度、中科院自動化所等公司或研究單位，也在進行深度學習在語音識別上的研究。^[8]

深度學習自然語言處理等其他領域

很多機構在開展研究，2013年，Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean發表論文Efficient Estimation of Word Representations in Vector Space建立word2vector模型，與傳統的詞袋模型（bag of words）相比，word2vector能夠更好地表達語法信息。深度學習在自然語言處理等領域主要應用於機器翻譯以及語義挖掘等方面。^[9]

2020年，深度學習可以加速半導體封測創新。在降低重複性人工、提高良率、管控精度和效率、降低檢測成本方面，AI深度學習驅動的AOI具有廣闊的市場前景，但駕馭起來並不簡單。^[10]

2020年4月13日，英國《自然·機器智能》雜誌發表的一項醫學與人工智能（AI）研究中，瑞士科學家介紹了一種人工智能系統可以幾秒之內掃描心血管血流。這個深度學習模型有望讓臨牀醫師在患者接受核磁共振掃描的同時，實時觀察血流變化，從而優化診斷工作流。^[11]

參考資料

1. 基於卷積神經網絡的深度學習算法與應用研究．知網[引用日期2019-07-17]
2. 曾向陽著．智能水中目標識別：國防工業出版社，2016.03：第255頁
3. 周志華．機器學習．北京：清華大學出版社，2015：114-115
4. 基於深度學習神經網絡技術的數字電視監測平台告警模型的研究．知網[引用日期2019-07-17]
5. 馬慧彬著．基於機器學習的乳腺圖像輔助診斷算法研究：湖南師範大學出版社，2016.08：第63頁
6. 董海鷹編著．智能控制理論及應用：中國鐵道出版社，2016.09：第183頁
7. 視覺識別奧賽華人包攬冠軍中企首獲世界第一．人民網[引用日期2018-09-08]
8. 基於深度學習的LAMOST光譜分類研究．天文學報[引用日期2019-07-17]
9. Efficient Estimation of Word Representations in Vector Space ．Cornell University Library．2013-1-16[引用日期2015-01-25]
10. 聚時科技鄭軍：用AI深度學習加速半導體封測創新--IT--人民網．人民網[引用日期2022-03-24]
11. 深度學習AI可掃描心臟血流．人民網[引用日期2022-03-24]
12. 受限玻爾茲曼機．百度翻譯[引用日期2022-10-03]

展開全部收起

深度學習的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：67次歷史版本
最近更新：一回首掏（2024-04-23）

1 簡介
2 釋義
3 特點
4 深度學習典型模型: 4.1 卷積神經網絡模型; 4.2 深度信任網絡模型; 4.3 堆棧自編碼網絡模型
5 深度學習訓練過程: 5.1 自下上升的非監督學習; 5.2 自頂向下的監督學習
6 應用: 6.1 計算機視覺; 6.2 語音識別; 6.3 自然語言處理等其他領域