複製鏈接
請複製以下鏈接發送給好友

AUC

(ROC曲線下方的面積大小)

鎖定
AUC(Area Under Curve)被定義為ROC曲線下與座標軸圍成的面積,顯然這個面積的數值不會大於1。又由於ROC曲線一般都處於y=x這條直線的上方,所以AUC的取值範圍在0.5和1之間。AUC越接近1.0,檢測方法真實性越高;等於0.5時,則真實性最低,無應用價值。
中文名
AUC
外文名
Area Under Curve
含    義
ROC曲線下與座標軸圍成的面積

AUC概念

AUC(Area Under Curve)被定義為ROC曲線下的面積。我們往往使用AUC值作為模型的評價標準是因為很多時候ROC曲線並不能清晰的説明哪個分類器的效果更好,而作為一個數值,對應AUC更大的分類器效果更好。
其中,ROC曲線全稱為受試者工作特徵曲線 (receiver operating characteristic curve),它是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(敏感性)為縱座標,假陽性率(1-特異性)為橫座標繪製的曲線
AUC就是衡量學習器優劣的一種性能指標。從定義可知,AUC可通過對ROC曲線下各部分的面積求和而得。 [1] 
AUC的含義通俗理解:隨機給定一個正樣本和一個負樣本,用一個分類器進行分類和預測,該正樣本的得分比該負樣本的得分要大的概率。

AUC簡介

ROC(receiver operating characteristic curve)接收者操作特徵曲線,是由二戰中的電子工程師和雷達工程師發明用來偵測戰場上敵軍載具(飛機、船艦)的指標,屬於信號檢測理論。
ROC曲線的橫座標是偽陽性率(也叫假正類率,False Positive Rate),縱座標是真陽性率(真正類率,True Positive Rate),相應的還有真陰性率(真負類率,True Negative Rate)和偽陰性率(假負類率,False Negative Rate)。這四類指標的計算方法如下:
(1)偽陽性率(FPR):判定為正例卻不是真正例的概率,即真負例中判為正例的概率
(2)真陽性率(TPR):判定為正例也是真正例的概率,即真正例中判為正例的概率(也即正例召回率)
(3)偽陰性率(FNR):判定為負例卻不是真負例的概率,即真正例中判為負例的概率。
(4)真陰性率(TNR):判定為負例也是真負例的概率,即真負例中判為負例的概率。
ROC(Receiver Operating Characteristic)曲線,又稱接受者操作特徵曲線。該曲線最早應用於雷達信號檢測領域,用於區分信號與噪聲。後來人們將其用於評價模型的預測能力,ROC曲線是基於混淆矩陣得出的。一個二分類模型的閾值可能設定為高或低,每種閾值的設定會得出不同的 FPR 和 TPR ,將同一模型每個閾值的 (FPR, TPR) 座標都畫在 ROC 空間裏,就成為特定模型的ROC曲線。ROC曲線橫座標為假正率(FPR),縱座標為真正率(TPR)。
AUC就是曲線下面積,在比較不同的分類模型時,可以將每個模型的ROC曲線都畫出來,比較曲線下面積做為模型優劣的指標。ROC 曲線下方的面積(Area under the Curve),其意義是:
(1)因為是在1x1的方格里求面積,AUC必在0~1之間。
(2)假設閾值以上是陽性,以下是陰性;
(3)若隨機抽取一個陽性樣本和一個陰性樣本,分類器正確判斷陽性樣本的值高於陰性樣本的概率 = AUC 。
(4)簡單説:AUC值越大的分類器,正確率越高。
從AUC 判斷分類器(預測模型)優劣的標準:
  • AUC = 1,是完美分類器。
  • AUC = [0.85, 0.95], 效果很好
  • AUC = [0.7, 0.85], 效果一般
  • AUC = [0.5, 0.7],效果較低,但用於預測股票已經很不錯了
  • AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。
  • AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優於隨機猜測。

AUCROC曲線的意義

(1)主要作用
1.ROC曲線能很容易的查出任意閾值對學習器的泛化性能影響。
2.有助於選擇最佳的閾值。ROC曲線越靠近左上角,模型的準確性就越高。最靠近左上角的ROC曲線上的點是分類錯誤最少的最好閾值,其假正例和假反例總數最少。
3.可以對不同的學習器比較性能。將各個學習器的ROC曲線繪製到同一座標中,直觀地鑑別優劣,靠近左上角的ROC曲所代表的學習器準確性最高。
(2)優點
  1. 該方法簡單、直觀、通過圖示可觀察分析學習器的準確性,並可用肉眼作出判斷。ROC曲線將真正例率和假正例率以圖示方法結合在一起,可準確反映某種學習器真正例率和假正例率的關係,是檢測準確性的綜合代表。
  2. ROC曲線不固定閾值,允許中間狀態的存在,利於使用者結合專業知識,權衡漏診與誤診的影響,選擇一個更加的閾值作為診斷參考值。

AUCAUC面積的由來

如果兩條ROC曲線沒有相交,我們可以根據哪條曲線最靠近左上角哪條曲線代表的學習器性能就最好。但是,實際任務中,情況很複雜,如果兩條ROC曲線發生了交叉,則很難一般性地斷言誰優誰劣。在很多實際應用中,我們往往希望把學習器性能分出個高低來。在此引入AUC面積。
在進行學習器的比較時,若一個學習器的ROC曲線被另一個學習器的曲線完全“包住”,則可斷言後者的性能優於前者;若兩個學習器的ROC曲線發生交叉,則難以一般性的斷言兩者孰優孰劣。此時如果一定要進行比較,則比較合理的判斷依據是比較ROC曲線下的面積,即AUC(Area Under ROC Curve)。

AUCAUC面積的意義

AUC是衡量二分類模型優劣的一種評價指標,表示預測的正例排在負例前面的概率。 [2] 
參考資料