複製鏈接
請複製以下鏈接發送給好友

異常檢測

鎖定
數據挖掘中,異常檢測(英語:anomaly detection)對不匹配預期模式或數據集中其他項目的項目、事件或觀測值的識別。 通常異常項目會轉變成銀行欺詐、結構缺陷、醫療問題、文本錯誤等類型的問題。異常也被稱為離羣值、新奇、噪聲、偏差和例外。
中文名
異常檢測
外文名
Anomaly detection
方    法
首先定義一組系統處於正常的數據
難    點
如何建立活動簡檔,設計統計算法

異常檢測簡介

數據挖掘中,異常檢測(英語:anomaly detection)對不匹配預期模式或數據集中其他項目的項目、事件或觀測值的識別。通常異常項目會轉變成銀行欺詐、結構缺陷、醫療問題、文本錯誤等類型的問題。異常也被稱為離羣值、新奇、噪聲、偏差和例外。
特別是在檢測濫用與網絡入侵時,有趣性對象往往不是罕見對象,但卻是超出預料的突發活動。這種模式不遵循通常統計定義中把異常點看作是罕見對象,於是許多異常檢測方法(特別是無監督的方法)將對此類數據失效,除非進行了合適的聚集。相反,聚類分析算法可能可以檢測出這些模式形成的微聚類。
有三大類異常檢測方法。在假設數據集中大多數實例都是正常的前提下,無監督異常檢測方法能通過尋找與其他數據最不匹配的實例來檢測出未標記測試數據的異常。監督式異常檢測方法需要一個已經被標記“正常”與“異常”的數據集,並涉及到訓練分類器(與許多其他的統計分類問題的關鍵區別是異常檢測的內在不均衡性)。半監督式異常檢測方法根據一個給定的正常訓練數據集創建一個表示正常行為的模型,然後檢測由學習模型生成的測試實例的可能性。 [1] 

異常檢測應用

異常檢測技術用於各種領域,如入侵檢測、欺詐檢測、故障檢測、系統健康監測、傳感器網絡事件檢測和生態系統干擾檢測等。它通常用於在預處理中刪除從數據集的異常數據。在監督式學習中,去除異常數據的數據集往往會在統計上顯著提升準確性。 [1] 

異常檢測熱門方法

文獻中提出了幾種異常檢測方法。一些熱門方法有:
  • 基於密度的方法(最近鄰居法、局部異常因子及此概念的更多變化)。
  • 基於子空間與相關性的高維數據的孤立點檢測。
  • 複製神經網絡
  • 基於聚類分析的孤立點檢測。
  • 關聯規則和頻繁項集的偏差。
  • 基於模糊邏輯的孤立點檢測。
  • 運用特徵袋、分數歸一化與不同多樣性來源的集成方法。
不同方法的性能在很大程度上取決於數據集和參數,比較許多數據集和參數時,各種方法與其他方法相比的系統優勢不大。 [1] 

異常檢測數據安全

多蘿西·丹寧教授在1986年提出了入侵檢測系統(IDS)的異常檢測方法。入侵檢測系統的異常檢測通常是通過閾值和統計完成的,但也可以用軟計算和歸納學習。在1999年提出的統計類型包括檢測用户、工作站、網絡、遠程主機與用户組的配置文件,以及基於頻率、均值、方差、協方差和標準差的程序。在入侵檢測系統中,與異常檢測模式相對應的還有誤用檢測模式。 [1] 

異常檢測軟件

  • ELKI是一個包含若干異常檢測算法及其索引加速的開源Java數據挖掘工具箱。 [1] 

異常檢測參見

參考資料
  • 1.    Hodge, V. J.; Austin, J. A Survey of Outlier Detection Methodologies (PDF). Artificial Intelligence Review. 2004, 22 (2): 85–126. doi:10.1007/s10462-004-4304-y.