-
知識發現
鎖定
知識發現是從各種信息中,根據不同的需求獲得知識的過程。知識發現的目的是向使用者屏蔽原始數據的繁瑣細節,從原始數據中提煉出有效的、新穎的、潛在有用的知識,直接向使用者報告。
[1]
知識發現概念解析
知識發現(Knowledge Discovery in Database, KDD),是所謂"數據挖掘"的一種更廣義的説法,即從各種媒體表示的信息中,根據不同的需求獲得知識。知識發現的目的是向使用者屏蔽原始數據的繁瑣細節,從原始數據中提煉出有意義的、簡潔的知識,直接向使用者報告。基於數據庫的知識發現(KDD)和數據挖掘還存在着混淆,通常這兩個術語替換使用。KDD表示將低層數據轉換為高層知識的整個過程。可以將KDD簡單定義為:KDD是確定數據中有效的、新穎的、潛在有用的、基本可理解的模式的特定過程。而數據挖掘可認為是觀察數據中模式或模型的抽取,這是對數據挖掘的一般解釋。雖然數據挖掘是知識發現過程的核心,但它通常僅佔KDD的一部分(大約是15% 到25%) 。因此數據挖掘僅僅是整個KDD過程的一個步驟,對於到底有多少步以及哪一步必須包括在KDD過程中沒有確切的定義。然而,通用的過程應該接收原始數據輸入,選擇重要的數據項,縮減、預處理和濃縮數據組,將數據轉換為合適的格式,從數據中找到模式,評價解釋發現結果。
知識發現基本任務
知識發現數據分類
分類是數據挖掘研究的重要分支之一,是一種有效的數據分析方法。分類的目標是通過分析訓練數據集,構造一個分類模型(即分類器),該模型能夠把數據庫中的數據記錄映射到一個給定的類別,從而可以l立用於數據預測。
知識發現數據聚類
當要分析的數據缺乏必要的描述信息,或者根本就無法組織成任何分類模式時,利用聚類函數把一組個體按照相似性歸成若干類,這樣就可以自動找到類。聚類和分類類似,都是將數據進行分組。但與分類不同的是,聚類中的組不是預先定義的,而是根據實際數據的特徵按照數據之間的相似性來定義的。
知識發現衰退和預報
知識發現關聯和相關性
是指發現大規模數據集中項集之間有趣的關聯或相關關係。關聯規則是指通過對數據庫中的數據進行分析,從某一數據對象的信息來推斷另一數據對象的信息,尋找出重複出現概率很高的知識模式,常用一個帶有置信度因子的參數來描述這種不確定的關係。
知識發現順序發現
通常指確定數據組中的順序模式。當數據的特定類型的關係已被發現時,這些模式同關聯和相關性相似。但對關係基於時間序列的數據組,順序發現和關聯就不同了。概括總結:順序發現是將數據映射為有關數據組的簡練描述的子集或映射為數據庫中一組特定用户數據的高度概括的數據。
知識發現描述和辨別
是指發現一組特徵規則,其中的每一條都是或者顯示數據組的特徵或者從對比類中區別試驗類的概念的命題。
知識發現時間序列分析
知識發現知識類型
(1)廣義型知識(Generalization)。
是根據數據的微觀特性發現其表徵的、帶有普遍性的、高層次概念的、中觀或宏觀的知識。
(2)分類型知識(Classification&Clustering)。
反映同類事物共同性質的特徵型知識和不同事物之間差異型特徵知識。用於反映數據的匯聚模式或根據對象的屬性區分其所屬類別。
(3)關聯型知識(Association)。
是反映一個事件和其他事件之間依賴或關聯的知識,又稱依賴(Dependency)關係。這類知識可用於數據庫中的歸一化,查詢優化等。
(4)預測型知識(Prediction)。
通過時間序列型數據,由歷史的和當前的數據去預測未來的情況。它實際上是一種以時間為關鍵屬性的關聯知識。
(5)偏差型知識(Deviation)。
知識發現技術運用
知識發現內容簡介
知識發現已經出現了許多知識發現技術,分類方法也有很多種,按被挖掘對象分有基於關係數據庫、多媒體數據庫;按挖掘的方法分有數據驅動型、查詢驅動型和交互型;按知識類型分有關聯規則、特徵挖掘、分類、聚類、總結知識、趨勢分析、偏差分析、文本採掘。知識發現技術可分為兩類:基於算法的方法和基於可視化的方法 。大多數基於算法的方法是在人工智能、信息檢索、數據庫、統計學、模糊集和粗糙集理論等領域中發展來的。
知識發現典型技術
典型的基於算法的知識發現技術包括:或然性和最大可能性估計的貝葉斯理論 、衰退分析、最 近鄰、決策樹、K一方法聚類、關聯規則挖掘 、Web和搜索引擎、數據倉庫和聯機分析處理(On—line Analytical Processing,OLAP) 、神經網絡、遺傳算法、模糊分類和聚類、粗糙分類和規則歸納等。這些技術都很成熟,並且在相關書籍文章上都有詳細介紹。這裏介紹一種基於可視化的方法。
知識發現創新技術
②基於圖標技術。是指將每個多維數據項映射為圖形、色彩或其他圖標來改進對數據和模式的表達。
⑥ 混合技術。是指將上述兩種或多種技術合併到一起的技術。
知識發現操作步驟
知識發現過程的多種描述.它們只是在組織和表達方式上有所不同,在內容上並沒有非常本質的區別。知識發現過程包括以下步驟:
3.數據探索和清理:瞭解數據庫中字段的含義及其與其他字段的關係。對提取出的數據進行合法性檢查並清理含有錯誤的數據。
4.數據工程:對數據進行再加工.主要包括選擇相關的屬性子集並剔除冗餘屬性、根據知識發現任務對數據進行採樣以減少學習量以及對數據的表述方式進行轉換以適於學習算法等。為了使數據與任務達到最佳的匹配.這個步驟可能反覆多次。
5.算法選擇:根據數據和所要解決的問題選擇合適的數據挖掘算法.並決定如何在這些數據上使用該算法。
6.運行數據挖掘算法:根據選定的數據挖掘算法對經過處理後的數據進行模式提取。
7.結果的評價:對學習結果的評價依賴於需要解決的問題.由領域專家對發現的模式的新穎性和有效性進行評價。數據挖掘是KDD 過程的一個基本步驟.它包括特定的從數據庫中發現模式的挖掘算法。KDD過程使用數據挖掘算法根據特定的度量方法和閾值從數據庫中提取或識別出知識,這個過程包括對數據庫的預處理、樣本劃分和數據變換。
知識發現應用範圍
知識發現事實上知識發現的潛在應用是十分廣闊的.已經遠遠超出了最初的”貨架子工程”。從工業到農業,從天文到地理 從預測預報到決策支持,KDD都發揮着越來越重要的作用。許多計算機軟件開發商都已經推出了其數據挖掘產品,如IBM,Microsoft,SPSS,SGI,SLPInfoware,SAS(ObjectBusiness)等。數據挖掘作為信息處理的高新技術已經在實際應用中嶄露頭角。
1、商業方面。”貨架子工程”是KDD最初成功應用的典範。也正是因為在商業方面的成功應用不斷刺激着KDD的發展,進而拓展到越來越廣闊的應用領域。如今商業.特別是銷售業和服務行業,仍然是KDD應用最廣泛的領域之一。主要應用於銷售預測、庫存需求、零售點選擇、價格分析和銷售模式分析。例如賓館酒店通過對消費特別高和特別低的顧客進行偏離模式分析,可以發現一些有趣的消費模式:AutOmatedWagering公司使用Advanced Software AppIications的ModeIMaX預測模型.結合地理信息分析開發了Lotiery Machine Selection.以決定在佛羅里達州安裝彩票機的最佳地點。
2、農業方面。農業是一個大型複雜系統 中國農業部門數十年來積累了大量的關於土肥、氣象、病蟲害、市場信息等方面的數據、實例和經驗知識.但基本上沒有得到充分利用。通過KDD可以從中發現許多有價值和有規律的知識。如通過對病蟲害數據庫的分析,可以發現病蟲害的影響因素、遷移或蔓延規律等.從而遏制災害的發生、擴展或降低災害損失,通過對國際國內市場信息的挖掘來指導農業生產規劃等。
3、醫學生物方面。醫療保健行業有大量數據需要處理,但這個行業的數據由不同的信息系統管理,數據組織性差 而且類型複雜。如醫療診斷數據,可能包括文本、數值,圖像等,都給應用帶來了一些困難。KDD在醫藥方面主要用於醫療診斷分析、藥物成分一效用分析、新藥研製和藥物生產工藝控制優化等。