複製鏈接
請複製以下鏈接發送給好友

數據挖掘技術

(數據處理的技術)

鎖定
數據挖掘技術是數據處理的技術,從數據本身來考慮,通常數據挖掘需要有數據清理數據變換、數據挖掘實施過程、模式評估和知識表示等8個步驟。
中文名
數據挖掘技術
技術流程
信息收集 數據集成數據規約
遺傳算法
是一種仿生全局優化方法
分    類
數據挖掘

數據挖掘技術技術流程

從數據本身來考慮,通常數據挖掘需要有數據清理數據變換、數據挖掘實施過程、模式評估和知識表示等8個步驟。
(1) 信息收集:根據確定的數據分析對象抽象出在數據分析中所需要的特徵信息,然後選擇合適的信息收集方法,將收集到的信息存入數據庫。對於海量數據,選擇一個合適的數據存儲和管理的數據倉庫是至關重要的。
(2) 數據集成:把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享
(3) 數據規約:執行多數的數據挖掘算法即使在少量數據上也需要很長的時間,而做商業運營數據挖掘時往往數據量非常大。數據規約技術可以用來得到數據集的規約表示,它小得多,但仍然接近於保持原數據的完整性,並且規約後執行數據挖掘結果與規約前執行結果相同或幾乎相同。
(4) 數據清理:在數據庫中的數據有一些是不完整的(有些感興趣的屬性缺少屬性值),含噪聲的(包含錯誤的屬性值),並且是不一致的(同樣的信息不同的表示方式),因此需要進行數據清理,將完整、正確、一致的數據信息存入數據倉庫中。
(5) 數據變換:通過平滑聚集,數據概化,規範化等方式將數據轉換成適用於數據挖掘的形式。對於有些實數型數據,通過概念分層和數據的離散化來轉換數據也是重要的一步。
(6) 數據挖掘過程:根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹規則推理、模糊集、甚至神經網絡、遺傳算法的方法處理信息,得出有用的分析信息。
(7) 模式評估:從商業角度,由行業專家來驗證數據挖掘結果的正確性。
(8) 知識表示:將數據挖掘所得到的分析信息以可視化的方式呈現給用户,或作為新的知識存放在知識庫中,供其他應用程序使用。
數據挖掘過程是一個反覆循環的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整並執行。不是每件數據挖掘的工作都需要這裏列出的每一步,例如在某個工作中不存在多個數據源的時候,步驟(2)數據集成的步驟便可以省略。
步驟(3)數據規約(4)數據清理(5)數據變換又合稱數據預處理。在數據挖掘中,至少60%的費用可能要花在步驟(1)信息收集階段,而至少60%以上的精力和時間是花在數據預處理

數據挖掘技術操作方法

神經網絡
神經網絡由於本身良好的魯棒性自組織自適應性並行處理、分佈存儲和高度容錯等特性非常適合解決數據挖掘的問題,用於分類、預測和模式識別前饋神經網絡模型;以hopfield的離散模型和連續模型為代表的,分別用於聯想記憶和優化計算的反饋式神經網絡模型;以art模型、koholon模型為代表的,用於聚類自組織映射方法。神經網絡方法的缺點是"黑箱"性,人們難以理解網絡的學習和決策過程
遺傳算法
遺傳算法是一種基於生物自然選擇與遺傳機理的隨機搜索算法。遺傳算法具有的隱含並行性、易於和其它模型結合等性質使得它在數據挖掘中被加以應用。
sunil已成功地開發了一個基於遺傳算法的數據挖掘工具,利用該工具對兩個飛機失事的真實數據庫進行了數據挖掘實驗,結果表明遺傳算法是進行數據挖掘的有效方法之一[4]。遺傳算法的應用還體現在與神經網絡、粗集等技術的結合上。如利用遺傳算法優化神經網絡結構,在不增加錯誤率的前提下,刪除多餘的連接和隱層單元;用遺傳算法和bp算法結合訓練神經網絡,然後從網絡提取規則等。但遺傳算法的算法較複雜,收斂於局部極小的較早收斂問題尚未解決。
決策樹是一種常用於預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。最有影響和最早的決策樹方法是由quinlan提出的著名的基於信息熵的id3算法。它的主要問題是:id3是非遞增學習算法;id3決策樹是單變量決策樹,複雜概念的表達困難;同性間的相互關係強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進算法,如 schlimmer和fisher設計了id4遞增式學習算法;鐘鳴,陳文偉等提出了ible算法等。
粗集方法
粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易於操作。粗集處理的對象是類似二維關係表的信息表。但粗集的數學基礎集合論,難以直接處理連續的屬性。而現實信息表中連續屬性是普遍存在的。因此連續屬性的離散化是制約粗集理論實用化的難點。
覆蓋正例排斥反例方法
它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則捨去,相反則保留。按此思想循環所有正例種子,將得到正例的規則(選擇子的合取式)。比較典型的算法有michalski的aq11方法、洪家榮改進的aq15方法以及他的ae5方法。
在數據庫字段項之間存在兩種關係:函數關係(能用函數公式表示的確定性關係)和相關關係(不能用函數公式表示,但仍是相關確定性關係),對它們的分析可採用統計學方法,即利用統計學原理對數據庫中的信息進行分析。可進行常用統計(求大量數據中的最大值最小值、總和、平均值等)、迴歸分析(用迴歸方程來表示變量間的數量關係)、相關分析(用相關係數來度量變量間的相關程度)、差異分析(從樣本統計量的值得出差異來確定總體參數之間是否存在差異)等。
模糊集方法
即利用模糊集合理論對實際問題進行模糊評判、模糊決策模糊模式識別模糊聚類分析。系統的複雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統模糊理論和概率統計的基礎上,提出了定性定量不確定性轉換模型--雲模型,並形成了雲理論
挖掘對象
根據信息存儲格式,用於挖掘的對象有關係數據庫、面向對象數據庫數據倉庫、文本數據源多媒體數據庫空間數據庫時態數據庫、異質數據庫以及internet等。

數據挖掘技術數據挖掘軟件

SAS EM
IBM旗下SPSS公司的Modeler
神舟通用公司的K-Miner