-
數據分類
鎖定
數據分類調研分析的基礎是數據,而數據的類型可以分為連續性的變量和分類變量。數據分類就是把具有某種共同屬性或特徵的數據歸併在一起,通過其類別的屬性或特徵來對數據進行區別。換句話説,就是相同內容、相同性質的信息以及要求統一管理的信息集合在一起,而把相異的和需要分別管理的信息區分開來,然後確定各個集合之間的關係,形成一個有條理的分類系統。
- 中文名
- 數據分類
- 外文名
- data classification
- 基本原則
- 穩定、系統、可擴充、兼容
- 意 義
- 反映事物類別的數據
- 應用學科
-
統計學
計算機控制
數據分類定義
數據分類就是把具有某種共同屬性或特徵的數據歸併在一起,通過其類別的屬性或特徵來對數據進行區別。為了實現數據共享和提高處理效率,必須遵循約定的分類原則和方法,按照信息的內涵、性質及管理的要求,將系統內所有信息按一定的結構體系分為不同的集合,從而使得每個信息在相應的分類體系中都有一個對應位置。換句話説,就是相同內容、相同性質的信息以及要求統一管理的信息集合在一起,而把相異的和需要分別管理的信息區分開來,然後確定各個集合之間的關係,形成一個有條理的分類系統。
[1]
我們都知道調研分析的基礎是數據,而數據的類型可以分為:
連續性的變量:比如,身高,體重,化驗值等等,這些變量的特點可以有小數點,可以直接錄入;
2. 分類變量:其變量值是定性的,表現為互不相容的類別或屬性。實際上在調研當中運用最多的就是分類變量,可分為無序變量和有序變量兩類。
②有序分類變量是指各類別之間有程度的差別。如尿糖化驗結果按-、±、+、++、+++分類;療效按治癒、顯效、好轉、無效分類。
數據分類基本原則
數據分類的基本原則如下:
數據分類穩定性
數據分類系統性
數據分類可擴充性
數據分類綜合實用性
數據分類兼容性
數據分類方法
根據不同的分類方法,可以將統計數據分為以下幾種類型:
數據分類按計量層次分類
按照數據的計量層次,可以將統計數據分為定類數據、定序數據、定距數據與定比數據。
1.定類數據。這是數據的最低層。它將數據按照類別屬性進行分類,各類別之間是平等並列關係。這種數據不帶數量信息,並且不能在各類別間進行排序。例如,某商場將顧客所喜愛的服裝顏色分為紅色、白色、黃色等,紅色、白色、黃色即為定類數據。又如,人類按性別分為男性和女性也屬於定類數據。雖然定類數據表現為類別,但為了便於統計處理,可以對不同的類別用不同的數字或編碼來表示。如1表示女性,2表示男性,但這些數碼不代表着這些數字可以區分大小或進行數學運算。不論用何種編碼,其所包含的信息都沒有任何損失。對定類數據執行的主要數值運算是計算每一類別中的項目的頻數和頻率。
[3]
2.定序數據。這時數據的中間級別。定序數據不僅可以將數據分成不同的類別,而且各類別之間還可以通過排序來比較優劣。也就是説,定序數據與定類數據最主要的區別是定序數據之間還是可以比較順序的。例如,人的受教育程度就屬於定序數據。我們仍可以採用數字編碼表示不同的類別:文盲半文盲=1,小學=2,初中-3,高中=4,大學=5,碩士=6,博士=7.通過將編碼進行排序,可以明顯地表示出受教育程度之間的高低差異。雖然這種差異程度不能通過編碼之間的差異進行準確的度量,但是可以確定其高低順序,即可以通過編碼數值進行不等式的運算。
[3]
3.定距數據。定距數據是具有一定單位的實際測量值(如攝氏温度、考試成績等)。此時不僅可以知道兩個變量之間存在差異,還可以通過加、減法運算準確的計算出各變量之間的實際差距是多少。可以説,定距數據的精確性比定類數據和定序數據前進了一大步,它可以對事物類別或次序之間的實際距離進行測量。例如,甲的英語成績為80分,乙的英語成績為85分,可知乙的英語成績比甲的高5分。
[3]
4.定比數據。這是數據的最高等級。它的數據表現形式同定距數據一樣,均為實際的測量值。定比數據與定距數據唯一的區別是:在定比數據中是存在絕對零點的,而定距數據中是不存在絕對零點的(零點是人為制定的)。因此定比數據間不僅可以比較大小,進行加、減運算,還可以進行乘、除運算。
[3]
數據分類按來源分類
數據的來源主要有兩種渠道:一種是通過直接的調查獲得的原始數據,一般稱為第一手或直接的統計數據;另一種是別人調查的數據,並將這些數據進行加工和彙總後公佈的數據,通常稱之為第二手或間接的統計數據。
[3]
數據分類按時間狀況分類
1.時間序列數據。它是指在不同的時間上搜集到的數據,反映現象隨時間變化的情況。