複製鏈接
請複製以下鏈接發送給好友

實驗數據庫

鎖定
數據庫是指長期存儲在計算機內有組織的、可共享的數據集合。實驗數據庫可以從兩個方面來解釋:1、實驗數據庫是指用於存儲實驗數據的數據庫,例如醫學數據、化學數據;2、實驗數據庫是指一些用於做實驗的數據庫,如在計算機中,經常使用一些公開數據來測試算法性能。
中文名
實驗數據庫
外文名
Experimental database
學    科
計算機
定    義
存儲實驗數據的數據庫
目    的
用於數據分析
領    域
數據庫

實驗數據庫數據庫簡介

實驗數據庫是指用於存儲實驗數據的數據庫或一些用於做實驗的數據庫。數據庫建立主要是為了數據的集成和共享,同時也便於對數據存儲和管理。共享是指數據庫中的一塊塊數據可為多個不同的用户所共享,即多個不同的用户,使用多種不同的語言,為了不同的應用目的,而同時存取數據庫,甚至同時存取同一塊數據。

實驗數據庫數據庫優點

數據文件管理方式相比較,數據庫管理有許多優越性。這些優越性來自數據庫特有的數據結構和數據存儲方式。歸納起來,數據庫有如下優點。
(1)查詢迅速、準確,且有多種表達與傳輸方式。以一個大型倉庫管理為例:用手工操作,如要查找“某地區生產的商品的名稱、規格、數量”,就可能要先翻閲賬本,弄清分類目錄和分類形式,然後按地區或商品分類、商品名稱找到其他附帶的屬性,再抄寫下來。如果要查找的內容較多,則查找與抄寫既費時又費力。數據庫系統能根據給定的條件自動地按一定途徑以毫秒級速度進行掃描查找,可以在瞬間將符合要求的數據一一用表格或其他方式顯示出來,還可以自動地打印出來或通過網絡傳輸到指定地址,而且不會出現錯誤。
(2)數據結構化且統一管理。在數據庫中,數據按邏輯結構組織起來,而按物理結構存放在磁介質中,並且由數據庫管理系統統一管理,既考慮了數據本身的特點,也考慮了數據之間以及文件之間的聯繫,數據的查詢、檢索和處理很方便。在傳統的文件系統中,儘管記錄內部存在某種結構,但記錄之間沒有聯繫,數據的查詢、檢索和處理十分煩瑣、困難。實現數據的整體結構化管理,是數據庫的主要特徵之一,也是數據庫系統與文件系統的本質區別。
(3)數據冗餘度小。在文件系統中,為了滿足一個應用程序對數據的需要,常常在不同地方重複存放同一個或同一組數據。這樣一來,如果一個多處存放的數據出現錯誤,就必須同時修改幾個地方,否則將造成數據之間的不一致性。在數據庫系統中,數據不僅可以面向某個局部應用而且可以面向整體應用,從而大大減少數據冗餘,節約了存儲空間,有效地避免了數據之間的不一致性。
(4)具有較高的數據獨立性。數據獨立性是指用户應用程序與存儲在數據庫中數據的相互獨立性。當人們利用應用程序調用數據庫進行數據處理時,只涉及數據的邏輯結構,而不涉及其存儲方式和物理結構。而當數據的物理存儲方式和結構改變時,數據庫管理系統將自動處理這種改變,而應用程序不必改變。近期甚至發展到數據庫的邏輯結構改變了,用户程序也可以不變。用户程序不隨數據邏輯結構改變而改變的特性,可稱為數據的“邏輯獨立性”。數據獨立性(物理的和邏輯的)是數據庫的重要特徵和優點,它有利於在數據庫結構修改時保持應用程序的穩定性,可以大大減少應用程序員的軟件開發工作量。
(5)數據的共享性好。存放於數據庫中的數據的共享性包括系統內部共享性和外部共享性兩種,這是數據庫管理方式區別於手工管理和文件管理方式的最本質的特徵和優點。
系統內部的共享性是指同一個(組)數據在一次處理中可以多次被調用的性能,而系統外部的共享性是指同一個(組)數據可以同時供多個用户調用。這兩種共享性的原理是一致的,它使得多種作業、多種語言、多種用户可以相互覆蓋地使用數據集合 [1] 
內部共享性有效地降低了數據的冗餘度,系統很容易進行維護和擴充,而且能夠使應用程序的編寫更加方便。系統外部共享性能夠促進並實現信息社會化服務,可以充分發揮信息的價值。舉一個簡單的事例,在沒有使用數據庫技術時,火車票和飛機票發售的數據很難共享,常常出現有的售票處某線路車票或機票已售完,而另一售票處還有很多同一線路的車票或機票無人購買的情況。為了避免上述現象的出現,火車客運站和航空公司往往採取讓不同售票處出售不同路線車票和機票的做法,結果給乘客帶來許多不便。如今採用數據庫來管理車票和機票發售工作,各個售票處可以互通有無,乘客不但可以在一個城市的任何售票處方便地查詢併購買當地出發的某路線車票和機票,而且隨着網絡技術的發展,人們甚至可以在全國任一城市查詢併購買異地出發的任一路線車票和機票。

實驗數據庫數據庫構建

工作流程
我們在原有的藥理數據庫基礎上,針對繁雜數據,發現規律,設立字段,建立表單,確立 ER 關係結構圖,建立數據庫表結構,搭建遠程加工平台,研製數據拆分與導入工具,最終實現共建共享。目前,結構型數據庫已經形成了非常嚴謹的工作流程,無論是對於相關文獻的篩選還是數據有效信息的抽取與加工,還是數據的審校與拆分導入,都進行了周密的考慮,這為保障數據庫構建質量奠定了良好的基礎。
中藥藥理實驗數據庫表結構的建立
數據庫的加工實際上就是對數據庫表中每一個字段的加工,每個字段的設立以及各個字段構成的單表更是建庫的基礎,而各個加工表單相互關聯的關係更是最終共享展示的關鍵。因此,充分理解文獻思路,發現文獻共性,建立文獻包含信息之間的關係尤為重要。 中藥藥理實驗相關數據包含了文獻基本信息(包括題名、刊名、作者、雜誌、卷、期、頁等)、藥物信息(包括單味藥、 化學成分、 方劑)、 研究對象信息(包括疾病、 證候、症狀、病理生理等)、動物信息(包括動物種屬、品系等)和實驗檢測信息(包括效應部位、檢測指標等)等。這些相關字段的設置都需要對文獻進行細緻分析,並對其進行歸類,形成相關信息組合的表單,而表結構的確立也要充分考慮到文獻的整體性聯繫,最大程度體現文獻相關信息分佈的特點。基於表結構的中藥藥理實驗數據庫遠程加工平台。新版數據庫加工平台在原有數據庫加工平台基礎上,更加註重加工與審校人員操作的快速便捷,表單提交方便、明瞭,文獻篩選查詢以及原文圖片上傳刪除等功能都更進一步 [2] 
輔助詞表的建設
每個數據庫的加工就是對數據庫表中每一個字段的加工,每一個字段的加工都是一種小型的數據匯交,只要涉及到數據的匯交,就不可避免地要制定數據匯交的標準,因為它關係到
數據庫的建庫質量,關係到數據庫查詢的準確性、完美性及可信性。目前,中藥藥理實驗數據庫輔助詞表掛接已經完成。此表是語言系統與未正式收錄詞聯合查詢在詞雀系統中的實現,內容是動態發展的。儘管如此,目前現有的輔助選詞量仍然無法滿足對海量信息進行加工時的選取需要,仍然有大量的詞彙需要進行篩選添加。此外,在使用詞雀系統增加輔助選詞的過程中,還應注意儘可能多的收錄一些入口詞,以便於加工人員查找使用。

實驗數據庫數據分析

運用數理統計方法,對調查所獲的數據資料進行綜合處理,以揭示事物內在數量規律的過程。在輿論調查中,描述分析和統計推論是構成數據分析方法的兩大基本支柱。描述分析是對已經初步整理的數據資料加工概括,並用統計量對這些資料進行描述的一種方法。它的任務是簡縮數據,描述數據,其內容包括:編制次數分配表和繪製次數分配曲線,用以表現數據資料的概要;計算各種平均數(眾數、中位數、算術平均數等),用以測定和表現數據資料分佈的集中趨勢;計算離差數(全距、平均差、均方差等),用以測定和表現數據資料的離中趨勢;測定次數分配不對稱或偏斜程度,即對一個次數分配中所包括的各個觀察值的排布,測定其是否對稱於中位值;測定次數分配曲線圖形的頂峯尖峭或平坦的程度等等。統計推論是在隨機抽樣的基礎上,根據樣本資料對總體進行推論的一種方法。它的目的是用一個觀察數值去推斷一個未知的理論數值;用一個樣本數值去推斷一個理論統計量(參數)。因此,如何抽取樣本,樣本的可靠程度,分析可靠程度的保證及進行假設檢驗等,都是統計推論需要研究的重要問題。統計推論的主要內容包括:樣本分配、參數估計、統計假設檢驗、方差分析及非參數統計等。

實驗數據庫概念模型

概念模型是對客觀事物及其聯繫的抽象,用於信息世界的建模,它強調其語義表達能力,以及能夠較方便、直接地表達應用中各種語義知識。這類模型概念簡單、清晰、易於被用户理解,是用户和數據庫設計人員之間進行交流的語言。這種信息結構並不依賴於具體的計算機系統,不是某一個 DBMS 支持的數據模型,而是概念級的模型,然後再把概念模型轉換為計算機上某一 DBMS 支持的數據模型。概念模型的概念主要如下:
實體
客觀上存在且可區分的事物稱為實體。實體可以是人,也可以是物;可以指實際的對象,也可以指某些概念;可以指事物與事物間的聯繫。如學生是一個實體。
屬性
實體所具有的某一方面的特性。一個實體可以由若干個屬性來刻畫。如公司員工實體有員工編號、姓名、年齡、性別等屬性。再如學生實體有學號、姓名和性別等屬性。
關鍵字
實體的某一屬性或屬性組合,其取用的值能惟一標識出某一實體,稱為關鍵字,也稱碼。如學號是學生實體集的關鍵字,由於姓名有相同的可能,故不應作為關鍵字。
域是某(些)屬性的取值範圍。如姓名的域為字符串集合,性別的域為男、女等。
實體型
具有相同屬性的實體必須具有共同的特性。用實體名及其屬性名集合來抽象和刻畫同類實體,稱為實體型。例如,學生(學號,姓名,性別,班號)就是一個實體型。
實體集
同型實體的集合稱為實體集。如全體學生就是一個實體集。
聯繫
現實世界的事物之間總是存在某種聯繫,這種聯繫必然要在信息世界中加以反映。一般存在兩類聯繫:一是實體內部的聯繫,如組成實體的屬性之間的聯繫;二是實體之間的聯繫。
參考資料
  • 1.    吳衝龍.地質信息技術基礎[M].清華大學出版社,2008.8
  • 2.    劉麗紅.中藥藥理實驗數據庫構建的思路與體會.中國中醫藥信息雜誌,2008