複製鏈接
請複製以下鏈接發送給好友

DNA數據庫

鎖定
集合所有已知核酸的核苷酸序列單核苷酸多態性、結構、性質以及相關描述,包括它們的科學命名、來源物種分類名稱、參考文獻等信息的資料庫。基因和基因組的資料也包含在DNA數據庫中。國際上比較重要的核酸(含蛋白質)一級數據庫有美國的GenBank、歐洲的EMBL和日本的DDBJ。三個數據庫信息共享,每日交換,故資料是一樣的,唯格式有所不同。
中文名
DNA數據庫
所屬學科
生物學

DNA數據庫EMBL

歐洲生物信息學研究所(European Bioinformatics Institute, EBI)創建的一個核酸序列數據庫。EMBL的數據來源主要有兩部分,一部分由科研人員或某些基因組測序機構通過計算機網絡直接提交,另一部分則來自科技文獻或專利(Stoesser等, 1998)。EMBL與DDBJ、GenBank建有合作關係,他們分別在全世界範圍內收集核酸序列信息,每天都將新發現或更新過的數據相互交換。
DNA數據庫的規模正在以指數方式增長,平均不到9個月就增加一倍。1998年1月,EMBL中收錄的序列數已超過一百萬,包括15,500個物種,其中模式生物的序列佔50%以上,它們包括人類(Homo sapiens), 線蟲(Caenorhabditis elegans),啤酒酵母(Saccharomyces cerevisiae),小鼠(Mus musculus)和擬南芥(Arabidopsis thalania)。
可以利用序列查詢系統 SRS(Sequence Retrieval System)從EMBL數據庫中提取有關信息(Etzold等,1996年)。SRS序列查詢系統通過超文本鏈接將DNA序列數據庫和蛋白質序列、功能位點、結構、基因圖譜以及文獻摘要MEDLINE等各種數據庫聯繫在一起。利用EBI網站提供的BLAST或FastA程序,可以對EMBL數據庫進行未知序列同源性搜索。

DNA數據庫DDBJ

是DNA Data Bank of Japan的簡稱,始建於1986年,由國立遺傳學研究院負責數據庫的建設,維護及數據的傳播,並與EMBL和GenBank合作;可以從世界各地通過網絡把序列直接提交該數據庫。DDBJ網頁上也提供了包括FastA和BLAST在內的數據庫查詢工具。

DNA數據庫GenBank

DNA數據庫簡介

GenBank是美國國家生物技術信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列數據庫,從公共資源中獲取序列數據,主要是科研人員直接提供或來源於大規模基因組測序計劃( Benson等, 1998)。為保證數據儘可能的完全,GenBank與EMBL、DDBJ建立了相互交換數據的合作關係。

DNA數據庫大型數據庫介紹

大型數據庫分成若干子庫,有許多好處。首先,可以把數據庫查詢限定在某一特定部分,以便加快查詢速度。其次,基因組計劃快速測序得到的大量序列尚未加以註釋,將它們單獨分類,有利於數據庫查詢和搜索時“有的放矢”。GenBank將這些數據按高通量基因組序列(High Throughput Genomic Sequences,HTG)、表達序列標記(Expressed Sequence Tags,EST)、序列標記位點(Sequence Tagged Sites,STS)和基因組概覽序列(Genome Survey Sequences,GSS)單獨分類。儘管這些數據尚未加以註釋,它們依然是GenBank的重要組成部分。
可通過Entrez數據庫查詢系統對GenBank進行查詢。這個系統將核酸、蛋白質序列和基因圖譜蛋白質結構數據庫整合在一起。此外,通過該系統的文獻摘要數據庫MEDLINE,可獲取有關序列的進一步信息。在萬維網上,進入NCBI的主頁,可以用BLAST程序對GenBank數據庫進行未知序列的同源性搜索(詳見第六章)。
完整的GenBank數據庫包括序列文件,索引文件以及其它有關文件。索引文件是根據數據庫中作者、參考文獻等子段建立的,用於數據庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列數據庫,其數據格式為FastA。GenBank曾以CD-ROM光盤的形式分發,價格比較便宜。隨着數據庫容量的增長,一套最新版的GenBank需要12張光盤存放,不僅生產成本很高,也不便於使用。光盤分發的方式已經停止,可以通過網絡下載GenBank數據庫。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核甘酸鹼基排列順序和註釋兩部分。許多生物信息資源中心通過計算機網絡提供該數據庫文件。下面,我們介紹序列文件的結構。
序列文件由單個的序列條目組成。序列條目由字段組成,每個字段由關鍵字起始,後面為該字段的具體説明。有些字段又分若干次子字段,以次關鍵字或特性表説明符開始。每個序列條目以雙斜槓“//”作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表説明符從第五列開始。每個字段可以佔一行,也可以佔若干行。若一行中寫不下時,繼續行以空格開始。
序列條目的關鍵字包括代碼(LOCUS),説明(DEFINITION), 編號(ACCESSION),核酸標識符(NID),關鍵詞(KEYWORDS),數據來源(SOURCE),文獻(REFERENCE),特性表(FEATURES),鹼基組成(BASE COUNT)及鹼基排列順序(ORIGIN)。
代碼LOCUS是該序列條目的標記,或者説標識符,藴涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該字段還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。説明字段是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。
序列代碼具有永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此代碼為準。核酸標識符NID對序列信息的當前版本提供?
關鍵詞字段由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中還氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 數據來源字段説明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血管(umbilical vein)。次關鍵字種屬(ORGANISM)指出該生物體的分類學地位,如本例人、真核生物等等。文獻字段説明該序列中的相關文獻,包括作者(AUTHORS),題目(TITLE)及雜誌名(JOURNAL)等,以次關鍵詞列出。該字段中還列出醫學文獻摘要數據庫MEDLINE的代碼。該代碼實際上是個網絡鏈接指針,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。
FEATURES是具有自己的一套結構,用來詳細描述序列特性的一個表格。在這個表格內,帶有‘/db-xref/’標誌的字符可以連接到其它數據庫內(本例,您看到的是一個分類數據庫(taxon 9606),以及一個蛋白質數據庫(PID:g181254));序列中各部分的位置都加以標明,5’非編碼區(1-97),編碼區(98-1912),3非編碼區(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白質翻譯的信號肽及最終的多肽也都有所説明。這個例子不能説很全面,但已經足以説明特性表給出信息的詳細程度。
接下來是BASE COUNT記錄,計算出不同鹼基在整個序列中出現的次數(1010A,712個C,633個G,1032個T)。ORIGIN那一行,指出了序列第一個鹼基在基因組中可能的位置。最後,核酸的序列全部列出,並以//作為結尾。

DNA數據庫dbEST

EST數據存儲在dbEST數據庫內,該數據庫有自己的格式和識別代碼系統。序列信息以及dbEST的註釋摘要,也按DNA的分類分成了若干子數據庫。1998年5月8日版的dbEST共包括1.6Ⅹ106條EST。其中有1百萬條屬於人類(Homo sapiens),30萬條屬於++(Mus musculus),和++(Mus domesticus)。

DNA數據庫GSDB

這個基因組序列數據庫由位於新墨西哥州Santa Fe的國家基因組資源中心創建。GSDB收集、管理並且發送完整的DNA序列及其相關信息,以滿足主要基因組測序機構的需要。這一資源是以在線服務器-客户式關係數據庫的形式進行工作的,為遠端的大規模測序機構向其提交數據提供了方便。以這種方式獲取的數據,在被髮送之前會先對數據進行檢查以確保數據的質量。
GSDB中條目的格式與GenBank中的基本一致。這兩種條目的主要區別是GSDB中有名為GSDBID的一項。
這個數據庫可以通過萬維網,或使用服務器-客户式關係數據庫來使用;無論用哪種方法,熟悉數據庫語言,SQL(結構化查詢語言),會有所幫助。

DNA數據庫特定基因組資源

除了涵蓋從完整基因組到單個基因各個方面的綜合DNA序列數據庫,還有些更有針對性的基因組資源,或稱專用數據庫。在一定程度上,可以認為這些數據庫既連接了一些基本的DNA數據庫,把它們的數據抽調出來填充到自己的數據庫中;又連接了一些經常調用這些數據庫的查詢結果的其他數據庫。這種獨特數據資源存在的意義在於強調(a)特定物種的基因組,(b)特殊的測序技術。每包含的序列信息對這類數據庫也許並不重要,一般情況下,它們主要的目的是為某一特定的物種提供一個更為完整的數據庫資源,如模式生酵母(Saccharomyces cerevisiae)、 線蟲(Caenorhabditis elegans)、果蠅(Drosophila melanogaster)、擬南芥(Arabidopsis thaliana)、幽門螺桿菌(Helicobacter pylori)等。因為某一系統中的序列數據只能提供該物種一定層次的信息,如果把更高層次的信息加以綜合,就能對基因組的組織結構有一個完整的理解。
因特網為科學家們在交流基因科學方面的研究成果上帶來的影響,怎麼誇張都不過分。下面選擇了能見到的幾個數據庫為例作些説明,其中既有網站,也包括可下載的數據文件。

DNA數據庫SGD

酵母基因組數據庫SGD(Cherry et al.,1998),是以方式工作的一種在線資源,包括了啤酒酵母的分子生物學及遺傳學信息。通過因特網可以訪問該數據庫的全部基因組,包括基因及其產物,一些突變的表形還有各種數據的相關文字信息。酵母基因組的重要性在於,1998年它成為第一個完整測序的真核生物基因組。SGD通過若干功能的集成,為研究人員提供同源性查詢,使用網絡上的基因序列分析資源,註冊酵母基因名稱,查看基因組的各類圖譜及三維結構信息,設計能夠有效克隆酵母基因的引物序列等等。數據庫通過一系列友好,生動的圖形界面為用户展示各種物理、遺傳、和序列特性圖譜。

DNA數據庫UniGene

人類基因組計劃的主要任務是對人類基因組進行全測序,(整個基因組估計有30億對鹼基),然而這裏面只有大約3%可以編碼蛋白質,其餘部分的生物學功能還不清楚。轉錄圖譜可以把基因組中實際表達的部分集中起來,因此是一種重要資源。
UniGene希望通過從GeneBank中調出一些不包括多餘部分、面向基因的序列串組成一個轉錄圖譜。這個庫涵蓋了多種生物的基因,每個序列串與一個基因及其相關信息建立聯繫。如基因在什麼生物組織中表達,圖譜中的位置等。
除了研究的已經很清楚的基因序列外,大量新發現的EST也包括在內。這就意味着,大部分序列只是片段序列,相應基因並沒有搞清楚。因此,這個數據庫的另一個價值就是發現新基因。在描繪基因圖譜及大規模基因表達分析等項目中,UniGene也可以幫助實驗設計者選擇試劑。
進入NCBI的主頁,可以訪問這個數據庫。

DNA數據庫TDB

DNA數據庫TIGR

TIGR數據庫(TDB)包括DNA及蛋白質序列,基因表達,細胞功能以及蛋白質家族信息,並且還收錄有人、植物、微生物等的分類信息,是一套大型綜合數據庫。特別之處在於,這套數據庫包括一個微生物信息庫,收錄了TIGR自己以及世界範圍內的其它基因組測序計劃的成果,如、致Lyme病螺旋體(B. Burgdorferi)、流感嗜血菌(H. Influenzae)、幽門螺桿菌(H. Pylori)、和生殖道支原體(M. genitalium)等,寄生蟲數據庫(T. brucei P. falciparum),人、鼠、水稻等基因索引計劃;擬南芥(A. Thaliana)數據庫;以及人類基因組數據庫等。其中有些數據可以由FTP站點下載,或是由TIGR的主頁訪問。

DNA數據庫ACeDB

AceDB數據庫,是線蟲(C. Elegans)基因組計劃的一個成果。庫內的資源包括限制性圖譜基因結構信息,柯斯質粒圖譜,序列數據,參考文獻等等。通過軟件ACEDB來管理並瀏覽這個數據庫,ACEDB提供一個圖形界面,使用户能夠從大到整個基因組小到物理序列的各個層次考察基因組數據。ACeDB及ACEDB既可以指數據庫又可以指瀏覽工具,這可能會引起混淆,用户應注意區分。

DNA數據庫國內發展情況

中國國內的,在偵破案件上使用DNA技術,是很早就有的,但是真正的DNA系統是最近10年間才發展起來的。中國國內的DNA數據庫系統,有數據量大,增長量快,比對複雜等特點。
主流公安機關使用的DNA系統 ,是由北京海鑫高科技有限公司和遼寧省公安廳刑事科學研究所共同研究的項目。該項目也列入了國家”十五“科技課題和公安廳的”金盾計劃“。
針對拐賣兒童案件逐年上升的趨勢,公安部又組織開發建立了全國公安機關“打拐”DNA數據庫,使許多被拐賣的孩子和家裏親人得以團聚。