複製鏈接
請複製以下鏈接發送給好友

GenBank數據庫

鎖定
GenBank 是一個有來自於70,000多種生物的核苷酸序列的數據庫。每條紀錄都有編碼區(CDS)特徵的註釋,還包括氨基酸的翻譯。GenBank屬於一個序列數據庫的國際合作組織,包括EMBL和DDBJ
中文名
GenBank數據庫
性    質
數據庫
特    徵
包括序列文件,索引文件
作    用
用於數據庫查詢

GenBank數據庫數據庫

數據庫包括序列文件
完整的GenBank數據庫包括序列文件,索引文件以及其它有關文件。索引文件是根據數據庫中作者、參考文獻等建立的,用於數據庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列數據庫,其數據格式為FastA。GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核苷酸鹼基排列順序和註釋兩部分。

GenBank數據庫結構及特性

介紹序列文件的結構
許多生物信息資源中心通過計算機網絡提供該數據庫文件。下面,我們介紹序列文件的結構。GenBank序列文件由單個的序列條目組成。序列條目由字段組成,每個字段由關鍵字起始,後面為該字段的具體説明。有些字段又分若干次子字段,以次關鍵字或特性表説明符開始。每個序列條目以雙斜槓“//”作結束標記。
特性
序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表説明符從第五列開始。每個字段可以佔一行,也可以佔若干行。若一行中寫不下時,繼續行以空格開始。[鏈接1.2.3.1.1-1]。

GenBank數據庫序列條目

GenBank數據庫關鍵詞

序列條目的關鍵字包括LOCUS (代碼),DEFINITION (説明),ACCESSION (編號),NID符(核酸標識),KEYWORDS (關鍵詞),SOURCE (數據來源),REFERENCE (文獻),FEATURES (特性表),BASE COUNT (鹼基組成)及ORIGIN (鹼基排列順序)。先版的核酸序列數據庫將引入新的關鍵詞SV (序列版本號),用“編號.版本號”表示,並取代關鍵詞NID。LOCUS (代碼):是該序列條目的標記,或者説標識符,藴涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該字段還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。

GenBank數據庫簡單描述

説明字段是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。ACCESSION (編號):具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此編號為準。KEYWORDS (關鍵詞)字段:由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中環氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。SOURCE (數據來源)字段:説明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血(umbilical vein)。次關鍵字ORGANISM (種屬)指出該生物體的分類學地位,如本例人、真核生物等等(詳見圖4.1)。REFERENCE (文獻)字段:説明該序列中的相關文獻,包括AUTHORS (作者),TITLE (題目)及JOURNAL (雜誌名)等,以次關鍵詞列出。該字段中還列出醫學文獻摘要數據庫MEDLINE的代碼。

GenBank數據庫文獻

GenBank數據庫摘要

該代碼實際上是個超文本鏈接,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。FEATURES (特性表):具有特定的格式,用來詳細描述序列特性。特性表中帶有‘/db-xref/’標誌的字符可以連接到其它數據庫,如本例中的分類數據庫(taxon 9606),以及蛋白質序列數據庫(PID:g181254)。

GenBank數據庫位置

序列中各部分的位置都在表中標明,5’非編碼區(1-97),編碼區(98-1912),3’非編碼區(1913-3387),多聚腺苷酸重複區域(3367-3374),等等。翻譯所得信號肽以及最終蛋白質產物也都有所説明。當然,這個例子只是特性表的部分註釋信息,但已經足以説明其詳細程度。接下來是鹼基含量字段,給出序列中的鹼組成,如本例中1010個A,712個C,633個G,1032個T。ORIGIN行是序列的引導行,接下來便是鹼基序列,以雙斜槓行“//”結束。