反饋

GenBank數據庫

GenBank 是一個有來自於70,000多種生物的核苷酸序列的數據庫。每條紀錄都有編碼區（CDS）特徵的註釋，還包括氨基酸的翻譯。GenBank屬於一個序列數據庫的國際合作組織，包括EMBL和DDBJ。

中文名: GenBank數據庫
性質: 數據庫

特徵: 包括序列文件，索引文件
作用: 用於數據庫查詢

GenBank數據庫數據庫

數據庫包括序列文件

完整的GenBank數據庫包括序列文件，索引文件以及其它有關文件。索引文件是根據數據庫中作者、參考文獻等建立的，用於數據庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列數據庫，其數據格式為FastA。GenBank中最常用的是序列文件。序列文件的基本單位是序列條目，包括核苷酸鹼基排列順序和註釋兩部分。

GenBank數據庫結構及特性

介紹序列文件的結構

許多生物信息資源中心通過計算機網絡提供該數據庫文件。下面，我們介紹序列文件的結構。GenBank序列文件由單個的序列條目組成。序列條目由字段組成，每個字段由關鍵字起始，後面為該字段的具體説明。有些字段又分若干次子字段，以次關鍵字或特性表説明符開始。每個序列條目以雙斜槓“//”作結束標記。

特性

序列條目的格式非常重要，關鍵字從第一列開始，次關鍵字從第三列開始，特性表説明符從第五列開始。每個字段可以佔一行，也可以佔若干行。若一行中寫不下時，繼續行以空格開始。[鏈接1.2.3.1.1-1]。

GenBank數據庫序列條目

GenBank數據庫關鍵詞

序列條目的關鍵字包括LOCUS （代碼），DEFINITION （説明），ACCESSION （編號），NID符（核酸標識），KEYWORDS （關鍵詞），SOURCE （數據來源），REFERENCE （文獻），FEATURES （特性表），BASE COUNT （鹼基組成）及ORIGIN （鹼基排列順序）。先版的核酸序列數據庫將引入新的關鍵詞SV （序列版本號），用“編號.版本號”表示，並取代關鍵詞NID。LOCUS （代碼）：是該序列條目的標記，或者説標識符，藴涵這個序列的功能。例如，圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該字段還包括其它相關內容，如序列長度、類型、種屬來源以及錄入日期等。

GenBank數據庫簡單描述

説明字段是有關這一序列的簡單描述，如本例為人環氧化酶-2的mRNA全序列。ACCESSION （編號）：具有唯一性和永久性，如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列，在文獻中引用這個序列時，應該以此編號為準。KEYWORDS （關鍵詞）字段：由該序列的提交者提供，包括該序列的基因產物以及其它相關信息，如本例中環氧化酶-2 （cyclooxygenase-2），前列腺素合成酶（prostaglandin synthase）。SOURCE （數據來源）字段：説明該序列是從什麼生物體、什麼組織得到的，如本例中人臍帶血（umbilical vein）。次關鍵字ORGANISM （種屬）指出該生物體的分類學地位，如本例人、真核生物等等（詳見圖4.1）。REFERENCE （文獻）字段：説明該序列中的相關文獻，包括AUTHORS （作者），TITLE （題目）及JOURNAL （雜誌名）等，以次關鍵詞列出。該字段中還列出醫學文獻摘要數據庫MEDLINE的代碼。

GenBank數據庫文獻

GenBank數據庫摘要

該代碼實際上是個超文本鏈接，點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻，以不同序號表示，並給出該序列中的哪一部分與文獻有關。FEATURES （特性表）：具有特定的格式，用來詳細描述序列特性。特性表中帶有‘/db-xref/’標誌的字符可以連接到其它數據庫，如本例中的分類數據庫（taxon 9606），以及蛋白質序列數據庫（PID：g181254）。

GenBank數據庫位置

序列中各部分的位置都在表中標明，5’非編碼區（1-97），編碼區（98-1912），3’非編碼區（1913-3387），多聚腺苷酸重複區域（3367-3374），等等。翻譯所得信號肽以及最終蛋白質產物也都有所説明。當然，這個例子只是特性表的部分註釋信息，但已經足以説明其詳細程度。接下來是鹼基含量字段，給出序列中的鹼組成，如本例中1010個A，712個C，633個G，1032個T。ORIGIN行是序列的引導行，接下來便是鹼基序列，以雙斜槓行“//”結束。

詞條統計

瀏覽次數：次
編輯次數：21次歷史版本
最近更新： thereforenay （2024-03-17）

1 數據庫
2 結構及特性
3 序列條目: 3.1 關鍵詞; 3.2 簡單描述
4 文獻: 4.1 摘要; 4.2 位置