反饋

GenBank

GenBank是美國國家生物技術信息中心(National Center for Biotechnology Information ，NCBI)建立的DNA序列數據庫，從公共資源中獲取序列數據，主要是科研人員直接提供或來源於大規模基因組測序計劃( Benson等， 1998)。為保證數據儘可能的完全，GenBank與EMBL（歐洲EMBL-DNA數據庫）、DDBJ^[1] （日本DNA數據庫：DNA Data Bank of Japan）建立了相互交換數據的合作關係。

中文名: DNA序列數據庫
外文名: national Center for Biotechnology Information

建立機構: 美國國家生物技術信息中心
縮寫: NCBI

GenBank簡介

大型數據庫分成若干子庫，有許多好處。首先，可以把數據庫查詢限定在某一特定部分，以便加快查詢速度。其次，基因組計劃快速測序得到的大量序列尚未加以註釋，將它們單獨分類，有利於數據庫查詢和搜索時“有的放矢”。GenBank將這些數據按高通量基因組序列（HighThroughput Genomic Sequences，HTG）、表達序列標記（Expressed Sequence Tags，EST）、序列標記位點（SequenceTaggedSites，STS）和基因組概覽序列（Genome Survey Sequences，GSS）單獨分類。儘管這些數據尚未加以註釋，它們依然是GenBank的重要組成部分。

可通過Entrez數據庫查詢系統對GenBank進行查詢。這個系統將核酸、蛋白質序列和基因圖譜、蛋白質結構數據庫整合在一起。此外，通過該系統的文獻摘要數據庫MEDLINE，可獲取有關序列的進一步信息。在萬維網上，進入NCBI的主頁，可以用BLAST程序對GenBank數據庫進行未知序列的同源性搜索（詳見第六章）。

完整的GenBank數據庫包括序列文件，索引文件以及其它有關文件。索引文件是根據數據庫中作者、參考文獻等字段建立的，用於數據庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列數據庫，其數據格式為FastA。GenBank曾以CD-ROM光盤的形式分發，價格比較便宜。隨着數據庫容量的增長，一套最新版的GenBank需要12張光盤存放，不僅生產成本很高，也不便於使用。光盤分發的方式已經停止，可以通過網絡下載GenBank數據庫。

GenBank中最常用的是序列文件。序列文件的基本單位是序列條目，包括核甘酸鹼基排列順序和註釋兩部分。許多生物信息資源中心通過計算機網絡提供該數據庫文件。下面，我們介紹序列文件的結構。

序列文件由單個的序列條目組成。序列條目由字段組成，每個字段由關鍵字起始，後面為該字段的具體説明。有些字段又分若干次子字段，以次關鍵字或特性表説明符開始。每個序列條目以雙斜槓“//”作結束標記。序列條目的格式非常重要，關鍵字從第一列開始，次關鍵字從第三列開始，特性表説明符從第五列開始。每個字段可以佔一行，也可以佔若干行。若一行中寫不下時，繼續行以空格開始。

序列條目的關鍵字包括代碼（LOCUS），説明（DEFINITION），編號（ACCESSION），核酸標識符（NID），關鍵詞（KEYWORDS），數據來源（SOURCE），文獻（REFERENCE），特性表（FEATURES），鹼基組成（BASE COUNT）及鹼基排列順序（ORIGIN）。

代碼LOCUS是該序列條目的標記，或者説標識符，藴涵這個序列的功能。該字段還包括其它相關內容，如序列長度、類型、種屬來源以及錄入日期等。説明字段是有關這一序列的簡單描述，如本例為人環氧化酶-2的mRNA全序列。

序列代碼具有唯一性和永久性，如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列，在文獻中引用這個序列時，應該以此代碼為準。核酸標識符NID對序列信息的當前版本提供？

關鍵詞字段由該序列的提交者提供，包括該序列的基因產物以及其它相關信息，如本例中還氧化酶-2 （cyclooxygenase-2），前列腺素合成酶（prostaglandin synthase）。數據來源字段説明該序列是從什麼生物體、什麼組織得到的，如本例中人臍帶血管（umbilical vein）。次關鍵字種屬（ORGANISM）指出該生物體的分類學地位，如本例人、真核生物等等。文獻字段説明該序列中的相關文獻，包括作者（AUTHORS），題目（TITLE）及雜誌名（JOURNAL）等，以次關鍵詞列出。該字段中還列出醫學文獻摘要數據庫MEDLINE的代碼。該代碼實際上是個網絡鏈接指針，點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻，以不同序號表示，並給出該序列中的哪一部分與文獻有關。

NCBI

FEATURES是具有自己的一套結構，用來詳細描述序列特性的一個表格。在這個表格內，帶有‘/db-xref/’標誌的字符可以連接到其它數據庫內（本例，您看到的是一個分類數據庫（taxon 9606），以及一個蛋白質數據庫（PID：g181254））；序列中各部分的位置都加以標明，5’非編碼區（1-97），編碼區（98-1912），3非編碼區（1913-3387），多聚腺苷酸序列（3367-3374），等等；蛋白質翻譯的信號肽及最終的多肽也都有所説明。這個例子不能説很全面，但已經足以説明特性表給出信息的詳細程度。

接下來是BASE COUNT記錄，計算出不同鹼基在整個序列中出現的次數（1010A，712個C，633個G，1032個T）。ORIGIN那一行，指出了序列第一個鹼基在基因組中可能的位置。最後，核酸的序列全部列出，並以//作為結尾。檢索方式：

如果在文獻中看到過你感興趣的基因，而且文中還提到了該基因在Genbank中的ID號，進入NCBI (如圖《NCBI》所示)，在Search後的下拉框中選擇Nucleotide，把Genbank ID號輸入GO前面的文本框中，點“GO”，即可以檢索到所需序列。

GenBank使用説明

用户可以通過NCBI（National Center for Biotechnology Information美國國家生物技術信息中心信息中心，隸屬於NLM－美國國家醫學圖書館）的主頁使用GenBank。GenBank的宗旨是鼓勵科研團體對DNA序列的獲取，從而促進數據庫中DNA序列的豐富和更新，所以NCBI對GenBank的數據使用與發送沒有任何限制。用户可從GenBank主頁上下載Banklt（NCBI提供的WWW格式，用於便捷的提交DNA序列的數據）、Sequin（NCBI的獨立於操作系統的提交軟件，可用於MAC、PC和UNIX平台，也可以通過FTP遠程獲取）以及VecScreen（帶菌污染物的篩選工具）等便於提交和更新研究成果的應用軟件。其頁面上的簡單檢索界面提供19種相關檢索選項，分別是：PubMed、Protein（蛋白質）、Nucleotide（核苷）、Structure（結構）、Genome（基因組）、PMC、LocusLink、PopSet、OMIM、Taxonomy（分類學）、Books（圖書）、ProbeSet、3D Domains（三維區域）、UniSTS、Domains、SNP、Journals（期刊）、UniGene、NCBI Web Site（NCBI站點）。

GenBank可以與DNA Star軟件結合使用，進行基因序列分析和比對。

參考資料

1. 高中人教版生物必修二生物信息學

GenBank的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：38次歷史版本
最近更新：君伟junwei521 （2024-04-09）

1 簡介
2 使用説明

GenBank

目錄

GenBank簡介

GenBank使用説明