複製鏈接
請複製以下鏈接發送給好友

SWISS-PROT

鎖定
SWISS-PROT是經過註釋的蛋白質序列數據庫,由歐洲生物信息學研究所(EBI)維護。數據庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、註釋等,註釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構四級結構、與其它序列的相似性、序列殘缺與疾病的關係、序列變異體和衝突等信息。SWISS-PROT中儘可能減少了冗餘序列,並與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的數據庫。SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
中文名
數據庫SWISS-PROT
外文名
SWISS-PROT

目錄

SWISS-PROT簡介

SWISS-PROT創建於1986年,由瑞士生物信息學研究所(Swiss Institute for Bioinformatics,SIB)和歐洲生物信息學研究所(European Bioinformatic Institute,EBI)共同協作維護。該數據庫到2001年末共收錄102708個序列數據,包含37803202個氨基酸。在SWISS-PROT數據庫各種氨基酸的分佈中,亮氨酸、丙氨酸、絲氨酸、甘氨酸、纈氨酸、穀氨酸佔較高的比例,而組氨酸、半胱氨酸、苯丙氨酸等佔的比例較小(表)。SWISS-PROT數據庫現有的序列數據涉及1202種期刊的92845篇文獻。被引用100篇文獻以上的期刊有91種,其中經常被引用的前20種期刊(表)被引用次數皆在1000次以上,合計貢獻文獻48314篇,佔總被引用文獻數的52.04%,説明這些期刊是發表蛋白質序列相關信息的主要文獻源 [1] 

SWISS-PROT特點

  • 可提供蛋白質序列的詳盡註釋信息序列註釋包括蛋白質功能、蛋白質翻譯後修飾、結構域和結合位點、二級結構、四級結構、蛋白質缺陷相關疾病等信息。
  • 避免過多的重複在SWISS-PROT中,儘量避免過多的重複。對同種蛋白質的多個記錄進行仔細比較後歸結到一個記錄內,方便了用户檢索利用。
  • 與其他數據庫交叉參考一次檢索可同時獲得蛋白質的各方面資料信息。
  • 記錄顯示格式規範字段名運用兩位字母代碼表示 [1] 
SwissProt採用了和EMBL核酸序列數據庫相同的格式和雙字母標識字。這種雙字母的標識字對於數據庫的管理維護比較方便,但用户在使用時卻不很方便,特別對數據庫格式不很熟悉的用户。ExPASy開發了面向生物學家的、基於瀏覽器的用户界面,特別是用可視化方式表示氨基酸特徵表,使用户對序列特性一目瞭然,如二硫鍵、跨膜螺旋、二級結構片段、活性位點等。截止1998年6月,SWISS-PROT數據庫包含約7萬條序列,這些序列涵蓋了5千多個不同種屬,其中大部分來自於幾種主要模式生物,如人、小鼠等。
SWISS-PROT數據庫的結構與其它蛋白質序列數據庫不同。給出SWISS-PROT數據庫中一個序列條目的實例。每一行由兩個字母起始,用來説明每一行所代表的信息。起其中第一行以ID開始,最後一行以雙斜槓//結束。ID行表示該序列的名稱是OPSD_SHEEP,共有348個氨基酸殘基。SWISS-PROT數據庫的ID包含一定信息,如本例中OPSD表示蛋白質名稱縮寫,而SHEEP表示該蛋白質分子來自於哪個物種,中間用下劃線分隔。即這一蛋白序列是來源於綿羊的視紫紅質(rhodopsin)。序列條目的標識符ID隨着版本的更新有可能改變,因此有必要採用能夠唯一識別該序列條目的其它標識符。SWISS-PROT採用AC(accession number)作為表示某個特定序列的代碼,具有唯一性和永久性。在文獻中引用某個序列時,應以AC為準,而不是以序列名稱或ID為準。本例中,代碼AC為P02700。採用AC代碼的另一個好處是便於計算機處理。如果在AC行出現了幾個代碼值,那麼應以第一個為準,它表示該序列在當前版本中的代碼。下面的DT行提供了蛋白質序列提交到數據庫的時間,及最近一次修改的時間等信息。描述行(DE)可以有一行或幾行,提供了對該蛋白質的簡單説明。此例中,説明該蛋白質為視紫紅質。下面的幾行中提供了有關該蛋白質的基因名(GN)、物種來源(OS)和分類學位置(OC)等信息。接下來是與該蛋白質相關的基本註釋信息,包括文獻信息、與測序有關的信息、以及對該蛋白質序列分析得到的與結構或突變相關的信息等。這些註釋為用户提供了非常有價值的信息。基本註釋信息後,是説明行(CC)。在CC行中按主題進行區分,其中,FUNCTION説明該蛋白質的功能,PTM説明翻譯後修飾,TISSUE SPECIFICITY説明組織專一性,SUBCELLULAR LOCATION説明亞細胞定位,SIMILARITY説明了與該蛋白質序列具有相似性或相關的某個蛋白質家族,等等。蛋白質序列具有與另一個蛋白質序列數據庫PIR的鏈接、與GPCR專門數據庫的鏈接,以及與蛋白質序列模體數據庫PROSITE的鏈接和與蛋白質結構域數據庫ProDom的鏈接。在DR行之後,是關鍵字行(KW)和特徵錶行(FT)。特徵表包括對該序列特性的進一步註釋,包括跨膜螺旋等超二級結構單元、配體結合位點、翻譯後修飾位點等。特徵表的每一行有一個關鍵字(如TRANSMEM)、特徵序列的氨基酸殘基位置(如37-61),以及註釋信息的性質(如POTENTIAL)等。SWISS-PROT數據庫中的序列數據與蛋白質前體對應,如果想要獲得成熟蛋白質的序列,可以參考特徵表所提供的信息,即根據特徵表所提供的信號(SIGNAL),轉運區(TRANSIT)或前肽(PROPEP)等信息來推斷成熟蛋白質或多肽序列。此外,CHAIN和PEPTIDE兩個關鍵字用來表示成熟蛋白質的位置。SWISS-PROT數據庫的格式便於通過計算機軟件進行查詢,即通過對每行起始的標識字建立索引文件,即可方便地找到某一字段。
參考資料