複製鏈接
請複製以下鏈接發送給好友

蛋白質數據庫

鎖定
蛋白質數據庫是指包括蛋白質信息的數據庫。常用的蛋白質數據庫有很多,其中Uniprot被認為收錄最廣泛和註釋信息最全面的蛋白質數據庫。Uniprot下包括Swiss-Prot、TrEMBL和PIR-PSD,詳見Uniprot_百度百科。其他的蛋白數據庫有PDB(Protein Data Bank,簡稱PDB,開始建立於1971年)等。國內也有些如由上海生物信息技術研究中心下屬的生物信息科學數據共享平台建立及維護的SDSPB等。
中文名
蛋白質數據庫
外文名
HPDB
建    於
2005年5月
意    義
展示生物大分子立體結構
釋    義
包括蛋白質信息的數據庫
代    表
Uniprot

蛋白質數據庫性能及歷史

蛋白質數據庫(HPDB),建於2005年5月, 動態展示生物大分子立體結構,鼠標點擊放大分子結構、原子定位、測定原子之間距離,可用於教學或科研。 服務對象是能夠熟練使用中文的生命科學、醫學、藥學、農學、林學等領域的大中專學生、教師及科技工作者 。分子結構特徵描述採用漢語,同時提供英文原文以供考證。 對於善於使用英文的讀者,我們提倡直接訪問RCSB PDB,一來可以減少網絡擁擠,二來可以減少由於 HPDB 的翻譯不妥帶來的不便。
蛋白質數據庫(HPDB)對每個蛋白質分子結構説明部分做了中文翻譯(最新加入數據庫的分子除外),內容包括分子結構定性描述、樣品的來源、表達載體宿主、化學分析方法、分子結構組成成分等。 這些信息並同蛋白質分子結構數據存儲於數據庫, 因此 HPDB 支持中文查詢。
蛋白質數據庫(HPDB)雖然翻譯了“分子結構説明”部分,但為了保證數據的可靠性和準確性,HPDB對一級結構序列及大分子結構座標數據等未做任何改動,數據庫保持 RCSB PDB 核實後的原始實驗數據文件,並保持 PDB 文件格式和蛋白質分子編號 [1] 
布魯克海文蛋白質數據庫(TheBrookHavenProteinDataBank,PDB)是由美國布魯克海文國家實驗室所維護的關於生物大分子三維結構的數據檔案,其內容包括生物大分子的原子座標、參考文獻、1級和2級結構信息,也包括了晶體結構因數以及NMR實驗數據。PDB由美國國家科學基金等組織提供資助,對全球的科研工作者、教育工作者以及學生等提供免費服務。
PDB創立於1973年,到了90年代,PDB中的數據開始逐步發展豐富起來。據統計,從1992—1996年該庫收集的生物大分子結構的數目分別是1007、1727、2921、3821和4707,平均每年遞增50%。到1998年4月8日為止,該庫共收集了7429個原子座標的入口文件,1739個結構因數文件,429個NMR抑制文件。PDB中主要收集蛋白質的結構信息,也包括了少量的核酸及糖的三維結構。獲得信息的實驗技術主要為X線衍射技術以及NMR實驗技術 [2] 

蛋白質數據庫文件結構

在蛋白質晶體結構數據庫PDB中,各大分子結構是以分立的文件形式記錄的,這些文件被稱作PDB的入口文件(entry)。1個文件只反映某個大分子結構的信息。每個大分子結構通過唯一的ID碼(4位代碼)來識別。早期的入口文件文件名後綴為“.pdb”,1種大分子對應1個文件,如:阿比西尼亞捲心菜(ABYSSINIAN CABBAGE SEED)種子蛋白的ID碼是1CRN,其入口文件名為1CRN.pdb。1997年以後,每1種生物大分子有1組(3個)相關文件與之對應,它們是:全文文件、書目文件和圖形文件,例如,抗生素MINORCOATPROTEIN的ID碼是1G3P,它的3個相關文件分別為1G3P.full(全文文件)、1G3P.biblio(書目文件)、1G3P.gif(圖形文件);免疫球蛋白(IMMUN-O GLOBULIN)的ID碼為1AP2,它的3個相關文件分別為1AP2.full(相當於原來的.pdb文件),1AP2.biblio,1AP2.gif,等等。
每1個PDB入口文件包含有標題部分、註釋部分、1級結構、異質、2級結構、連通性註釋、各種特性、結晶學、座標變換、原子座標、化學連接、薄記等12個部分。文件中每1行被稱作1條記錄,也被稱作入口(entry),可理解為記錄入口。每行包括80列,每個記錄入口的最後1個字符是1個行結束符。PDB文件也可以被看作記錄類型(recordtype)的集合。它和一般的關係數據庫概念不同。在關係數據庫的庫文件中,每條記錄由不同數據類型和數據格式的若干字段組成,所有記錄的字段結構都是相同的。而在PDB文件中,包含眾多的記錄類型,每類記錄都有不同的格式。
基於記錄類型在1個PDB入口文件中出現的次數可將1組記錄劃分成以下6類之一:
  • single:單次記錄型。如HEADER、END、CRYST1……,在1個文件中僅出現1次,沒有接續部分。
  • singlecontinued:單次接續型。如AUTHOR、CAVEAT、COMPND……,在1個文件中概念性地存在1次,其內容超過1行,可表示在後續行中,這些後續行包括1個接續指示字段。
  • multiple:多次記錄型。如ATOM、CONECT、HELIX……,在1個文件中出現多次,在這類記錄類型中信息以列表的形式出現。
  • multiplecontinued:多次接續型。例如FORMUL、HETATM、HETNAM,在1個入口文件中概念性地存在多次,每條記錄內容超過1行的部分可表示在後續行中,這些後續行包括1個接續指示字段。
  • grouping:用來作為其他記錄類別的分組標誌記錄型。如:ENDMDL、MODEL、TER。
  • other:其他記錄類型,如:JRNL定義座標系列的文獻引用,REMARK表示一般註釋。每個記錄類型被固定列數分割成若干字段,字段應包含數據類型、字段名和字段定義。沒有被定義的列應留空。

蛋白質數據庫大分子結構

蛋白質數據庫一級結構

在生物化學上定義1級結構為蛋白質分子中氨基酸殘基的排列順序。1級結構中的氨基酸是蛋白質最基本的結構單位,標準的氨基酸有20多種,在1個氨基酸中含有氨基—NH2和羧基—COOH,若氨基中失去1個H原子,羧基中失去OH基團,就形成了殘基。2個氨基酸可以脱水縮和成肽,形成肽鍵和穩定的肽平面。相鄰2個氨基酸殘基以肽鍵相連接,依次連接下去即構成了1級結構肽鏈。
在PDB入口文件中,蛋白質1級結構部分主要描述生物大分子每條鏈中氨基酸的排列順序。該部分包含有DBREF、SEQADV、SEQRES、MODRES等4種記錄,其中SEQRES記錄對氨基酸殘基有序排列進行了描述。例如,在1ROG(組織相容性抗原HLA-B*2705)入口文件中共有16條SEQRES記錄,分為A、B2個鏈,每行為1條記錄,按排列順序列出氨基酸殘基,一行一行連貫下去,就組成了由GLY、SER、HIS,……氨基酸殘基順序連接而成的肽鏈。下例是由1ROG.pdb文件中摘錄的部分內容:
SEQRES 1 A 183 G LY SER HIS SER M ET A RG T Y R PHE HIS TH R SER VA L SER 1ROG 73
SEQRES 2 A 183 A RG P RO G LY A RG G LY G L U PRO A RG PHE IL E T HR VA L G LY 1ROG 74
SEQRES 3 A 183 T Y R VA L ASP ASP T HR L EU PHE VA L A RG PHE ASP SER ASP 1ROG 75
… … … … …
SEQRES 14 A 183 A RG T YR LEU G L U A SN G L Y L YS G L U T HR L EU G LN A RG A LA 1ROG 86
SEQRES 15 A 183 N M E 1ROG 87
SEQRES 1 B 9 A RG A RG I LE LYS A LA IL E T HR L EU L YS 1ROG 88
如前所述,每行是1條記錄,每行中第1個字段是記錄名“SEQRES”。第2個字段是1個整數,表示記錄在當前鏈中的序號。第3個字段是鏈的標識符,本例有A和B2個鏈,如果僅有1個鏈,則該字段域為空。第4個字段是1個整數,表示本鏈中氨基酸殘基數。第5~17字段是氨基酸殘基序列,每個字段是1個氨基酸名字。

蛋白質數據庫異質

在PDB文件的異質(heterogen)部分包含了對非標準氨基酸殘基的説明。這一部分包含HET、HETNAM、HETSYN、FORMUL等4種記錄。HET記錄描述了已給出座標的非標準氨基酸,如:溶性分子、輔基、鐵等,同時也描述未知化學名稱的異質。在1G3P入口文件裏,有關HET的第1條記錄為:
HET TRO 21 15
這裏“HET”為記錄名稱,TRO為HET標識符,21為順序編號,15為HETATM記錄中本組羣出現的次數,也就是説,本記錄描述了順序編號為21的非標準氨基酸TRO在座標入口HETATM記錄中出現15次。HETNAM記錄描述了具有給定非標準氨基酸標識符的化合物的化學名稱。例如,1G3P文件中HETNAM記錄之一為:
HETNAM SO4 SULFATE ION
描述了HET標識符為SO4的化合物的化學名稱為SULFATEION。FORMUL記錄描述了非標準組羣的化學表示式及其所帶的電荷數。

蛋白質數據庫二級結構

2級結構是指多肽鏈的主鏈骨架以肽平面為單位盤曲、摺疊而形成的構像。2級結構包括了3種情況:
  • α-螺旋
  • β-片層
  • β-轉角。
在β-片層中,肽鍵平面摺疊成鋸齒狀,相鄰2個肽鍵平面之間的夾角呈110°角。在PDB入口文件中,描述蛋白質2級結構的有HELIX、SHEET、TURN3種記錄。HELIX記錄用於描述分子中α-螺旋結構的位置。給出螺旋的名稱和編號,標示出螺旋開始和結束處的殘基,以及總長度。SHEET記錄用於描述分子中β-片層結構的位置。記錄格式與HELIX類似。TURN記錄描述摺疊和轉角。
從PDB的Web主頁(http://www.rcsb.org/pdb/index.html)可以按大分子的4位代碼查找。打開了某個蛋白質大分子的網頁後,可以查看總體信息、三維結構、序列細節等,還可以下載PDB入口文件。例如,1ROG的氨基酸序列和2級結構如下:
1 GSHSMRYFHT SVS RPGRGEP RFITVGYVDD TLFVRFDSDA ASPREEPRAPEEEEEEEE EE BTTTB EEEEEETT EE EEEETTT TT EESST
51 WIEQEGPEYW DRETQICKAK AQTDREDLRT LLRYYNQSEA GSHTLQNMYGTTTSS HHHH HHTHHHHHHH HHHHHHHHHH HHHH TT SS S EEEEEEE
101 CDVGPDGRLL RGYHQDAYDG KDYIALNEDL SSW TAADTAA QITQRKWEAAEEE SS B EEEEEEEETT EE EEE TTS EE SHHH HHHHHHHHTT
151 RVAEQLRAYL EGECVEWLRR YLENGKETLQ RAXTTHHHHHHHH HTTTHHHHHH HHHH SSSSS

這裏,每個氨基酸殘基用單個字母表示,2級結構(2、4、6、8行)用H表示螺旋,B表示隔離的β橋上的殘基,E表示擴展的β鏈,G表示310螺旋,I表示pi螺旋,T表示氫鍵轉角,S表示彎曲,等。

蛋白質數據庫連接部分

這一部分描述了有關二硫鍵及其他一些化學連接情況,描述化學連接的記錄有SSBOND、CONECT、LINK、HYDBND、CISPEP等5種。SSBOND記錄描述了蛋白質和多肽結構中的二硫鍵。CONECT記錄表示了其他記錄未能表示出的原子間關聯狀態。例如,在1G3P文件中,有關CONECT的第1條記錄為:CONECT4948299這裏“CONECT”為記錄名稱,其後內容表示在ATOM或HETATM記錄中的第48位原子和第299位原子分別與第49位原子有成鍵關係。LINK記錄詳細描述了在1級結構中不能明確的殘基間的關係,它實質上是上面介紹的CONECT記錄的1個補充。HYDBND記錄描述了原子間形成的氫鍵。

蛋白質數據庫座標章節

座標章節主要記錄了原子的座標,相關的記錄有:ATOM、HETATM、MODEL與ENDMDL。ATOM記錄按照從氨基到羧基的順序給出標準氨基酸殘基的各組成元素的空間座標,從生物化學角度,我們可以對標準氨基酸殘基空間結構中的各原子間的連接情況進行描述。以在ATOM記錄中位於肽鏈第1位的標準氨基酸殘基ALA為例:ALA殘基中所包含的元素及其排列序號為1N2CA3C4O5CB。其中:
2CA中的A=alpha(α);
5CB中的B=beta(β)。
通過以上描述,確定了單個殘基的空間位置及各原子相互關係。根據肽鏈中相鄰2個殘基發生脱水縮合形成肽鍵及穩定的肽平面這一性質,我們可以確定1級結構中相鄰的2個氨基酸殘基間的關係,具體描述為前1個殘基結構中的碳原子(CA)與後1個殘基結構中的氮原子(N)間形成肽平面,以此類推,就會描繪出1級結構中各個相鄰殘基間的關係。
在1G3P文件中,有關第1個殘基ALA的ATOM記錄為:
ATOM 1 N ALA 1 -10.684 7.361 121. 696 1. 00 17.19 N
ATOM 2 CA ALA 1 -10.459 8.273 120. 534 1. 00 16.43 C
ATOM 2 CA ALA 1 -10.459 8.273 120. 534 1. 00 16.43 C
ATOM 3 C ALA 1 -10.360 9.687 121. 079 1. 00 16.06 C
ATOM 4 O ALA 1 -10.826 9.967 122. 195 1. 00 16.83 O
ATOM 5 CB ALA 1 -11.607 8.170 119. 558 1. 00 16.89 C

“ATOM”為記錄名稱,上例第1條記錄描述了殘基ALA中的氮元素(N)的x、y、z座標值分別為-10.684、7.361和121.696,所佔空間為1.00,温度係數為17.19,元素符號為N,其他ATOM記錄針對殘基ALA包含的其他元素進行了描述。在1G3P文件中用同樣方法描述出其餘217個處於不同空間位置的氨基酸殘基的原子座標。HETATM記錄描述了組成非標準氨基酸殘基的元素(非標準氨基酸殘基名稱已在HET記錄中給出定義)的空間位置座標。它的記錄方式與ATOM記錄一致。TER記錄標記出ATOM記錄的終止位。MASTER記錄是對以上各記錄的總結。下例中所列數字分別代表了記錄REMARK、“0”、HET、HELIX、SHEET、TURN、SITE、座標變換、原子記錄、TER、CONECT、SEQRES的記錄總數。例:MASTER25802213006188912817END記錄表明了文章的結束,記錄格式為END。

蛋白質數據庫可視化

生物大分子三維結構可視化
根據以上介紹可知,在PDB數據庫中,生物大分子的結構是通過特定的記錄格式,以原子空間座標值和對於其連接形式、連接順序等的描述來表示的。通過特定的瀏覽器,如Rasmol,可基於PDB文件實現對於大分子三維結構的可視化。Rasmol是1個分子現象程序。可嵌入Web瀏覽器中運行,用於通過超鏈接,打開因特網上的pdb文件,也可在Windows環境下,或在Mac和Unix環境下單機操作。圖是運行Rasmenu.exe後出現的主菜單窗口,在主菜單窗口後面,還同時出現1個分子圖形圖像顯示窗口。在主菜單窗口中打開1個pdb文件,其三維結構圖形就在第2個窗口中顯示出來。可在主菜單中選擇顯示形式,如:線狀、棒狀、棒球狀、帶狀,等等,以及選擇顏色的區分方式等等。用鼠標操作,可從不同角度去觀察分子三維結構,就像你身臨現場,從不同角度去觀察1件玲瓏剔透的牙雕藝術品一樣,十分精美壯觀 [2] 
參考資料