複製鏈接
請複製以下鏈接發送給好友

蛋白質序列數據庫

鎖定
蛋白質序列數據庫指應用計算機功能分析生物學信息的數據庫。應用計算機的運算法則,比較DNA和蛋白質序列而檢測結構、功能和序列之間的進化關係。各種基因組的序列產生大量的DNA序列數據和生物信息,已經被應用於研究基因的功能,預測以前未知的基因功能。人們的注意力主要集中在從僅有的氨基酸序列預測蛋白質結構和功能。
中文名
蛋白質序列數據庫
外文名
Atlas of Protein Sequence and Structure

蛋白質序列數據庫歷史追溯

由於蛋白質序列測定技術先於DNA序列測定技術問世,蛋白質序列的蒐集也早於DNA序列。蛋白質序列數據庫的雛形可以追溯到60年代。60年代中期到80年代初,美國國家生物醫學研究基金會(National Biomedical Research Foundation,簡稱NBRF)Dayhoff領導的研究組將蒐集到的蛋白質序列和結構信息以“蛋白質序列和結構地圖集”(Atlas of Protein Sequence and Structure)的形式發表,主要用來研究蛋白質的進化關係。1984年,“蛋白質信息資源”(Protein Information Resource,簡稱PIR)計劃正式啓動,蛋白質序列數據庫PIR也因此而誕生。與核酸序列數據庫的國際合作相呼應,1988年,美國的NBRF、日本的國際蛋白質信息數據庫(Japanese International Protein Information Database,簡稱JIPID)和德國的慕尼黑蛋白質序列信息中心(Munich Information Center for Protein Sequences,簡稱MIPS)合作成立了國際蛋白質信息中心(PIR-International),共同收集和維護蛋白質序列數據庫PIR,[Barker等, 2000]。

蛋白質序列數據庫列數據庫

序列數據庫是生物信息數據庫中最基本的數據庫,包括核酸和蛋白質兩類,以核苷酸鹼基順序或氨基酸殘基順序為基本內容,並附有註釋信息。註釋信息包括兩部分,一部分由計算機程序經過序列分析由計算機程序生成,另一部分則依靠生物學家通過查閲文獻資料而獲得。序列數據庫從一個側面反映了信息資源的傳播從印刷品到電子媒體再到網絡的發展趨勢 [1] 

蛋白質序列數據庫資源PIR

PIR(Protein Information Resource)由佐治棠大學建立,網址:http://pir.georgetown.edu,是一個蛋白質信息學的公共信息源及支持服務於一體的資源網站。它致力於基因組學和蛋白質組學的研究及科學探索。該蛋白質序列數據庫的雛形可以追朔到60年代。1966年美國國家生物醫學研究基金會(National Biomedical Research Foundation,簡稱NBRF)Dayhoff領導的研究組將蒐集到的蛋白質序列和結構信息以《蛋白質序列和結構地圖集》(Atlas of Protein Sequence and Structure)一書的形式發表,主要用來研究蛋白質的進化關係,該書到1979年已出版了5版和3個增補本後不再有新版。1984年,“蛋白質信息資源”(Protein Information Resource,簡稱PIR)計劃正式啓動,蛋白質序列數據庫PIR也因此而誕生。1988年,美國華盛頓的喬治城大學全國生物醫學研究基金會(NBRF)、日本東京理科大學的日本國際蛋白質信息數據庫(Japanese International Protein Information Database,簡稱JIPID)和德國的慕尼黑蛋白質序列信息中心(Munich Information Center for Protein Sequences,簡稱MIPS)三家實驗室共同合作成立了國際蛋白質信息中心(PIR-International),共同收集和維護蛋白質序列數據庫PIR,PIR數據庫按照數據的性質和註釋層次分四個不同部分,分別為PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經驗證,註釋最為詳盡;PIR2中包含尚未確定的冗餘序列;PIR3中的序列尚未加以檢驗,也未加註釋;而PIR4中則包括了其它各種渠道獲得的序列,既未驗證,也無註釋。

蛋白質序列數據庫序列數據庫

除了PIR外,另一個重要的蛋白質序列數據庫則是SWISS-PROT(Protein Sequence Database)(http://www.expasy.ch/sprot/sprot-top.html)。該數據庫由瑞士日內瓦大學生化系A.Bairoch於1986年創建,由瑞士生物信息學研究所(Swiss Institute of Bioinformatics,簡稱SIB)和歐洲生物信息學研究所EBI共同維護和管理。瑞士生物信息研究所下屬的蛋白質分析專家系統(Expert Protein Analysis System,簡稱ExPASy)(http://www.expasy.ch/)的Web服務器除了開發和維護SWISS-PROT數據庫外,也是國際上蛋白質組和蛋白質分子模型研究的中心,為用户提供大量蛋白質信息資源。北京大學生物信息中心設有ExPASy的鏡像。EBI/EMBL也參與SWISS-PROT的開發,並隨EMBL數據庫一起發行。SWISS-PROT蛋白質序列庫是最為常用、註釋最全、包含獨立項最多的數據庫,它包括其他蛋白質序列庫中經過驗證的全部序列,其註釋及蛋白質的功能、結構域和活性位點、二級結構、四級結構、翻譯後修飾、與其他蛋白質的相似性、相關的疾病、處理的衝突等,數據庫中的所有序列條目都經過有經驗的分子生物學家和蛋白質化學家通過計算機工具並查閲有關文獻資料仔細核實。SWISS-PROT數據庫的每個條目都有詳細的註釋,包括結構域、功能位點、跨膜區域、二硫鍵位置、翻譯後修飾、突變體等。該數據庫中還包括了與核酸序列數據庫EMBL/GenBank/DDBJ、蛋白質結構數據庫PDB以及PROSITE、PRINTTS等10多個二次數據庫的交叉引用代碼。

蛋白質序列數據庫NRL3D

另一個常用的蛋白質序列數據庫是已知三維結構蛋白質的一級結構序列數據庫NRL3D(http://www-nbrf.georgetown.edu/pirwww/dbinfo/nrl3-d.html)。該數據庫的序列是從三維結構數據庫PDB中提取出來。除了序列信息外,NRL-3D包括二級結構、活性位點、結合位點、修飾位點等與蛋白質結構直接有關的註釋信息,對研究蛋白質結構功能關係和同源蛋白分子模型構建特別有用 [1] 

蛋白質序列數據庫TrEMBL

TrEMBL是瑞士生物信息學研究所的蛋白質序列數據庫Swiss-Prot的一個增補本。TrEMBL增加了一些Swiss-Prot數據庫中沒有的歐洲分子生物學實驗室核甘酸序列。TrEMBL數據庫分兩部分,SPTrEMBL和REM-TrEMBL。SP-TrEMBL中的條目最終將歸併到SWISS-PROT數據庫中。而REM-TrEMBL則包括其它剩餘序列,包括免疫球蛋白T細胞受體、少於8個氨基酸殘基的小肽、合成序列、專利序列等。與TrEMBL類似,GenPept是由GenBank翻譯得到的蛋白質序列。由於TrEMBL和GenPept均是由核酸序列通過計算機程序翻譯生成,這兩個數據庫中的序列錯誤率較大,均有較大的冗餘度。網頁提供了分析蛋白質序列和結構的工具和軟件包,還提供了與其他分子生物學的資源和主要服務器的鏈接。
上述幾個蛋白質序列數據庫可以稱為蛋白質序列一次數據庫,或基本數據庫。它們各有特點。NRL3D包含已知空間結構的序列,但數據量十分有限;SWISS-PROT的序列經過嚴格的審核,註釋完善,但數據量較小。PIR數據量較大,但包含未經驗證的序列,註釋也不完善。TrEMBL和GenPept的數據量最大,且隨核酸序列數據庫的更新而更新,但它們均是由核酸序列翻譯得到的序列,未經實驗證實,也沒有詳細的註釋。將上述數據庫整合起來,構建複合數據庫,或二次數據庫,則有利於生物學家的使用。OWL混合蛋白質序列數據庫(Composite protein sequences databases)http://www.bioc-hem.ucl.ac.uk/bsm/dbbrowser/OWL/owlconten-ts.html和NRDB就是根據這一原則構建的非冗餘蛋白質序列數據庫。這兩個數據庫均是由GenPept、PIR、SWISS-PROT、NRL3D等數據庫複合而成。為使二次序列數據庫中的序列具有較好的代表性,在構建複合數據庫時,採取了某些序列取捨的標準,使用了一定的算法,並增加了與其它數據庫的交叉引用,在某些方面具有一定的優點 [1] 
參考資料