複製鏈接
請複製以下鏈接發送給好友

UniProt

鎖定
UniProt [1] Universal Protein 的英文縮寫,是信息最豐富、資源最廣的蛋白質數據庫。它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大數據庫的數據而成。他的數據主要來自於基因組測序項目完成後,後續獲得的蛋白質序列。它包含了大量來自文獻的蛋白質的生物功能的信息。
中文名
UniProt
外文名
Universal Protein
組成‍
UniProtKB/Swiss-Prot; UniProtKB/TrEMBL

UniProt三大組成

UniProtKB [1]  全稱 UniProt Knowledgebase(UniProt知識庫)它是經過專家校驗的數據集,主要由兩部分組成:UniProtKB/Swiss-Prot (包含檢查過的、手工註釋的條目) 和 UniProtKB/TrEMBL (包含未校驗的、自動註釋的條目),在 2010年8月是10日發佈的版本中, UniProtKB/Swiss-Prot 包含 519,348 條註釋條目, UniProtKB/TrEMBL 包含11,636,205 條註釋條目。

UniProt主要特點

UniProtKB/Swiss-Prot
高質量的、手工註釋的、非冗餘的數據集;主要來自文獻中的研究成果和E-value校驗過計算分析結果。有質量保證的數據才被加入該數據庫。
UniProtKB/TrEMBL
該數據集包含高質量的計算分析結果,一般都在自動註釋中富集,主要應對基因組項目獲得的大量數據流以人工校驗在時間上和人力上的不足。他能註釋所有可用的蛋白序列。在三大核酸數據庫EMBL-Bank/GenBank/DDBJ)中註釋的編碼序列都被自動翻譯並加入該數據庫中。它也有來自PDB數據庫的序列,以及Ensembl、Refeq和CCDS基因預測的序列。
UniParc
UniParc全稱是UniProt Archive,他是一個綜合性的非冗餘數據庫,他包含了所有主要的、公開的數據庫的蛋白質序列。 由於蛋白質可能在不同的數據庫中存在,並且可能在同一個數據庫中有多個版本,為了去冗餘,UniaraParc對每條唯一的序列只存一次。無論是否為同一物種的序列,只要序列相同就被合併為一條,每條序列提供穩定的、唯一的編號UPI。該數據庫只含有蛋白質的序列信息,而沒有註釋數據。
參考資料