複製鏈接
請複製以下鏈接發送給好友

基因組註釋

鎖定
基因組註釋(Genome annotation) 是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量註釋,是當前功能基因組學研究的一個熱點。
中文名
基因組註釋
外文名
Genome annotation
方    法
開發環境
特    點
當前功能基因組學研究

目錄

基因組註釋概念

圖1 基因組重疊連續羣測試序列註釋結果 圖1 基因組重疊連續羣測試序列註釋結果
基因組註釋的研究內容包括基因識別和基因功能註釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。從基因組序列預測新基因,現階段主要是3 種方法的結合: (1) 分析mRNA 和EST數據以直接得到結果; (2) 通過相似性比對從已知基因和蛋白質序列得到間接證據[1] ; (3) 基於各種統計模型和算法從頭預測。對預測出的基因進行高通量功能註釋可以藉助於以下方法,利用已知功能基因的註釋信息為新基因註釋: (1) 序列數據庫相似性搜索; (2) 序列模體(Motif) 搜索; (3) 直系同源序列聚類分析(Cluster of orthologousgroup ,COG) [2] 。隨着微生物全基因組序列測定速率的加快,開發有Web 接口的高效、綜合基因組註釋系統十分必要。近年來,國際上已有一些這樣的工具,如基於Java 的微生物基因組數據庫接口。儘管JMGD 提供了一個很好的圖形化接口程序,卻並不具有基因組自動註釋功能。德國國家環境和健康研究中心開發的蛋白質摘錄、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因組分析系統,整合了大量基因組功能信息和結構信息。PEDANT 註釋功能強大[3] ,適用範圍廣,但沒有便於操作的圖形界面,而且需要較強的硬件系統支持。微生物基因組全序列測定通常由中小實驗室獨立完成,有必要開發和集成基於PCPLinux 系統並以免費數據庫管理系統、免費軟件和公共數據庫資源為主的基因組信息註釋系統。

基因組註釋系統方法

本系統基於PC 微機,操作系統為Linux。測試系統為PIII 550 雙CPU 微機,內存1GB ,運行RedHat 710 Linux 系統。數據庫管理系統使用MySQL ,Web 服務器程序使用Apache ,應用程序接口用Perl 腳本語言編寫。本系統也可在單CPU 微機上運行,內存不小於512MB。所有系統軟件和應用軟件均可以從Internet 網上免費獲得。
本系統用藍細菌( Synechococcus sp. ) PCC7002 基因組初步拼接所得最大重疊連續羣(Contig) 作測試數據,共3 03247bp 。
113  MGAP 的基因組註釋系統
基因組註釋系統是MGAP 的核心,整合了許多常用的基因識別蛋白質功能預測軟件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多個數據庫,如非冗餘蛋白質序列數據庫(Non redundant , NR) 、已知三維空間結構蛋白質序列數據庫(PDBSeq) 、國際蛋白質資源信息系統( InterPro) [6] 和直系同源蛋白質家族數據庫(Cluster of orthologousgroups ,COG) 等,編寫了相應的模塊進行自動操作,並把每一步註釋結果導入數據庫中。MGAP 整合的一般模塊,可以被其他任何一種微生物基因組直接使用。不同實驗室可根據實際研究需要,增加相應模塊或數據,如藍細菌Anabaena sp. strain PCC 7120 的蛋白質序列庫等。
基因識別是MGAP 的第一步,本系統採用微生物基因組基因識別最為權威的Gene2Marks 軟件進行基因預測,通過http :PPopal .biology.gatech.eduPGeneMarkPgenemarks. cgi 網站提交重疊連續羣測試序列(3 03247bp) ,使用GeneMarks 缺省參數,預測得到279 個基因。
然後用MGAP 的數據加載模塊(Loaddata) 將預測結果導入ORF 表中。
114  MGAP 的用户接口
用户接口用於展示註釋結果,提供易於操作和分析平台。本系統用户接口基於Web設計開發,用户可通過瀏覽器訪問基因組註釋系統,包括基因組環狀圖展示、基因和ORF在染色體上分佈圖,並對註釋信息進行檢索。基因組環狀基因分佈圖構建基於如下信息:預測所得基因的起始位置、長度,編碼基因的正負鏈信息,以及預測的基因功能分類。
2  結果
MGAP 系統對PCC7002 基因組重疊連續羣測試序列註釋結果。A 為基因展示圖,B 為ORF 顯示頁面。A 中由外向內依次為: (1) 正鏈編碼基因; (2) 負鏈編碼基因; (3)GC 含量統計; (4) GC 偏離量統計。該系統構建的環狀基因組,可顯示正負鏈上的編碼基因,用相應顏色表示功能類別。本系統沿用經典蛋白質功能分類方法[8] ,即把微生物基因組所有基因按功能分為16 大類,進而細分為113 個子類。此外,還增加了統計GC 含量和GC 偏離量(GC Bias) 功能。計算GC 含量時以200bp 為滑動窗口,計算GC 偏離量時以13kb 為滑動窗口。GC 偏離量表示G和C 含量的差別,定義為: (G2C)P(G+ C) [9] 。點擊A圖中環狀基因組展示圖,則可得到B 圖基因組局部ORF 顯示頁面。點擊圖中某個ORF ,即可調出其所有註釋信息,包括該ORF 在基因組中的位置、長度、正負鏈信息、核酸和蛋白序列,以及對NR 蛋白庫、COG數據庫、InterPro 、PDBseq 數據庫的搜索結果。所有結果都有相對應的連接可以直接連到原始數據庫。
3  討論
新基因組功能註釋是基因組研究的重要方面,MGAP 把註釋所用軟件和公共數據庫進行有機集成,使註釋過程自動進行並把結果存儲到數據庫系統中,最終提供友好的界面,可為中小實驗室提供方便實用的微生物基因組註釋系統,減少人工參與,提高註釋效率。該系統考慮到國內一般中小實驗室的實際情況,基於廉價的PC 微機和免費Linux、MySQL 、Apache 和Perl 等軟件系統開發
必須指出,所有計算機註釋信息,均不能保證完全準確。MGAP 在一定程度上依賴於現有數據庫中的註釋信息。由於各種原因,這些註釋信息必然有一些錯誤。顯然,這些錯誤信息將不可避免地引入新的註釋系統。為此,MGAP 綜合了多種註釋方法,並互為補充。例如,一個ORF 既有BLASTP從NR 數據庫搜索到的相似序列,又在InterPro 蛋白質模體庫中找到相應功能位點,也可找到高分匹配的COGs ,那麼該註釋結果就比較可靠。此外,必要的人工註釋,可以避免或糾正自動註釋的錯誤。例如,由於測序錯誤產生的讀碼框移位或是缺失,會導致一個基因被拆分成兩段,這種錯誤只能由手工糾正。基因組註釋是一個複雜、繁瑣的過程,需要大量的生物學知識。詳盡、準確的註釋需要經過嚴格的生物學實驗才能獲得。本系統對測試序列的註釋結果仍有許多未知功能基因,需不斷擴充新數據而逐步更新。MGAP 的新版本將增加交互式用户註釋模塊,進一步擴充和增強該系統註釋功能。