複製鏈接
請複製以下鏈接發送給好友

KEGG

鎖定
KEGG 是瞭解高級功能和生物系統(如細胞、 生物和生態系統),從分子水平信息,尤其是大型分子數據集生成的基因組測序和其他高通量實驗技術的實用程序數據庫資源, [1]  由日本京都大學生物信息學中心的Kanehisa實驗室於1995年建立。是國際最常用的生物信息數據庫之一,以“理解生物系統的高級功能和實用程序資源庫”著稱。 [2] 
中文名
京都基因與基因組百科全書
外文名
Kyoto Encyclopedia of Genes and Genomes
簡    稱
KEGG
性    質
基因組破譯方面的數據庫
成立單位
日本京都大學生物信息學中心的Kanehisa實驗室
成立時間
1995年

KEGG簡介

KEGG(京都基因與基因組百科全書)是基因組破譯方面的數據庫。在後基因時代一個重大挑戰是如何使細胞和有機體在計算機上完整的表達和演繹,讓計算機利用基因信息對更高層次和更複雜細胞活動和生物體行為作出計算推測。為達到此目的,人們建立了一個在相關知識基礎上的網絡推測計算工具。在給出染色體中一套完整的基因的情況下,它可以對蛋白質交互(互動)網絡在各種細胞活動起的作用作出預測。 KEGG 的PATHWAY 數據庫整合當前在分子互動網絡(比如通道,聯合體)的知識,KEGG 的GENES/SSDB/KO 數據庫提供關於在基因組計劃中發現的基因和蛋白質的相關知識,KEGG 的COMPOUND/GLYCAN/REACTION數據庫提供生化複合物及反應方面的知識。

KEGG產生的背景

如何藉助計算機全面地展示細胞和生物所包含的生物學信息是後基因組時代的重大挑戰之一。科學家期望能夠根據基因組中的信息,用計算機計算或者預測出比較複雜的細胞中的通路或者生物的複雜行為。出於這個目的,日本京都大學生物信息學中心的Kanehisa實驗室於1995年建立了生物信息學數據庫KEGG。

KEGG特點介紹

KEGG是一個整合了基因組、化學和系統功能信息的數據庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG數據庫的特色之一。人工創建了一個知識庫,這個知識庫是基於使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統功能知識庫。它是一個生物系統計算機模擬。與其他數據庫相比,KEGG 的一個顯著特點就是具有強大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關係,這樣可以使研究者能夠對其所要研究的代謝途徑有一個直觀全面的瞭解。

KEGG用途

各個數據庫中包含了大量的有用信息。基因組信息存儲在GENES數據庫裏,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數據庫裏,包括圖解的細胞生化過程如代謝、膜轉運信號傳遞細胞週期,還包括同系保守的子通路等信息;KEGG的另一個數據庫LIGAND,包含關於化學物質、酶分子、酶反應等信息。
通過與世界上其它一些大型生物信息學數據庫的連接,KEGG可以為研究者提供更為豐富的生物學信息(LinkDB)。
KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。

KEGG影響及發展

KEGG建立了KEGG直系同源系統(theKEGG Orthology (KO)system),這個系統通過把分子網絡的相關信息連接到基因組中,從而發展和促進了跨物種註釋流程。·結果表明,KEGG被當做一個參考知識庫,被廣泛的用於基因組測序和其他高通量實驗技術得到的大規模數據集的整合和解釋中。除了保持對基礎研究的支持,隨着KEGG分子網絡的一些小變化,KEGG正在朝着更加偏向於實際應用的方向發展,這些應用主要集中在整合人類疾病、藥物和其他與健康相關的物質。

KEGGKEGG數據庫

KEGG是一個綜合數據庫,它們大致分為系統信息、基因組信息和化學信息三大類。進一步可細分為16個主要的數據庫。可以通過不同的顏色編碼來區分。 [3] 
分類
數據庫
目錄
顏色
系統信息
KEGG PATHWAY
KEGG通路圖

KEGG BRITE
BRITE功能層次
KEGG MODULE
KEGG功能單元的模塊
KEGG DISEASE
人類疾病

KEGG DRUG
藥物
KEGG ENVIRON
天然藥物和與健康相關的物質
基因組信息
KEGG ORTHOLOGY
KEGG直系同源(KO)組

KEGG GENOME
KEGG中帶有完整基因組的物種

KEGG GENES
在完整基因組中的基因目錄
KEGG SSDB
與基因有關的序列相似性數據庫
化學信息
KEGG COMPOUND
代謝物及其他小分子化合物

KEGG GLYCAN
多糖
KEGG REACTION
生化反應
KEGG RPAIR
化學反應中的反應物對
KEGG RCLASS
RPAIR定義的反應級別
KEGG ENZYME
酶命名法

KEGGKEGG對象標識符

數據庫中包含各種各樣的數據對象,這些數據對象是為了用來對生物系統進行計算機模擬的。因此,各個數據庫中的數據記錄都被稱為KEGG對象。這些對象可以通過KEGG對象標識符來識別,標識符由一個與數據庫相關的前綴加五個數字構成。
Database
Object
Prefix
Example
KEGG PATHWAY
Pathway map
map, ko, ec, rn, (org)
hsa04930
KEGG BRITE
Functional hierarchy
br, jp, ko, (org)
ko01003
KEGG MODULE
KEGG module
M, (org)_M
M00010
KEGG DISEASE
Human disease
H
H00004
KEGG DRUG
Drug
D
D01441
KEGG ENVIRON
Crude drug, etc.
E
E00048
KEGG ORTHOLOGY
KO group
K
K04527
KEGG GENOME
KEGG organism
T
T01001 (hsa)
KEGG GENES
Gene / protein

hsa:3643
KEGG COMPOUND
Small molecule
C
C00031
KEGG GLYCAN
Glycan
G
G00109
KEGG REACTION
Reaction
R
R00259
KEGG RPAIR
Reactant pair
RP
RP04458
KEGG RCLASS
Reaction class
RC
RC00046
KEGG ENZYME
Enzyme

ec:2.7.10.1

KEGG當前數據庫中的記錄

KEGG Database as of 2013/6/5 [4] 
KEGG PATHWAY
Pathway maps, reference (total)
457(287,038)
KEGG BRITE
Functional hierarchies, reference (total)
146 (100,112)
KEGG MODULE
KEGG modules, reference (total)
592 (219,684)
KEGG DISEASE
Human diseases
1,359
KEGG DRUG
Drugs
10,084
KEGG ENVIRON
Crude drugs and health-related substances
849
KEGG ORTHOLOGY
KEGG Orthology (KO) groups
17,661
KEGG GENOME
KEGG Organisms
2,998
KEGG GENES
Genes in high-quality genomes
(190 eukaryotes, 2336 bacteria, 153 archaea)
12,462,216
KEGG SSDB
Best hit relations within GENES
Bi-directional best hit relations within GENES
181,088,147,758
3,841,515,171
KEGG DGENES
Genes in draft genomes (20 eukaryotes)
514,175
KEGG EGENES
Genes as EST contigs (99 eukaryotes)
3,792,883
KEGG MGENES
Genes in metagenomes (716 samples)
90,754,418
KEGG COMPOUND
Metabolites and other small molecules
17,187
KEGG GLYCAN
Glycans
10,985
KEGG REACTION
Biochemical reactions
9,545
KEGG RPAIR
Reactant pair chemical transformations
14,500
KEGG RCLASS
Reaction class
2,879
KEGG ENZYME
Enzyme nomenclature
6,214
KEGG PATHWAY Database
KEGG PATHWAY 數據庫是一個手工畫的代謝通路的集合,包含以下幾方面的分子間相互作用和反應網絡 [5] 
1.新陳代謝
2.遺傳信息加工
3.環境信息加工
4.細胞過程
5.生物體系統
6.人類疾病

KEGGPATHWAY的五種類型

僅僅第一種參考通路(reference pathway)圖是手動畫出來的,其他的通路圖都是通過計算產生的。pathway中的每一個框(或線)都對應一個或多個K編號、EC編號及R編號。
·map -Reference pathway
對於代謝相關的通路,在referencepathway中,一個點同時表示一個基因、這個基因編碼的酶及這個酶參加的反應
·ko -Reference pathway (KO)
ko通路中的點只表示基因
·ec -Reference pathway (EC)
ec通路中的點只表示相關的酶
·rn -Reference pathway (Reaction)
Reaction通路中的點只表示該點參與的某個反應、反應物對及反應類型
·org- Organism-specific pathway map
對於所有的代謝和非代謝通路,K編號都被認為是基因的標識符,這個標識符在每一個物種中對應該物種中的某個基因,從而得到物種特異性的pathway。
KEGG KEGG
KEGG ORTHOLOGY (KO) Database
KEGG參考通路圖,BRITE功能層次以及KEGG模塊都是以一種廣泛的方式來表示,都可以用於所有物種。而KEGG直系同源系統(KO System) [6]  是這一表示方式的基礎。包含手動定義的直系同源組,這些直系同源組就相當於KEGG通路中的點,BRITE層級中的點以及KEGG模塊中的點。(這些點並不是某個具體物種的某一個基因,而是在許多物種中都存在的直系同源的某一個基因)。一旦基因被分配了KO標識或K編號,通過基因組註釋流程,物種特異性的通路圖、BRITE功能層次和KEGG模塊就可以自動產生了。

KEGG直系同源與旁系同源

l直系同源(orthology) [7] 比較基因組學中最重要的定義。直系同源的定義是:
(1).在進化上起源於一個始祖基因並垂直傳遞同源基因
(2).分佈於兩種或兩種以上物種的基因組;
(3).功能高度保守乃至於近乎相同,甚至於其在近緣物種可以相互替換;
(5).組織特異性亞細胞分佈相似。
l旁系同源(paralogy)基因是指同一基因組(或同系物種的基因組)中,由於始祖基因的加倍而橫向產生的幾個同源基因。直系與旁系的共性是同源,都源於各自的始祖基因。其區別在於:在進化起源上,直系同源是強調在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴格要求,可能相似,但也可能並不相似(儘管結構上具一定程度的相似),甚至於沒有功能(如基因家族中的假基因)。
ko編號表示一個通路,這個通路是不分物種的,相當於所有物種的這一通路的並集。
eg:ko04722 [8] 
K編號表示一個基因,是ko通路中的基本單位,某一K編號代表的不是某一具體物種的基因,而是所有物種的某一同源基因的統稱。 [9] 
KEGG KEGG
參考資料