-
KEGG
鎖定
- 中文名
- 京都基因與基因組百科全書
- 外文名
- Kyoto Encyclopedia of Genes and Genomes
- 簡 稱
- KEGG
- 性 質
- 基因組破譯方面的數據庫
- 成立單位
- 日本京都大學生物信息學中心的Kanehisa實驗室
- 成立時間
- 1995年
KEGG簡介
KEGG(京都基因與基因組百科全書)是基因組破譯方面的數據庫。在後基因時代一個重大挑戰是如何使細胞和有機體在計算機上完整的表達和演繹,讓計算機利用基因信息對更高層次和更複雜細胞活動和生物體行為作出計算推測。為達到此目的,人們建立了一個在相關知識基礎上的網絡推測計算工具。在給出染色體中一套完整的基因的情況下,它可以對蛋白質交互(互動)網絡在各種細胞活動起的作用作出預測。 KEGG 的PATHWAY 數據庫整合當前在分子互動網絡(比如通道,聯合體)的知識,KEGG 的GENES/SSDB/KO 數據庫提供關於在基因組計劃中發現的基因和蛋白質的相關知識,KEGG 的COMPOUND/GLYCAN/REACTION數據庫提供生化複合物及反應方面的知識。
KEGG產生的背景
如何藉助計算機全面地展示細胞和生物所包含的生物學信息是後基因組時代的重大挑戰之一。科學家期望能夠根據基因組中的信息,用計算機計算或者預測出比較複雜的細胞中的通路或者生物的複雜行為。出於這個目的,日本京都大學生物信息學中心的Kanehisa實驗室於1995年建立了生物信息學數據庫KEGG。
KEGG特點介紹
KEGG是一個整合了基因組、化學和系統功能信息的數據庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG數據庫的特色之一。人工創建了一個知識庫,這個知識庫是基於使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統功能知識庫。它是一個生物系統的計算機模擬。與其他數據庫相比,KEGG 的一個顯著特點就是具有強大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關係,這樣可以使研究者能夠對其所要研究的代謝途徑有一個直觀全面的瞭解。
KEGG用途
各個數據庫中包含了大量的有用信息。基因組信息存儲在GENES數據庫裏,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數據庫裏,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞週期,還包括同系保守的子通路等信息;KEGG的另一個數據庫LIGAND,包含關於化學物質、酶分子、酶反應等信息。
通過與世界上其它一些大型生物信息學數據庫的連接,KEGG可以為研究者提供更為豐富的生物學信息(LinkDB)。
KEGG影響及發展
KEGG建立了KEGG直系同源系統(theKEGG Orthology (KO)system),這個系統通過把分子網絡的相關信息連接到基因組中,從而發展和促進了跨物種註釋流程。·結果表明,KEGG被當做一個參考知識庫,被廣泛的用於基因組測序和其他高通量實驗技術得到的大規模數據集的整合和解釋中。除了保持對基礎研究的支持,隨着KEGG分子網絡的一些小變化,KEGG正在朝着更加偏向於實際應用的方向發展,這些應用主要集中在整合人類疾病、藥物和其他與健康相關的物質。
KEGGKEGG數據庫
分類 | 數據庫 | 目錄 | 顏色 |
系統信息 | KEGG PATHWAY | KEGG通路圖 | |
KEGG BRITE | BRITE功能層次 | ||
KEGG MODULE | KEGG功能單元的模塊 | ||
KEGG DISEASE | 人類疾病 | ||
KEGG DRUG | 藥物 | ||
KEGG ENVIRON | 天然藥物和與健康相關的物質 | ||
基因組信息 | KEGG ORTHOLOGY | KEGG直系同源(KO)組 | |
KEGG GENOME | KEGG中帶有完整基因組的物種 | ||
KEGG GENES | 在完整基因組中的基因目錄 | ||
KEGG SSDB | 與基因有關的序列相似性數據庫 | ||
化學信息 | KEGG COMPOUND | 代謝物及其他小分子化合物 | |
KEGG GLYCAN | 多糖 | ||
KEGG REACTION | 生化反應 | ||
KEGG RPAIR | 化學反應中的反應物對 | ||
KEGG RCLASS | RPAIR定義的反應級別 | ||
KEGG ENZYME | 酶命名法 |
KEGGKEGG對象標識符
數據庫中包含各種各樣的數據對象,這些數據對象是為了用來對生物系統進行計算機模擬的。因此,各個數據庫中的數據記錄都被稱為KEGG對象。這些對象可以通過KEGG對象標識符來識別,標識符由一個與數據庫相關的前綴加五個數字構成。
Database | Object | Prefix | Example |
KEGG PATHWAY | Pathway map | map, ko, ec, rn, (org) | hsa04930 |
KEGG BRITE | Functional hierarchy | br, jp, ko, (org) | ko01003 |
KEGG MODULE | KEGG module | M, (org)_M | M00010 |
KEGG DISEASE | Human disease | H | H00004 |
KEGG DRUG | Drug | D | D01441 |
KEGG ENVIRON | Crude drug, etc. | E | E00048 |
KEGG ORTHOLOGY | KO group | K | K04527 |
KEGG GENOME | KEGG organism | T | T01001 (hsa) |
KEGG GENES | Gene / protein | hsa:3643 | |
KEGG COMPOUND | Small molecule | C | C00031 |
KEGG GLYCAN | Glycan | G | G00109 |
KEGG REACTION | Reaction | R | R00259 |
KEGG RPAIR | Reactant pair | RP | RP04458 |
KEGG RCLASS | Reaction class | RC | RC00046 |
KEGG ENZYME | Enzyme | ec:2.7.10.1 |
KEGG當前數據庫中的記錄
KEGG PATHWAY | Pathway maps, reference (total) | 457(287,038) |
KEGG BRITE | Functional hierarchies, reference (total) | 146 (100,112) |
KEGG MODULE | KEGG modules, reference (total) | 592 (219,684) |
KEGG DISEASE | Human diseases | 1,359 |
KEGG DRUG | Drugs | 10,084 |
KEGG ENVIRON | Crude drugs and health-related substances | 849 |
KEGG ORTHOLOGY | KEGG Orthology (KO) groups | 17,661 |
KEGG GENOME | KEGG Organisms | 2,998 |
KEGG GENES | Genes in high-quality genomes (190 eukaryotes, 2336 bacteria, 153 archaea) | 12,462,216 |
KEGG SSDB | Best hit relations within GENES Bi-directional best hit relations within GENES | 181,088,147,758 3,841,515,171 |
KEGG DGENES | Genes in draft genomes (20 eukaryotes) | 514,175 |
KEGG EGENES | Genes as EST contigs (99 eukaryotes) | 3,792,883 |
KEGG MGENES | Genes in metagenomes (716 samples) | 90,754,418 |
KEGG COMPOUND | Metabolites and other small molecules | 17,187 |
KEGG GLYCAN | Glycans | 10,985 |
KEGG REACTION | Biochemical reactions | 9,545 |
KEGG RPAIR | Reactant pair chemical transformations | 14,500 |
KEGG RCLASS | Reaction class | 2,879 |
KEGG ENZYME | Enzyme nomenclature | 6,214 |
KEGG PATHWAY Database
1.新陳代謝
2.遺傳信息加工
3.環境信息加工
4.細胞過程
5.生物體系統
6.人類疾病
7.藥物開發
KEGGPATHWAY的五種類型
·map -Reference pathway
對於代謝相關的通路,在referencepathway中,一個點同時表示一個基因、這個基因編碼的酶及這個酶參加的反應
·ko -Reference pathway (KO)
ko通路中的點只表示基因
·ec -Reference pathway (EC)
ec通路中的點只表示相關的酶
·rn -Reference pathway (Reaction)
·org- Organism-specific pathway map
對於所有的代謝和非代謝通路,K編號都被認為是基因的標識符,這個標識符在每一個物種中對應該物種中的某個基因,從而得到物種特異性的pathway。
KEGG ORTHOLOGY (KO) Database
KEGG參考通路圖,BRITE功能層次以及KEGG模塊都是以一種廣泛的方式來表示,都可以用於所有物種。而KEGG直系同源系統(KO System)
[6]
是這一表示方式的基礎。包含手動定義的直系同源組,這些直系同源組就相當於KEGG通路中的點,BRITE層級中的點以及KEGG模塊中的點。(這些點並不是某個具體物種的某一個基因,而是在許多物種中都存在的直系同源的某一個基因)。一旦基因被分配了KO標識或K編號,通過基因組註釋流程,物種特異性的通路圖、BRITE功能層次和KEGG模塊就可以自動產生了。
KEGG直系同源與旁系同源
l直系同源(orthology)
[7]
是比較基因組學中最重要的定義。直系同源的定義是:
(2).分佈於兩種或兩種以上物種的基因組;
(3).功能高度保守乃至於近乎相同,甚至於其在近緣物種可以相互替換;
(4).結構相似;
l旁系同源(paralogy)基因是指同一基因組(或同系物種的基因組)中,由於始祖基因的加倍而橫向產生的幾個同源基因。直系與旁系的共性是同源,都源於各自的始祖基因。其區別在於:在進化起源上,直系同源是強調在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴格要求,可能相似,但也可能並不相似(儘管結構上具一定程度的相似),甚至於沒有功能(如基因家族中的假基因)。
ko編號表示一個通路,這個通路是不分物種的,相當於所有物種的這一通路的並集。
K編號表示一個基因,是ko通路中的基本單位,某一K編號代表的不是某一具體物種的基因,而是所有物種的某一同源基因的統稱。
[9]
- 參考資料
-
- 1. KEGG: Kyoto Encyclopedia of Genes and Genomes .KEGG[引用日期2016-02-01]
- 2. 16個最好的蛋白質研究數據庫 .測序中國[引用日期2016-02-02]
- 3. The KEGG Database .KEGG官方網站[引用日期2013-06-09]
- 4. Current Statistics .KEGG官網[引用日期2013-06-09]
- 5. KEGG PATHWAY Database .KEGG[引用日期2013-06-09]
- 6. KEGG ORTHOLOGY (KO) Database .KEGG[引用日期2013-06-09]
- 7. 直系同源與旁系同源 .sina blog[引用日期2013-06-09]
- 8. Neurotrophin signaling pathway .KEGG[引用日期2013-06-09]
- 9. Ortholog table(ko04722) .KEGG[引用日期2013-06-09]