Ontologie je formální reprezentace souboru znalostí v dané doméně. Ontologie se obvykle skládají ze souboru tříd (nebo termínů či konceptů) se vztahy, které mezi nimi fungují. Genová ontologie (GO) popisuje naše znalosti biologické domény s ohledem na tři aspekty:
Molekulární funkce | Činnosti na molekulární úrovni vykonávané produkty genů. Termíny molekulární funkce popisují činnosti, které probíhají na molekulární úrovni, například “katalýza” nebo “transport”. Termíny molekulární funkce GO představují spíše činnosti než entity (molekuly nebo komplexy), které tyto činnosti provádějí, a nespecifikují, kde, kdy nebo v jakém kontextu se činnost odehrává. Molekulární funkce obecně odpovídají činnostem, které mohou vykonávat jednotlivé genové produkty (tj. protein nebo RNA), ale některé činnosti vykonávají molekulární komplexy složené z více genových produktů. Příklady širokých funkčních termínů jsou katalytická aktivita a aktivita transportéru; příklady užších funkčních termínů jsou aktivita adenylátcyklázy nebo vazba na Toll-like receptor. Aby se předešlo záměně názvů genových produktů a jejich molekulárních funkcí, jsou molekulární funkce GO často doplněny slovem “aktivita” (proteinová kináza by měla molekulární funkci GO aktivita proteinkinázy). |
Buněčná složka | Místa vzhledem k buněčným strukturám, v nichž genový produkt vykonává funkci, buď buněčné kompartmenty (např, mitochondrie), nebo stabilní makromolekulární komplexy, jejichž jsou součástí (např. ribozom). Na rozdíl od ostatních aspektů GO se třídy buněčných komponent nevztahují k procesům, ale spíše k buněčné anatomii. |
Biologický proces | Větší procesy nebo “biologické programy” uskutečňované více molekulárními aktivitami. Příklady širokých termínů biologických procesů jsou oprava DNA nebo přenos signálu. Příklady specifičtějších termínů jsou biosyntetický proces pyrimidinových nukleobází nebo transmembránový transport glukózy. Všimněte si, že biologický proces není ekvivalentní dráze. V současné době se GO nesnaží reprezentovat dynamiku nebo závislosti, které by byly nutné k úplnému popisu dráhy. |
V příkladu anotace GO lze genový produkt “cytochrom c” popsat pomocí molekulární funkce oxidoreduktázová aktivita, biologického procesu oxidativní fosforylace a buněčné komponenty mitochondriální matrix.
Slovník GO je navržen tak, aby nebyl druhově závislý, a zahrnuje termíny použitelné pro prokaryota a eukaryota, stejně jako pro jednobuněčné a mnohobuněčné organismy.
Třídy GO (známé také jako termíny)
Třídy GO se skládají z definice, značky, jedinečného identifikátoru a několika dalších prvků. Prvky termínů GO jsou popsány zde.
Graf GO
Strukturu GO lze popsat v podobě grafu, kde každý termín GO je uzel a vztahy mezi termíny jsou hrany mezi uzly. GO je volně hierarchický, přičemž “podřízené” termíny jsou specializovanější než jejich “nadřízené” termíny, ale na rozdíl od přísné hierarchie může mít termín více než jeden nadřízený termín (všimněte si, že model rodič/dítě neplatí pro všechny typy vztahů, viz dokumentace vztahů). Například termín biologického procesu proces biosyntézy hexózy má dva rodiče, proces metabolismu hexózy a proces biosyntézy monosacharidů. To odráží skutečnost, že biosyntetický proces je podtypem metabolického procesu a hexóza je podtypem monosacharidu.
Jedna ontologie… nebo tři?
Jak naznačuje výše uvedený diagram, tři domény GO (buněčná komponenta, biologický proces a molekulární funkce) jsou reprezentovány každá samostatným termínem kořenové ontologie. Všechny termíny v doméně mohou vysledovat svůj původ ke kořenovému termínu, ačkoli může existovat mnoho různých cest přes různý počet zprostředkujících termínů ke kořenovému termínu ontologie. Tři kořenové uzly spolu nesouvisejí a nemají společný nadřazený uzel, a proto GO představuje tři ontologie. Některé programy založené na grafech mohou vyžadovat jediný kořenový uzel; v těchto případech lze přidat “falešný” termín jako rodiče tří existujících kořenových uzlů.
Tři ontologie GO jsou disjunktní, což znamená, že mezi termíny z různých ontologií nefungují žádné vztahy. Mezi ontologiemi GO však fungují jiné vztahy, například part of a regulates. Například termín molekulární funkce “cyclin-dependent protein kinase activity” je součástí biologického procesu “cell cycle”. Další informace o vztazích jsou k dispozici zde.
GO jako dynamická ontologie
GO si klade za cíl reprezentovat současný stav znalostí v biologii, proto je neustále revidována a rozšiřována podle toho, jak se hromadí biologické poznatky. Změny jsou prováděny každý týden (většinou relativně drobné). Revize ontologie řídí tým ontologických editorů s rozsáhlými zkušenostmi v oblasti biologie i počítačové reprezentace znalostí. Tyto aktualizace jsou prováděny ve spolupráci mezi ontologickým týmem GOC a vědci, kteří o ně požádají. Většina žádostí pochází od vědců, kteří vytvářejí anotace GO (ty obvykle ovlivňují pouze několik termínů), a od doménových odborníků v určitých oblastech biologie (ti obvykle revidují celou “větev” ontologie zahrnující mnoho termínů a vztahů). Vyzýváme výzkumné pracovníky a počítačové vědce, aby předkládali požadavky buď na nové termíny, nové vztahy, nebo jakákoli jiná vylepšení ontologie.
Podrobnosti o ontologii
- Prvky termínů GO: Popis formátu termínů GO.
- Vztahy v ontologii: Dokumentace vztahů mezi termíny používanými v GO.
- Statistiky GO: Statistiky pro aktuální vydání a v průběhu času.
.