Een ontologie is een formele weergave van een geheel van kennis binnen een bepaald domein. Ontologieën bestaan gewoonlijk uit een reeks klassen (of termen of concepten) met relaties die tussen deze klassen opereren. De Gene Ontology (GO) beschrijft onze kennis van het biologische domein met betrekking tot drie aspecten:
Moleculaire Functie | Moleculaire-niveau activiteiten uitgevoerd door genproducten. Moleculaire functietermen beschrijven activiteiten die op moleculair niveau plaatsvinden, zoals “katalyse” of “transport”. GO-moleculaire functietermen geven eerder activiteiten weer dan de entiteiten (moleculen of complexen) die de acties uitvoeren, en specificeren niet waar, wanneer, of in welke context de actie plaatsvindt. Moleculaire functies komen in het algemeen overeen met activiteiten die kunnen worden uitgevoerd door individuele genproducten (d.w.z. een eiwit of RNA), maar sommige activiteiten worden uitgevoerd door moleculaire complexen die uit meerdere genproducten bestaan. Voorbeelden van brede functionele termen zijn katalytische activiteit en transporteractiviteit; voorbeelden van engere functionele termen zijn adenylaatcyclaseactiviteit of Toll-like receptorbinding. Om verwarring tussen de namen van genproducten en hun moleculaire functies te voorkomen, worden de GO-moleculaire functies vaak aangevuld met het woord “activiteit” (een eiwitkinase zou de GO-moleculaire functie eiwitkinase-activiteit hebben). |
Cellulaire component | De locaties ten opzichte van cellulaire structuren waarin een genproduct een functie vervult, hetzij cellulaire compartimenten (bijv, mitochondrion), of stabiele macromoleculaire complexen waarvan zij onderdelen zijn (b.v. het ribosoom). In tegenstelling tot de andere aspecten van GO, verwijzen de cellulaire componentklassen niet naar processen, maar veeleer naar een cellulaire anatomie. |
Biologisch proces | De grotere processen, of “biologische programma’s” die door meervoudige moleculaire activiteiten tot stand worden gebracht. Voorbeelden van brede biologische procestermen zijn DNA-reparatie of signaaltransductie. Voorbeelden van meer specifieke termen zijn pyrimidine nucleobase biosynthese proces of glucose transmembraan transport. Merk op dat een biologisch proces niet equivalent is met een pathway. Momenteel tracht de GO niet de dynamiek of afhankelijkheden weer te geven die nodig zouden zijn om een pathway volledig te beschrijven. |
In een voorbeeld van GO-annotatie kan het genproduct “cytochrome c” worden beschreven door de moleculaire functie oxidoreductase-activiteit, het biologische proces oxidatieve fosforylering, en de cellulaire component mitochondriale matrix.
De GO-vocabulaire is ontworpen om soortsneutraal te zijn, en bevat termen die van toepassing zijn op prokaryoten en eukaryoten, alsmede op eencellige en meercellige organismen.
GO-klassen (ook termen genoemd)
GO-klassen bestaan uit een definitie, een label, een unieke identificatiecode, en diverse andere elementen. Elementen van GO-termen worden hier beschreven.
De GO-grafiek
De structuur van GO kan worden beschreven in termen van een grafiek, waarin elke GO-term een knooppunt is, en de relaties tussen de termen randen zijn tussen de knooppunten. GO is losjes hiërarchisch, waarbij “kind”-termen meer gespecialiseerd zijn dan hun “ouder”-termen, maar in tegenstelling tot een strikte hiërarchie kan een term meer dan één ouderterm hebben (merk op dat het ouder/kind-model niet voor alle soorten relaties geldt, zie de documentatie over relaties). Bijvoorbeeld, de biologische procesterm hexose biosynthetisch proces heeft twee oudertermen, hexose metabolisch proces en monosaccharide biosynthetisch proces. Dit weerspiegelt het feit dat biosynthetisch proces een subtype is van metabolisch proces en dat een hexose een subtype is van monosaccharide.
Een ontologie… of drie?
Zoals het bovenstaande diagram suggereert, worden de drie GO-domeinen (cellulaire component, biologisch proces en moleculaire functie) elk vertegenwoordigd door een afzonderlijke ontologie-grondterm. Alle termen in een domein kunnen hun afstamming herleiden tot een basisterm, hoewel er talrijke verschillende paden kunnen zijn via een variërend aantal tussenliggende termen naar een ontologiewortel. De drie root nodes zijn niet verwant en hebben geen gemeenschappelijke parent node, en dus is GO drie ontologieën. Sommige op grafieken gebaseerde software kan één enkele root node vereisen; in deze gevallen kan een “nep”-term worden toegevoegd als ouder van de drie bestaande root nodes.
De drie GO ontologieën zijn disjunct, hetgeen betekent dat er geen relaties bestaan tussen termen uit de verschillende ontologieën. Andere relaties, zoals part of en regulates, werken echter wel tussen de GO-ontologieën. Bijvoorbeeld, de moleculaire functieterm ‘cycline-afhankelijke proteïne kinase activiteit’ is onderdeel van het biologische proces ‘celcyclus’. Meer informatie over relaties is hier beschikbaar.
GO als dynamische ontologie
GO beoogt de huidige stand van de kennis in de biologie weer te geven, vandaar dat het voortdurend wordt herzien en uitgebreid naarmate biologische kennis zich uitbreidt. Wekelijks worden wijzigingen aangebracht (de meeste relatief gering). De herzieningen van de ontologie worden beheerd door een team van ontologie-redacteurs met uitgebreide ervaring in zowel biologie als computationele kennisrepresentatie. Deze updates worden gezamenlijk uitgevoerd door het GOC-ontologieteam en wetenschappers die de updates aanvragen. De meeste verzoeken komen van wetenschappers die GO-annotaties maken (deze hebben doorgaans slechts betrekking op enkele termen), en van domeinexperts op bepaalde gebieden van de biologie (deze herzien doorgaans een hele “tak” van de ontologie die vele termen en relaties omvat). We nodigen onderzoekers en computationele wetenschappers uit om verzoeken in te dienen voor nieuwe termen, nieuwe relaties, of andere verbeteringen aan de ontologie.
Details over de ontologie
- GO term elementen: Beschrijving van het formaat van GO-termen.
- Ontologierelaties: Documentatie over de inter-term relaties die in GO worden gebruikt.
- GO-statistieken: Statistieken voor de huidige release en in de tijd.