En ontologi er en formel repræsentation af et videnskorpus inden for et givet domæne. Ontologier består normalt af et sæt af klasser (eller termer eller begreber) med relationer, der opererer mellem dem. Genontologien (GO) beskriver vores viden om det biologiske domæne med hensyn til tre aspekter:
Molekylær funktion | Molekylære aktiviteter på molekylært niveau, der udføres af genprodukter. Udtryk for molekylær funktion beskriver aktiviteter, der finder sted på molekylært niveau, f.eks. “katalyse” eller “transport”. GO-betegnelser for molekylære funktioner repræsenterer aktiviteter snarere end de enheder (molekyler eller komplekser), der udfører handlingerne, og de angiver ikke, hvor, hvornår eller i hvilken sammenhæng handlingen finder sted. Molekylære funktioner svarer generelt til aktiviteter, der kan udføres af individuelle genprodukter (dvs. et protein eller RNA), men nogle aktiviteter udføres af molekylære komplekser, der består af flere genprodukter. Eksempler på brede funktionelle udtryk er katalytisk aktivitet og transporteraktivitet; eksempler på mere snævre funktionelle udtryk er adenylatcyklaseaktivitet eller binding af Toll-like-receptorer. For at undgå forvirring mellem navne på genprodukter og deres molekylære funktioner er GO-molekylære funktioner ofte tilføjet ordet “aktivitet” (en proteinkinase ville have GO-molekylfunktionen proteinkinaseaktivitet). | |
Cellulær komponent | De steder i forhold til cellulære strukturer, hvor et genprodukt udfører en funktion, enten cellulære kompartmenter (f.eks, mitokondrion) eller stabile makromolekylære komplekser, som de er dele af (f.eks. ribosomet). I modsætning til de andre aspekter af GO henviser de cellulære komponentklasser ikke til processer, men snarere til en cellulær anatomi. | |
Biologisk proces | De større processer eller “biologiske programmer”, der udføres af flere molekylære aktiviteter. Eksempler på brede biologiske procesbegreber er DNA-reparation eller signaltransduktion. Eksempler på mere specifikke udtryk er pyrimidinnukleobase-biosyntetisk proces eller glukose transmembrantransport. Bemærk, at en biologisk proces ikke er ensbetydende med en vej. På nuværende tidspunkt forsøger GO ikke at repræsentere den dynamik eller de afhængigheder, der ville være nødvendige for at beskrive en vej fuldt ud. |
I et eksempel på GO-annotation kan genproduktet “cytochrom c” beskrives ved den molekylære funktion oxidoreduktaseaktivitet, den biologiske proces oxidativ fosforylering og den cellulære komponent mitochondrial matrix.
GO-vokabularet er designet til at være artsuafhængigt og omfatter termer, der kan anvendes på prokaryoter og eukaryoter samt på encellede og flercellede organismer.
GO-klasser (også kendt som termer)
GO-klasser består af en definition, en etiket, en unik identifikator og flere andre elementer. Elementer i GO-termer beskrives her.
GO-grafen
Go’s struktur kan beskrives i form af en graf, hvor hvert GO-term er en knude, og forbindelserne mellem termerne er kanter mellem knuderne. GO er løst hierarkisk, idet “child”-termer er mere specialiserede end deres “parent”-termer, men i modsætning til et strengt hierarki kan en term have mere end én parent-term (bemærk, at parent/child-modellen ikke gælder for alle typer af relationer, se dokumentationen om relationer). F.eks. har den biologiske procesterm hexose biosynthetic process to forældre, hexose metabolic process og monosaccharide biosynthetic process. Dette afspejler det faktum, at biosyntetisk proces er en undertype af metabolisk proces, og at hexose er en undertype af monosakkarid.
En ontologi… eller tre?
Som det fremgår af ovenstående diagram, er de tre GO-domæner (cellulær komponent, biologisk proces og molekylær funktion) hver især repræsenteret af en separat rod ontologiudtryk. Alle termer i et domæne kan spore deres ophav til et rodterm, selv om der kan være mange forskellige veje via et varierende antal mellemliggende termer til en ontologirod. De tre rodknuder er ikke beslægtede og har ikke en fælles overordnet knude, og derfor er GO tre ontologier. Nogle grafbaserede programmer kan kræve en enkelt rodknude; i disse tilfælde kan der tilføjes en “falsk” term som forælder til de tre eksisterende rodknuder.
De tre GO-ontologier er er er disjoint, hvilket betyder, at der ikke er relationer mellem termer fra de forskellige ontologier. Andre relationer såsom “part of” og “regulates” fungerer dog mellem GO-ontologierne. F.eks. er den molekylære funktionsterm “cyclin-afhængig proteinkinaseaktivitet” en del af den biologiske proces “cellecyklus”. Yderligere oplysninger om relationer findes her.
GO som en dynamisk ontologi
GO har til formål at repræsentere den aktuelle videnstand inden for biologien, og derfor revideres og udvides den konstant i takt med, at den biologiske viden akkumuleres. Der foretages ændringer hver uge (de fleste er relativt små). Revisioner af ontologien forvaltes af et hold af ontologiredaktører med omfattende erfaring inden for både biologi og computerbaseret vidensrepræsentation. Disse opdateringer foretages i samarbejde mellem GOC’s ontologiteam og de videnskabsmænd, der anmoder om opdateringerne. De fleste anmodninger kommer fra forskere, der laver GO-annotationer (disse påvirker typisk kun nogle få termer hver), og fra domæneeksperter inden for bestemte biologiske områder (disse reviderer typisk en hel “gren” af ontologien, der omfatter mange termer og relationer). Vi opfordrer forskere og dataloger til at indsende anmodninger om enten nye termer, nye relationer eller andre forbedringer af ontologien.
Detaljer om ontologien
- GO-termelementer: Beskrivelse af GO-termernes format.
- Ontologirelationer: Dokumentation om de relationer mellem termer, der anvendes i GO.
- GO-statistik: Dokumentation om de relationer mellem termer, der anvendes i GO.
- GO-statistik: Statistikker for den aktuelle udgave og over tid.