Geneettisen ontologian yleiskatsaus

Ontologia on tietyn alan tietämyksen muodollinen esitys. Ontologiat koostuvat yleensä joukosta luokkia (tai termejä tai käsitteitä) ja niiden välillä toimivista suhteista. Gene-ontologia (GO, Gene Ontology) kuvaa tietämystämme biologisesta alueesta kolmen näkökohdan osalta:

Molekyylitason toiminta Molekyylitason toiminnot, joita geenituotteet suorittavat. Molekyylitoimintatermit kuvaavat molekyylitasolla tapahtuvia toimintoja, kuten “katalyysi” tai “kuljetus”. GO:n molekyylitason toimintatermit kuvaavat pikemminkin toimintoja kuin toimintoja suorittavia entiteettejä (molekyylejä tai komplekseja), eivätkä ne määrittele, missä, milloin tai missä yhteydessä toiminta tapahtuu. Molekyylitoiminnot vastaavat yleensä toimintoja, jotka yksittäiset geenituotteet (esim. proteiini tai RNA) voivat suorittaa, mutta jotkin toiminnot suoritetaan molekyylikomplekseilla, jotka koostuvat useista geenituotteista. Esimerkkejä laajoista toiminnallisista termeistä ovat katalyyttinen aktiivisuus ja kuljettajan aktiivisuus; esimerkkejä suppeammista toiminnallisista termeistä ovat adenylaattisyklaasin aktiivisuus tai Tollin kaltaisen reseptorin sitoutuminen. Jotta vältettäisiin sekaannus geenituotteiden nimien ja niiden molekyylitoimintojen välillä, GO-molekyylitoimintoihin liitetään usein sana “aktiivisuus” (proteiinikinaasilla olisi GO-molekyylitoiminto proteiinikinaasiaktiivisuus).
Solukomponentti Paikat suhteessa solurakenteisiin, joissa geenituote suorittaa toiminnon, joko solukompartimentit (esim, mitokondrio) tai vakaat makromolekyylikompleksit, joiden osia ne ovat (esim. ribosomi). Toisin kuin muut GO:n osa-alueet, solukomponenttiluokat eivät viittaa prosesseihin vaan pikemminkin solun anatomiaan.
Biologinen prosessi Laajemmat prosessit tai “biologiset ohjelmat”, jotka toteutetaan useiden molekyylitoimintojen avulla. Esimerkkejä laajoista biologisen prosessin termeistä ovat DNA:n korjaus tai signaalinsiirto. Esimerkkejä spesifisemmistä termeistä ovat pyrimidiininukleobaasin biosynteettinen prosessi tai glukoosin transmembraanikuljetus. Huomaa, että biologinen prosessi ei vastaa polkua. Tällä hetkellä GO ei pyri kuvaamaan dynamiikkaa tai riippuvuuksia, joita tarvittaisiin polun täydelliseen kuvaamiseen.

Esimerkkinä GO-annotaatiosta geenituotetta “sytokromi c” voidaan kuvata molekyylitoiminnolla oksidoreduktaasiaktiivisuus, biologisella prosessilla oksidatiivinen fosforylaatio ja solukomponentilla mitokondriaalinen matriisi.

GO-sanasto on suunniteltu lajiagnostiseksi, ja se sisältää termejä, joita voidaan soveltaa prokaryooteihin ja eukaryooteihin sekä yksi- ja monisoluisiin organismeihin.

GO-luokat (tunnetaan myös nimellä termit)

GO-luokat koostuvat määritelmästä, merkinnästä, yksilöllisestä tunnisteesta ja useista muista elementeistä. GO-termien elementit on kuvattu tässä.

GO-graafi

GO:n rakenne voidaan kuvata graafina, jossa jokainen GO-termi on solmu ja termien väliset suhteet ovat solmujen välisiä reunoja. GO on löyhästi hierarkkinen, jossa “lapsi”-termit ovat erikoistuneempia kuin niiden “vanhempi”-termit, mutta toisin kuin tiukassa hierarkiassa, termillä voi olla useampi kuin yksi vanhempi termi (huomaa, että vanhempi/lapsi-malli ei päde kaikentyyppisiin suhteisiin, ks. suhteiden dokumentaatio). Esimerkiksi biologisen prosessin termillä heksoosin biosynteettinen prosessi on kaksi vanhempaa, heksoosin aineenvaihduntaprosessi ja monosakkaridien biosynteettinen prosessi. Tämä heijastaa sitä, että biosynteettinen prosessi on metabolisen prosessin alatyyppi ja heksoosi on monosakkaridien alatyyppi.

Yksi ontologia… vai kolme?

Kuten yllä olevasta kaaviosta käy ilmi, kolmea GO-aluetta (solukomponentti, biologinen prosessi ja molekyylitoiminto) edustaa kumpikin erillinen kantaontologiatermi. Kaikki domainin termit voivat jäljittää kantansa juuritermiin, vaikkakin ontologian juureen voi olla lukuisia eri reittejä vaihtelevan määrän välitermien kautta. Kolme juurisolmua eivät liity toisiinsa, eikä niillä ole yhteistä kantasolmua, joten GO on kolme ontologiaa. Jotkin graafipohjaiset ohjelmistot saattavat vaatia yhden juurisolmun; näissä tapauksissa voidaan lisätä “väärennetty” termi kolmen olemassa olevan juurisolmun vanhemmaksi.

Kolme GO-ontologiaa on on disjoint, mikä tarkoittaa, että eri ontologioiden termien välillä ei ole suhteita. GO-ontologioiden välillä toimii kuitenkin muita suhteita, kuten part of ja regulates. Esimerkiksi molekyylitoimintatermi “sykliini-riippuvainen proteiinikinaasiaktiivisuus” on osa biologista prosessia “solusykli”. Lisätietoa suhteista löytyy täältä.

GO dynaamisena ontologiana

GO:n tavoitteena on edustaa biologian nykyistä tietämyksen tasoa, joten sitä tarkistetaan ja laajennetaan jatkuvasti biologisen tiedon karttuessa. Muutoksia tehdään viikoittain (useimmat suhteellisen vähäisiä). Ontologian tarkistuksia hallinnoi ontologian muokkaajista koostuva ryhmä, jolla on laaja kokemus sekä biologiasta että laskennallisesta tiedon esittämisestä. Päivitykset tehdään yhteistyössä GOC:n ontologiatiimin ja päivityksiä pyytävien tutkijoiden kesken. Useimmat pyynnöt tulevat tutkijoilta, jotka tekevät GO-merkintöjä (nämä vaikuttavat tyypillisesti vain muutamaan termiin), ja biologian tiettyjen alojen asiantuntijoilta (nämä tarkistavat tyypillisesti kokonaisen ontologian “haaran”, joka käsittää monia termejä ja suhteita). Kutsumme tutkijoita ja tietojenkäsittelytieteilijöitä lähettämään pyyntöjä joko uusista termeistä, uusista suhteista tai muista parannuksista ontologiaan.

Tietoa ontologiasta

  • GO-termin elementit: Kuvaus GO-termien muodosta.
  • Ontologian suhteet: Dokumentaatio GO:ssa käytetyistä termien välisistä suhteista.
  • GO statistics: Tilastot nykyisestä julkaisusta ja ajalta.

Vastaa

Sähköpostiosoitettasi ei julkaista.