Editorial on the Research Topic
RNA-Seq Analysis: Methods, Applications and Challenges: Methods, Applications and Challenges
Introduction
RNA-seq on mullistanut tutkimusyhteisön lähestymistavan geeniekspression tutkimiseen. Itse asiassa tämä tekniikka on avannut mahdollisuuden kvantifioida kaikkien geenien ilmentymistasot kerralla, mikä mahdollistaa jälkikäteen (eikä ennakkoon) sellaisten ehdokkaiden valinnan, jotka voisivat olla kiinnostavia tietyn tutkimuksen kannalta. Kustannusten jatkuva lasku ja kirjastojen valmisteluprotokollien riippumattomuus mallilajeista ovat vakuuttaneet sidosryhmät investoimaan tähän teknologiaan perustamalla konsortioita, jotka pystyvät tuottamaan suuria tautispesifisiä tietokokonaisuuksia, jotka puolestaan edistävät transkriptomitutkimusta populaatiotasolla. Monien muiden esimerkkien joukossa The Cancer Genome Atlas on tässä mielessä hyveellinen esimerkki. Lyhyessä ajassa RNA-seq on muuttunut teknologiasta, jolla ainoastaan kvantifioidaan geenien ilmentymistä, tehokkaaksi välineeksi, jonka avulla voidaan löytää uusia transkriptejä (de novo transkriptomikokoonpanon avulla), luonnehtia vaihtoehtoisia splikointivariantteja tai uusia solutyyppejä (yksittäisten solujen RNA-sekvensoinnin avulla). RNA-seq:n hyödyntäminen päivittäisessä diagnostiikassa ei ole enää unelma vaan vakiintunutta todellisuutta.
Vakiintuneista parhaista käytännöistä huolimatta RNA-seq-datan hallinta ei ole helppoa. Ennen sekvensointia on tärkeää suunnitella huolellisesti kirjaston valmistelu, jotta voidaan minimoida myöhemmän analyysin vääristymät. Budjetin optimointi on toinen tärkeä tekijä. Useiden näytteiden sekvensointi lisää tilastollista tehoa ja vähentää kohinan ja vaihtelun aiheuttamia ei-toivottuja sivuvaikutuksia. Useammat näytteet merkitsevät kuitenkin suurempia kustannuksia. Multipleksointi on osoittautunut tehokkaaksi keinoksi rajoittaa budjettia näytteiden määrästä tinkimättä. DNA-viivakoodaus mahdollistaa jopa 96 näytteen yhdistämisen yhdeksi linjaksi, jolloin alhaisempi sekvensointisyvyys vaihtuu suurempaan sekvensoitujen näytteiden määrään. Tämän tekniikan haittapuolena on lisääntynyt data-analyysin taakka, jotta saavutetaan sama tarkkuus, joka saavutettaisiin runsaammalla syötteellä.
Sekvensoinnin jälkeen fastq-data on validoitava ja prosessoitava, jotta raakalukemat voidaan tislata kvantitatiiviseksi geeniekspression mittariksi. Vaikka validointi on jotakuinkin vakiomenettely, lukemien määrä riippuu RNA:n tyypistä (mikroRNA jne.) ja kohdesovelluksesta. Yleensä lukemat: poistetaan adapterit, kohdistetaan vertailugenomiin, ryhmitellään funktionaalisen yksikön mukaan (esim. transkriptit, geenit, mikroRNA:t jne.), normalisoidaan ja lasketaan. Seuraavat analyysit voivat vaihdella huomattavasti sovelluksen mukaan. Yksinkertaisimmillaan olisi löydettävä se geenien osajoukko, joka on vastuussa kahden populaation välisistä fenotyyppieroista. Toisissa tapauksissa voidaan haluta rakentaa yhteisekspressioverkosto (tai käänteisekspressioverkosto) vuorovaikutuksessa olevien geenien tai tiettyyn fenotyyppiin liittyvän polun löytämiseksi. Muita sovelluksia ovat tuntemattomien solutyyppien löytäminen, solutyyppien järjestäytyminen homogeenisiin perheisiin, uusien molekyylien tunnistaminen (esim, uusia mikroRNA:ita, pitkiä ei-koodaavia RNA:ita jne.) tai uusien varianttien tai vaihtoehtoisen pilkkoutumisen merkitsemistä.
Tutkimusaiheen organisointi
Tämä tutkimusaihe on jaettu kolmeen pääjaksoon: viisi artikkelia käsittelee RNA-seq-työnkulkua, neljä artikkelia käsittelee yksittäisten solujen RNA:n sekvensoinnin viimeisintä kehitystä, kun taas neljässä viimeisessä artikkelissa kerrotaan kasvainprofiilien laatimiseen ja kasvitutkimukseen liittyvistä tapaustutkimuksista.
Ensimmäisessä osassa pyrimme analysoimaan RNA-seq-prosessia (koesuunnittelusta analyysiin ja uuden tiedon louhintaan) tuomalla esiin huipputason työnkulkujen keskeiset valinnat. Vaikka olemme keskittyneet pääasiassa laskennallisiin näkökohtiin, uskomme, että tämä tutkimusaihe voi herättää niiden biotieteisiin erikoistuneiden lukijoiden kiinnostuksen, jotka aikovat tulla itsenäisiksi ja riippumattomiksi omien tietojensa analysoinnissa. Tämän osion kahdessa artikkelissa kuvataan uusia menetelmiä: differentiaalisesti ilmentyneiden geenien tunnistamiseen ja circRNA:n koodauskyvyn ennustamiseen.
Toisessa osiossa esitellään RNA-seq-datan analyysin tuorein haara: yhden solun sekvensointi (scRNA-seq). Vaikka se on käsitteellisesti samanlainen kuin solujen sekvensointi irtotavarana, tämän tekniikan yksittäisen solun resoluutio aiheuttaa paljon kohinaa, joka edellyttää ad hoc -analyysimenetelmiä. Suuri osa tästä jaksosta on omistettu yhden solun RNA-sekvensoinnin peruskäsitteiden esittelylle laboratorioprotokollista yleisimpiin analyyseihin. Erityisesti käsitellään solutyyppien klusteroinnin tulosten arviointiin liittyviä ongelmia ja differentiaali-ekspressiokokeiden toistettavuutta. Lopuksi jakso päättyy kuvaukseen uudesta menetelmästä, jolla voidaan päätellä puuttuvat lukumäärät, jotka johtuvat sekvensoinnin huonosta kattavuudesta.
Tutkimusaiheen viimeinen osa oli omistettu neljälle tapaustutkimukselle: kolme koski kasvaimia ja yksi sovellus kasvitieteessä. Tämän valinnan perusteena oli erilaisten analyysityyppien esittely. Käsitteellisesti yksinkertaisemmassa tapauksessa analyysin tavoitteena oli luoda paneeli geeneistä, jotka ennustavat syövän puhkeamista. Seuraavaksi esitetään esimerkki yhteisekspressioverkosta. Lopuksi on esitetty esimerkki erityyppisten RNA:iden (pitkät ei-koodaavat, geenit, mikroRNA:t) välisestä vuorovaikutuksesta, mikä osoittaa solujen elämää säätelevien polkujen monimutkaisuuden.
2.1. RNA-Seq-analyysi
Tässä Reed et al. käsitellään multipleksoidun RNA-sekvensoinnin tarjoamaa mahdollisuutta. Tutkimuksessa vertaillaan useita menetelmiä käyttäen todellista dataa immortalisoiduista ihmisen keuhkoepiteelisoluista.
Perissä et al. ehdotetaan RMTA:ta, käyttäjäystävällistä analyysin työnkulkua. RMTA suunniteltiin tarjoamaan vakiomuotoisia esikäsittelytyökaluja (esim. lukujen laatuanalyysi, suodattimet heikosti ekspressoituneille transkripteille ja lukujen laskenta differentiaali-ekspressioanalyysiä varten) skaalautuvassa ja helposti käyttöönotettavassa ympäristössä.
Jimenez-Jacinto et al. kuvaavat integroivan differentiaali-ekspressioanalyysin verkkopalvelimen (IDEAMEX). IDEAMEXin tarkoituksena on vapauttaa ei-asiantuntijakäyttäjät (joskus turhauttavasta) vuorovaikutuksesta UNIX-pohjaisen ympäristön kanssa tavanomaisten differentiaalisten ilmentymäanalyysien tekemisessä.
Gao et al. raportoivat uudesta menetelmästä differentiaalisesti ilmentyneiden geenien tunnistamiseksi. Tämän työn keskeinen havainto on, että useimpien differentiaalisen ilmentymisen analyysin algoritmien perustana oleva binomijakauma ei kykene vangitsemaan RNA-seq-datan alidispersio-ominaisuuksia.
Sun ja Li:n artikkelissa tutkitaan ongelmaa, joka liittyy sen ennustamiseen, voidaanko tiettyä ympyränmuotoista RNA:ta kääntää vai ei. Sirkulaariset RNA:t eroavat muista RNA-tyypeistä siinä, että ne ovat järjestäytyneet 3′- ja 5′-päätteitä yhdistäviksi renkaiksi. Tämän ominaisuuden vuoksi niiden translaatiopotentiaalia on vaikea arvioida. Käsikirjoituksessa esitetään algoritmi, jonka avulla voidaan tunnistaa circRNA:iden koodauskyky suurella herkkyydellä.
2.2. Yhden solun RNA:n sekvensointi
Chen et al. esittelee yleiskatsauksen tällä hetkellä saatavilla olevista yhden solun eristysprotokollista ja scRNA-seq-tekniikoista. Lisäksi käsitellään useita scRNA-seq-datan analysointimenetelmiä laadunvalvonnasta verkostojen rekonstruointiin.
Krzak et al. käsittelee klusteroinnin käyttöä solujen heterogeenisuuden tutkimisessa. Erityisesti tässä työssä pyritään antamaan uutta tietoa scRNAseq-klusteroinnin eduista ja haittapuolista ja korostetaan avoimia haasteita.
Mou et al. käsittelee eräitä differentiaali-ekspressiotutkimusten toistettavuuteen liittyviä kysymyksiä. Tämäntyyppisten analyysien monimutkaisuus perustuu RNA:iden vähäisyyteen ja siitä johtuvaan alhaisempaan signaali-kohinasuhteeseen. Artikkelissa esitellään standardi- ja ad-hoc-ohjelmistojen hyviä ja huonoja puolia differentiaalisen ilmentymisen analysoinnissa.
Mongia ym. esittelee yksityiskohtaisesti menetelmän, jolla yksittäisten solujen ilmentymisdatan keskeytykset voidaan imputoida. Kokeet todellisella datalla osoittavat, että ehdotettu ohjelmisto kykenee erottamaan lukujen todellisen puuttumisen dropout-tapahtumista.
2.3. Tapaustutkimukset
Yin et al. käyttävät differentiaalista ekspressioanalyysia paikallistamaan pienen paneelin geenejä, jotka mahdollisesti ennustavat glioblastooman puhkeamista. Artikkelissa keskitytään terveen/sairaan luokittelun parantamiseen riippumatta geenien välisestä vuorovaikutuksesta.
Zhu ym. artikkelissa tunnistetaan yhdessä ilmentyviä geenejä vuorovaikutusverkoston rakentamiseksi. Tämän jälkeen verkostoa analysoidaan pehmytkudossarkoomiin liittyvien hub-geenien valitsemiseksi.
Zheng et al. tutkivat eri molekyylien välisen vuorovaikutuksen dynamiikkaa keuhkojen adenokarsinoomassa. Artikkelissa kerrotaan, miten pitkän ei-koodaavan RNA:n säätelyhäiriö laukaisee säätelyhäiriöiden sarjan aiheuttaen solusyklin pysähtymisen.
Tengkun ym, genomiikan ja traskriptomiikan tiedot on integroitu, jotta voidaan tunnistaa ratkaisevat geenit, jotka vaikuttavat antosyaanien biosynteesiin muuttaen kvantitatiiviset ominaisuudet laatuominaisuuksiksi.
Tekijöiden panos
Kirjoittajat osallistuivat kaikki yhtä paljon tutkimusaiheen kokoamiseen ja muokkaamiseen sekä tähän pääkirjoitukseen.
Rahoitus
IS:ää tuki Intian tiede- ja teknologiaministeriön myöntämä apuraha (DST/INT/POL/P-36/2016).
Interintäristiriita
Tekijät ilmoittavat, että tutkimus suoritettiin ilman kaupallisia tai taloudellisia suhteita, jotka voitaisiin tulkita mahdolliseksi eturistiriidaksi.