Editorial on the Research Topic
RNA-Seq Analysis: Methods, Applications and Challenges
Introduction
Az RNS-seq forradalmasította a kutatóközösségek megközelítését a génexpresszió vizsgálatában. Ez a technológia ugyanis megnyitotta annak lehetőségét, hogy az összes gén expressziós szintjét egyszerre számszerűsítsük, lehetővé téve az adott vizsgálat szempontjából érdekes jelöltek ex post (és nem ex ante) kiválasztását. A költségek folyamatos csökkenése és a könyvtárkészítési protokollok modellfajoktól való függetlensége meggyőzte az érdekelt feleket, hogy fektessenek be ebbe a technológiába, olyan konzorciumok létrehozásával, amelyek képesek nagy, betegségspecifikus adathalmazok előállítására, ami viszont elősegítette a populációs szintű transzkriptomikai kutatást. Sok más mellett erényes példa ebben az értelemben a Rák Genom Atlasz. Rövid idő alatt az RNS-szekvenálás a gének kifejeződésének puszta számszerűsítésére szolgáló technológiából hatékony eszközzé vált: új transzkriptumok felfedezésére (de novo transzkriptom-összeállítással), alternatív splicing-variánsok vagy új sejttípusok jellemzésére (egysejtes RNS-szekvenálással). Az RNS-seq hasznosítása a mindennapi diagnosztikai tevékenységekben már nem álom, hanem konszolidált valóság.
Az RNS-seq-adatok kezelése nem könnyű, bár léteznek bevált legjobb gyakorlatok. A szekvenálás előtt elengedhetetlen a könyvtárkészítés gondos megtervezése a downstream analízis torzításainak minimalizálása érdekében. A költségvetés optimalizálása egy másik fontos tényező. Több minta szekvenálása növeli a statisztikai teljesítményt, és csökkenti a zaj és a variabilitás okozta nemkívánatos mellékhatásokat. A több minta azonban magasabb költségeket jelent. A multiplexálás hatékony eszköznek bizonyult a költségvetés korlátozására a minták számának feláldozása nélkül. A DNS-vonalkódolás lehetővé teszi akár 96 minta egyetlen sorban történő kombinálását, alacsonyabb szekvenálási mélységet cserélve a szekvenált minták nagyobb számára. Ennek a technikának a hátulütője az adatelemzés megnövekedett terhe, hogy ugyanazt a pontosságot érjük el, amelyet gazdagabb bemenettel érnénk el.
A szekvenálás után a fastq-adatokat validálni és feldolgozni kell, hogy a nyers leolvasásokat a génexpresszió kvantitatív mértékévé desztilláljuk. Míg a validálás valamilyen módon szabványos eljárás, a leolvasások száma az RNS típusától (mikroRNS stb.) és a célalkalmazástól függ. Általában a leolvasásokat: adaptereltávolításnak vetik alá, egy referencia genomhoz igazítják, funkcionális egységenként (pl. transzkriptek, gének, mikroRNS stb.) csoportosítják, normalizálják és megszámolják. Az ezt követő elemzések az alkalmazástól függően jelentősen eltérhetnek. A legegyszerűbb esetben a gének azon részhalmazát kell felfedezni, amely a két populáció közötti fenotípusbeli különbségekért felelős. Más esetekben a koexpressziós (vagy reverz expressziós) hálózatot kell felépíteni, hogy interakcióban lévő géneket vagy egy bizonyos fenotípushoz kapcsolódó útvonalat találjunk. Más alkalmazások ismeretlen sejttípusok felfedezését, a sejttípusok homogén családokba szerveződését, új molekulák azonosítását (pl, új mikroRNS, hosszú nem kódoló RNS stb.), vagy új variánsok vagy alternatív splicing annotálása.
Kutatási téma szervezése
Ez a kutatási téma három fő részre oszlik: öt cikk az RNS-seq munkafolyamatot tárgyalja, négy írás az egysejtes RNS-szekvenálás legújabb határterületeit tárgyalja, míg az utolsó négy írás a tumorprofilozáshoz és a növénytudományhoz kapcsolódó esettanulmányokról számol be.
Az első részben megkíséreltük elemezni az RNS-seq folyamatát (a kísérlettervezéstől az elemzésig és az új tudás kinyeréséig), kiemelve a legkorszerűbb munkafolyamatok legfontosabb választási lehetőségeit. Bár elsősorban a számítási szempontokra összpontosítottunk, úgy véljük, hogy ez a kutatási téma felkeltheti azoknak az élettudományok területére szakosodott olvasóknak az érdeklődését, akik függetlenek és önállóak kívánnak lenni saját adataik elemzésében. A szekció két cikke új módszereket ismertet: a differenciálisan expresszált gének azonosítására és a cirkRNS kódoló képességének előrejelzésére.
A második szekció az RNS-seq-adatok elemzésének egy újabb ágát mutatja be: az egysejtes szekvenálást (scRNS-seq). Bár koncepcionálisan hasonló a sejtek tömeges szekvenálásához, e technika egysejtes felbontása sok zajt vezet be, ami ad hoc elemzési módszereket igényel. E szakasz nagy részét az egysejtes RNS-szekvenálás alapvető fogalmainak bemutatásának szenteljük, a laboratóriumi protokolloktól a leggyakoribb elemzésekig. Különösen a sejttípusok klaszterezéséből származó eredmények értékelésének problémáit és a differenciális expressziós kísérletek reprodukálhatóságát tárgyaljuk. Végül ez a rész egy új módszer leírásával zárul, amellyel a szekvenálás gyenge lefedettsége miatt hiányzó számokat lehet kikövetkeztetni.
A Kutatási téma utolsó részét négy esettanulmánynak szenteltük: három tumorokkal kapcsolatos és egy növénytudományi alkalmazás. A választás hátterében az állt, hogy különböző típusú elemzéseket mutassunk be. A koncepcionálisan egyszerűbb esetben az elemzés célja a rák kialakulását prognosztizáló génpanel létrehozása volt. Ezután egy példát mutatunk egy koexpressziós hálózatra. Végül a különböző típusú RNS-ek (hosszú nem kódoló, gének, mikroRNS-ek) közötti kölcsönhatás példája került bemutatásra, amely a sejtek életét szabályozó útvonalak összetettségét mutatja be.
2.1. A sejtek életét szabályozó útvonalak összetettsége. RNA-Seq analízis
A Reed et al. a multiplexelt RNS-szekvenálás által kínált lehetőséget tárgyalja. A tanulmány több módszer összehasonlítását mutatja be immortalizált humán tüdőepitélsejtek valós adatainak felhasználásával.
A Peri et al. által javasolt RMTA, egy felhasználóbarát elemzési munkafolyamat. Az RMTA-t úgy tervezték, hogy standard előfeldolgozó eszközöket (pl. olvasásminőség-elemzés, szűrők az alacsonyan kifejezett transzkriptumokhoz és olvasásszámlálás a differenciális expressziós elemzéshez) nyújtson egy skálázható és könnyen telepíthető környezetben.
A Jimenez-Jacinto et al. egy integratív differenciális expressziós elemzés webszerverét (IDEAMEX) írja le. Az IDEAMEX logikája az, hogy megszabadítja a nem szakértő felhasználókat a UNIX-alapú környezettel való interakció (néha frusztráló) tapasztalataitól a standard differenciális expressziós elemzésekhez.
A Gao et al. egy új módszerről számol be a differenciálisan kifejezett gének azonosítására. A munka legfontosabb megfigyelése, hogy a differenciális expresszióelemző algoritmusok többségének alapjául szolgáló binomiális eloszlás nem képes megragadni az RNS-seq adatok aluldiszperziós jellemzőit.
A Sun és Li munkájában azt a problémát vizsgálja, hogy megjósolható-e, hogy egy adott körkörös RNS transzlálható-e vagy sem. A cirkuláris RNS-ek abban különböznek más RNS-típusoktól, hogy a 3′ és 5′ végpontokat összekötő gyűrűk formájában helyezkednek el. Ez a tulajdonság megnehezíti a döntést a transzlációs potenciáljukról. A kézirat egy algoritmust ad a cirkRNS-ek kódolási képességének nagy érzékenységgel történő azonosítására.
2.2. A cirkRNS-ek kódolási képessége. Egysejtes RNS-szekvenálás
A Chen et al. áttekintést ad a jelenleg elérhető egysejtes izolációs protokollokról és scRNS-seq technológiákról. Emellett a scRNA-seq-adatok elemzésének számos módszerét tárgyalják a minőségellenőrzéstől a hálózat rekonstrukciójáig.
A Krzak et al. a klaszterezés alkalmazását boncolgatja a sejtek heterogenitásának vizsgálatára. A munka célja különösen az, hogy új betekintést nyújtson a scRNAseq klaszterezés előnyeibe és hátrányaiba, kiemelve a nyitott kihívásokat.
Mou et al. a differenciális expressziós vizsgálatok reprodukálhatóságával kapcsolatos néhány kérdést vitat meg. Az ilyen típusú elemzések bonyolultsága az RNS-ek csekély számában és az ebből következő alacsonyabb jel-zaj arányban áll. A cikk bemutatja a differenciális expresszió standard és ad-hoc szoftverek előnyeit és hátrányait.
A Mongia et al. egy módszert mutat be az egysejtes expressziós adatok kiesésének imputálására. Valós adatokon végzett kísérletek azt mutatják, hogy a javasolt szoftver képes megkülönböztetni a leolvasások valódi hiányát a kieső eseményektől.
2.3. A kieséses események. Esettanulmányok
A Yin és munkatársai a differenciális expressziós elemzést a glioblasztóma kialakulására potenciálisan prognosztikus gének egy kis paneljének meghatározására használják. A cikk középpontjában az egészséges/beteg besorolás javítása áll, függetlenül a gének közötti kölcsönhatásoktól.
A Zhu és munkatársaiban az együttesen kifejezett géneket azonosítják, hogy felépítsék a kölcsönhatások hálózatát. Ezt követően a hálózatot elemzik, hogy kiválasszák a lágyrészszarkómákkal kapcsolatos hub géneket.
A Zheng et al. a különböző molekulák közötti kölcsönhatás dinamikáját vizsgálják a tüdő adenokarcinómában. A cikk beszámol arról, hogy egy hosszú nem kódoló RNS diszregulációja hogyan váltja ki a diszregulációk sorozatát, ami a sejtciklus leállását okozza.
A Tengkun et al, a genomikai és traszkriptomikai adatokat integrálják annak érdekében, hogy azonosítsák azokat a kulcsfontosságú géneket, amelyek befolyásolják az antocianin bioszintézist, átalakítva a mennyiségi tulajdonságokat minőségi tulajdonságokká.
A szerzők hozzájárulása
A szerzők mindegyike egyenlő mértékben járult hozzá a Kutatási téma összeállításához és szerkesztéséhez, valamint ehhez a szerkesztői munkához.
Finanszírozás
IS az indiai Tudományos és Technológiai Minisztérium (DST/INT/POL/P-36/2016) által nyújtott támogatással készült.
Érdekütközés
A szerzők kijelentik, hogy a kutatást olyan kereskedelmi vagy pénzügyi kapcsolatok hiányában végezték, amelyek potenciális összeférhetetlenségként értelmezhetők.